AI scrapers की वजह से अच्छी सेवाएँ बनाए रखना क्यों संभव नहीं

(blog.metabrainz.org)

1 पॉइंट द्वारा GN⁺ 2026-01-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

हाल में AI कंपनियों द्वारा बिना अनुमति डेटा संग्रह की वजह से MetaBrainz के सर्वर ओवरलोड हो रहे हैं
ये robots.txt नियमों को नज़रअंदाज़ करते हैं और MusicBrainz डेटा को पेज-दर-पेज crawl करते हैं, जो सैकड़ों साल लगने जितना अक्षम तरीका है
यही व्यवहार ListenBrainz API तक फैल गया है, और सेवा की सुरक्षा के लिए authentication token की आवश्यकता और कुछ API बंद करने जैसे कदम लागू किए गए हैं
LB Radio अब केवल लॉग-इन उपयोगकर्ताओं के लिए उपलब्ध है, और API call करते समय Authorization header भी ज़रूरी है
बताया गया है कि ये कदम वैध उपयोगकर्ताओं की पहुँच बनाए रखने के लिए आवश्यक प्रतिक्रिया हैं

AI scrapers से सर्वर ओवरलोड की समस्या

MetaBrainz टीम पिछले कुछ महीनों से AI model training के लिए डेटा इकट्ठा करने वाली अनधिकृत crawling का सामना कर रही है
- कुछ AI कंपनियाँ robots.txt जैसे बुनियादी इंटरनेट शिष्टाचार को नज़रअंदाज़ करते हुए डेटा scrape कर रही हैं
- वे MusicBrainz डेटा तक एक-एक पेज request करके पहुँचती हैं, जो पूरा डाउनलोड करने की तुलना में ज़्यादा अक्षम है और सर्वर पर भार बढ़ाता है
यह तरीका सैकड़ों साल लगने जितना अक्षम है, और नतीजतन वैध उपयोगकर्ताओं की पहुँच में बाधा पैदा करता है

ListenBrainz API की सुरक्षा के उपाय

AI scrapers ने ListenBrainz के कई API endpoints को निशाना बनाकर डेटा इकट्ठा करने की कोशिश की
इसके चलते निम्नलिखित बदलाव किए गए:
- /metadata/lookup API (GET और POST) अब Authorization token के बिना काम नहीं करेगा
- ListenBrainz Labs API के mbid-mapping, mbid-mapping-release, mbid-mapping-explain endpoints हटा दिए गए हैं
  - ये API मूल रूप से debugging के लिए दिए गए थे, और आगे चलकर इन्हें नए mapper के endpoint से बदला जाएगा
- LB Radio अब केवल लॉग-इन उपयोगकर्ताओं के लिए उपलब्ध है, और API call के समय Authorization header ज़रूरी है

सेवा की स्थिरता बनाए रखने के लिए आपात प्रतिक्रिया

MetaBrainz ने कहा कि ये कदम सेवा ओवरलोड रोकने और सामान्य संचालन बनाए रखने के लिए अपरिहार्य थे
बिना पूर्व सूचना किए गए बदलावों से हुई असुविधा के लिए माफ़ी मांगी गई, और साल के अंत वाले प्रोजेक्ट पूरे होने के बाद error messages में सुधार करने की बात कही गई

कम्युनिटी की प्रतिक्रिया

टिप्पणियों में AI scrapers के अक्षम approach और automated web spider संरचना पर चर्चा हुई
- कुछ उपयोगकर्ताओं ने “AI workers की अक्षमता” की ओर इशारा किया
- अन्य उपयोगकर्ताओं ने समझाया कि “automated crawlers सिर्फ़ links का पीछा करते हुए डेटा इकट्ठा करते हैं”

व्यापक अर्थ

MetaBrainz के ये कदम दिखाते हैं कि AI के लिए डेटा संग्रह open data projects को कैसे नुकसान पहुँचा रहा है
public API की sustainability बनाए रखने के लिए authentication को मज़बूत करना और access restrictions लगाना अब अपरिहार्य होता जा रहा है

1 टिप्पणियां

GN⁺ 2026-01-14

Hacker News की राय

Metabrainz वाकई एक बेहतरीन जनहित डेटाबेस है
मैंने पहले इस विषय पर EFF ब्लॉग पोस्ट में लिखा था
Metabrainz जैसे सार्वजनिक डेटा को AI bots ले जाएँ तो ठीक है, लेकिन समस्या यह है कि वे अभी की तरह अकुशल तरीके से scrape करते हैं
आखिरकार यह coordination failure की समस्या है। Metabrainz bots की सद्भावना मानता है, लेकिन bots को लगता है कि साइट डेटा छिपा रही है
“API को बार-बार hit मत करो, यहाँ से gzipped tar file एक बार में डाउनलोड कर लो” कहने पर भी वे भरोसा नहीं करते
बल्कि अगर torrent file के रूप में दिया जाए तो bots शायद डेटा को और बेहतर साझा करें
- मैंने भी AI scrapers की वजह से अपनी साइट tvnfo.com बंद कर दी
  2016 से इसे सार्वजनिक रखा था, लेकिन resource consumption इतना बढ़ गया कि अब यह सिर्फ supporters के लिए है
  60 डॉलर प्रति माह वाले hobby project को बनाए रखना मुश्किल है। बाद में अगर support बढ़ा तो bot defense solution लगाकर इसे फिर खोल सकता हूँ
  लेकिन यह जानकर हैरानी हुई कि यह समस्या सिर्फ मेरी नहीं है। लगता है इंटरनेट धीरे-धीरे बंद दिशा में जा रहा है
- सोच रहा हूँ कि क्या robots.txt से “यहाँ से tar file ले जाओ” बताने का कोई तरीका है
  पता नहीं standard में ऐसी कोई सुविधा है या नहीं
- अगर bots torrent इस्तेमाल करें, तो sharing statistics manipulation भी संभव है
  पहले मैं भी private tracker से निकाले जाने से बचने के लिए upload ratio बढ़ा-चढ़ाकर दिखाता था
- यह कि bots साइट को शत्रुतापूर्ण इकाई मानते हैं, एक गंभीर समस्या है
  साइट मालिक की इच्छा की अनदेखी करना गलत तरीका है
- सच तो यह है कि ज्यादातर “AI scrapers” बस साधारण recursive crawler scripts हैं
  कोई असली AI पेज पढ़कर फैसला नहीं कर रही, वे सिर्फ links का पीछा करते हुए documents scrape करने वाला automation code हैं
AI मुक्त वेब इकोसिस्टम को नष्ट कर रही है
मेरे web host ने अचानक बढ़े bot traffic की वजह से मेरा account suspend कर दिया
आखिरकार मुझे नए host पर जाना पड़ा, लेकिन व्यक्तिगत operators के लिए ऐसी स्थिति में कोई उम्मीद नहीं है
AI कंपनियों के पास असीम resources हैं और उन्हें नुकसान की परवाह नहीं
निंदक नज़रिए से देखें तो यह एक जानबूझकर बनाई गई रणनीति भी हो सकती है — free sites को खत्म करो ताकि लोग आखिर में सिर्फ AI models के ज़रिए ही जानकारी लें
- AI summary services स्वतंत्र वेब का आधे से ज़्यादा traffic छीन रही हैं
  जानकारी साझा करने की आर्थिक व्यवहार्यता टूट रही है
  आखिर में कुछ गिनी-चुनी कंपनियाँ मूल्य पर कब्ज़ा कर लेंगी, और बाद में enshittification शुरू होगी
मैं अपने बच्चे के स्कूल की PTA वेबसाइट संभालता हूँ, और OpenAI bot event calendar को random तरीके से scrape कर रहा था
वर्ष 1000 से 3000 तक के requests आ रहे थे
User-Agent block करने के बाद लगभग 4 घंटे में जाकर यह रुका
मैं Google Cloud के e2-micro VPS पर static website और cgit instance चला रहा हूँ
160 दिनों में OpenAI और Claude से 85 लाख से ज़्यादा requests मिलीं
इसलिए मैंने lighttpd में ऐसा सेट किया कि User-Agent में “claude|openai” हो तो 403 return करे, और nftables से rate limiting लगाई
- ये bots फिर भी अपेक्षाकृत “ज़िम्मेदार” हैं
  असली समस्या residential proxies इस्तेमाल करने वाले botnets हैं। वे सामान्य browser होने का नाटक करके आते हैं
- OpenAI official bot IP list प्रकाशित करता है, लेकिन Anthropic ऐसा नहीं करता
- दिलचस्प बात यह है कि मेरे GitHub blog पर ऐसी scraping बिल्कुल नहीं होती
  समझ नहीं आता Microsoft इसे रोक रहा है, या मेरा blog bots की रुचि के लायक नहीं है
Cloudflare अब AI scraper detection service देता है
detect किए गए bots को अनंत लूप वाले AI-generated pages की ओर मोड़ देता है
- लेकिन ऐसा करने के लिए सारा traffic Cloudflare से होकर गुजरना पड़ता है
  आखिरकार इसका मतलब है कि कोई third party तय करे कि मेरे content तक किसे पहुँच मिले, जो असहज है
- Cloudflare अक्सर VPN और rare browser users के लिए access problems पैदा करता है
  मुझे भी इससे बहुत शिकायतें थीं, इसलिए आखिरकार हटा दिया
- मुझे नहीं लगता कि यह “TLS add/remove service” के रूप में उपयुक्त है
- संबंधित विचार के रूप में Poison Fountain प्रोजेक्ट है
- अगर Cloudflare काफी ज़्यादा साइटें अपने पास ले आए, तो वह AI कंपनियों से cache access fee भी ले सकता है
SQLite टीम ने भी ऐसी ही समस्या झेली
संस्थापक Richard Hipp ने ‘स्वार्थी व्यवहार’ की आलोचना करते हुए कहा कि “सीधे पूरा repository clone कर सकते हैं, फिर भी दूसरों को नुकसान पहुँचाते हुए scrape करते हैं”
संबंधित forum post देखें
- लेकिन किसी ने यह कहकर पलटकर जवाब दिया कि “इसे malicious कहना कुछ ज़्यादा बढ़ा-चढ़ाकर कहना है”
समय के साथ मुझे और लगता है कि सारी crawling को Common Crawl जैसे सार्वजनिक चैनल में समेकित करना चाहिए
server load कम रखते हुए वेब की खुली प्रकृति और scrapeability बनाए रखनी होगी
उदाहरण के लिए /well-known/ path के नीचे timestamp वाले data dump links रखने जैसा कोई standard बनाया जा सकता है
- MetaBrainz पहले से यह तरीका इस्तेमाल करता है — वह पूरा DB tarball के रूप में देता है
  मैंने भी करीब एक घंटे में इसे डाउनलोड किया, और उसके बाद local queries से काम चलाया
  लेकिन ज्यादातर लोग अब भी dump का इस्तेमाल नहीं करते, क्योंकि scraping ज़्यादा आसान है
- मेरे हिसाब से copyright system reform की ज़रूरत है
  प्रस्ताव यह है कि एक निश्चित अवधि के बाद डेटा “national dataset” में दान किया जाए, AI training में उसका उपयोग हो और आमदनी copyright holders में बाँटी जाए
  इससे AI developers, copyright holders और आम जनता — तीनों को लाभ हो सकता है
- मैं भी व्यक्तिगत रूप से Tampermonkey scripts से छोटे पैमाने की scraping करता हूँ
  AI से code generate कराकर VPS price lists जैसी चीज़ें अपने-आप इकट्ठी करता हूँ
  पहले lowendtalk की सारी headlines scrape करके LLM analysis dataset भी बनाया था
- /llms.txt जैसी standard file बनाना भी एक तरीका हो सकता है, जिसमें LLM को चाहिए सिर्फ शुद्ध text data दिया जाए
  URL, पते, phone numbers जैसी चीज़ें हटा दी जाएँ, और <item> व <subitem> जैसी न्यूनतम markup ही रखी जाए
  हालांकि कई साइटें सिर्फ format निभाने के लिए खाली file भी रख सकती हैं
- असल में यह तकनीकी नहीं बल्कि आर्थिक संरचना की समस्या है
  विशाल पूँजी अल्पकालिक लाभ के लिए वेब को बिगाड़ रही है
  फिर भी मेरा मानना है कि आखिरकार अनुकूलन और संतुलन उभर आएँगे
आजकल सिर्फ AI scrapers ही नहीं, बल्कि यूज़र खुद summary requests के ज़रिए अप्रत्यक्ष scraping कर रहे हैं
उदाहरण के लिए Firefox लिंक पर क्लिक किए बिना भी summary preview देता है
संबंधित इमेज
- यह फीचर locally llama.cpp(wllama) पर चलने वाला SmolLM2-360M model summary बनाता है
  आखिर में browser खुद page fetch करके summary बनाता है, इसलिए साइट की नज़र में यह वही request दिखती है
  Mozilla की आधिकारिक व्याख्या देखें
- समस्या तीन हैं
  1. AI कंपनियों की अनैतिक crawling
  2. यूज़र्स की agent-based summary requests
  3. ऐसे agents इंसानों से कम कुशल लेकिन कहीं ज़्यादा तेज़ होते हैं
- लेकिन यूज़र्स को किसी ने “train” नहीं किया; वे सिर्फ इसलिए इसका इस्तेमाल कर रहे हैं क्योंकि LLM सच में बहुत अच्छा काम करता है
आजकल scrapers residential IP pools का इस्तेमाल करके detection से बचते हैं
- शक होता है कि ऐसे IP pools देने वाले ISP ने नया revenue model बना लिया है
- ऊपर से अब वास्तविक browser चलाने वाले bots भी बहुत हैं, जो Cloudflare captcha भी पार कर लेते हैं
  ऐसी स्थिति में नहीं पता कि बचाव के उपाय कितने समय तक असरदार रहेंगे

AI scrapers की वजह से अच्छी सेवाएँ बनाए रखना क्यों संभव नहीं

AI scrapers से सर्वर ओवरलोड की समस्या

ListenBrainz API की सुरक्षा के उपाय

सेवा की स्थिरता बनाए रखने के लिए आपात प्रतिक्रिया

कम्युनिटी की प्रतिक्रिया

व्यापक अर्थ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय