AI scrapers की वजह से अच्छी सेवाएँ बनाए रखना क्यों संभव नहीं
(blog.metabrainz.org)- हाल में AI कंपनियों द्वारा बिना अनुमति डेटा संग्रह की वजह से MetaBrainz के सर्वर ओवरलोड हो रहे हैं
- ये robots.txt नियमों को नज़रअंदाज़ करते हैं और MusicBrainz डेटा को पेज-दर-पेज crawl करते हैं, जो सैकड़ों साल लगने जितना अक्षम तरीका है
- यही व्यवहार ListenBrainz API तक फैल गया है, और सेवा की सुरक्षा के लिए authentication token की आवश्यकता और कुछ API बंद करने जैसे कदम लागू किए गए हैं
- LB Radio अब केवल लॉग-इन उपयोगकर्ताओं के लिए उपलब्ध है, और API call करते समय Authorization header भी ज़रूरी है
- बताया गया है कि ये कदम वैध उपयोगकर्ताओं की पहुँच बनाए रखने के लिए आवश्यक प्रतिक्रिया हैं
AI scrapers से सर्वर ओवरलोड की समस्या
- MetaBrainz टीम पिछले कुछ महीनों से AI model training के लिए डेटा इकट्ठा करने वाली अनधिकृत crawling का सामना कर रही है
- कुछ AI कंपनियाँ robots.txt जैसे बुनियादी इंटरनेट शिष्टाचार को नज़रअंदाज़ करते हुए डेटा scrape कर रही हैं
- वे MusicBrainz डेटा तक एक-एक पेज request करके पहुँचती हैं, जो पूरा डाउनलोड करने की तुलना में ज़्यादा अक्षम है और सर्वर पर भार बढ़ाता है
- यह तरीका सैकड़ों साल लगने जितना अक्षम है, और नतीजतन वैध उपयोगकर्ताओं की पहुँच में बाधा पैदा करता है
ListenBrainz API की सुरक्षा के उपाय
- AI scrapers ने ListenBrainz के कई API endpoints को निशाना बनाकर डेटा इकट्ठा करने की कोशिश की
- इसके चलते निम्नलिखित बदलाव किए गए:
/metadata/lookupAPI (GET और POST) अब Authorization token के बिना काम नहीं करेगा- ListenBrainz Labs API के
mbid-mapping,mbid-mapping-release,mbid-mapping-explainendpoints हटा दिए गए हैं- ये API मूल रूप से debugging के लिए दिए गए थे, और आगे चलकर इन्हें नए mapper के endpoint से बदला जाएगा
- LB Radio अब केवल लॉग-इन उपयोगकर्ताओं के लिए उपलब्ध है, और API call के समय Authorization header ज़रूरी है
सेवा की स्थिरता बनाए रखने के लिए आपात प्रतिक्रिया
- MetaBrainz ने कहा कि ये कदम सेवा ओवरलोड रोकने और सामान्य संचालन बनाए रखने के लिए अपरिहार्य थे
- बिना पूर्व सूचना किए गए बदलावों से हुई असुविधा के लिए माफ़ी मांगी गई, और साल के अंत वाले प्रोजेक्ट पूरे होने के बाद error messages में सुधार करने की बात कही गई
कम्युनिटी की प्रतिक्रिया
- टिप्पणियों में AI scrapers के अक्षम approach और automated web spider संरचना पर चर्चा हुई
- कुछ उपयोगकर्ताओं ने “AI workers की अक्षमता” की ओर इशारा किया
- अन्य उपयोगकर्ताओं ने समझाया कि “automated crawlers सिर्फ़ links का पीछा करते हुए डेटा इकट्ठा करते हैं”
व्यापक अर्थ
- MetaBrainz के ये कदम दिखाते हैं कि AI के लिए डेटा संग्रह open data projects को कैसे नुकसान पहुँचा रहा है
- public API की sustainability बनाए रखने के लिए authentication को मज़बूत करना और access restrictions लगाना अब अपरिहार्य होता जा रहा है
1 टिप्पणियां
Hacker News की राय
Metabrainz वाकई एक बेहतरीन जनहित डेटाबेस है
मैंने पहले इस विषय पर EFF ब्लॉग पोस्ट में लिखा था
Metabrainz जैसे सार्वजनिक डेटा को AI bots ले जाएँ तो ठीक है, लेकिन समस्या यह है कि वे अभी की तरह अकुशल तरीके से scrape करते हैं
आखिरकार यह coordination failure की समस्या है। Metabrainz bots की सद्भावना मानता है, लेकिन bots को लगता है कि साइट डेटा छिपा रही है
“API को बार-बार hit मत करो, यहाँ से gzipped tar file एक बार में डाउनलोड कर लो” कहने पर भी वे भरोसा नहीं करते
बल्कि अगर torrent file के रूप में दिया जाए तो bots शायद डेटा को और बेहतर साझा करें
2016 से इसे सार्वजनिक रखा था, लेकिन resource consumption इतना बढ़ गया कि अब यह सिर्फ supporters के लिए है
60 डॉलर प्रति माह वाले hobby project को बनाए रखना मुश्किल है। बाद में अगर support बढ़ा तो bot defense solution लगाकर इसे फिर खोल सकता हूँ
लेकिन यह जानकर हैरानी हुई कि यह समस्या सिर्फ मेरी नहीं है। लगता है इंटरनेट धीरे-धीरे बंद दिशा में जा रहा है
पता नहीं standard में ऐसी कोई सुविधा है या नहीं
पहले मैं भी private tracker से निकाले जाने से बचने के लिए upload ratio बढ़ा-चढ़ाकर दिखाता था
साइट मालिक की इच्छा की अनदेखी करना गलत तरीका है
कोई असली AI पेज पढ़कर फैसला नहीं कर रही, वे सिर्फ links का पीछा करते हुए documents scrape करने वाला automation code हैं
AI मुक्त वेब इकोसिस्टम को नष्ट कर रही है
मेरे web host ने अचानक बढ़े bot traffic की वजह से मेरा account suspend कर दिया
आखिरकार मुझे नए host पर जाना पड़ा, लेकिन व्यक्तिगत operators के लिए ऐसी स्थिति में कोई उम्मीद नहीं है
AI कंपनियों के पास असीम resources हैं और उन्हें नुकसान की परवाह नहीं
निंदक नज़रिए से देखें तो यह एक जानबूझकर बनाई गई रणनीति भी हो सकती है — free sites को खत्म करो ताकि लोग आखिर में सिर्फ AI models के ज़रिए ही जानकारी लें
जानकारी साझा करने की आर्थिक व्यवहार्यता टूट रही है
आखिर में कुछ गिनी-चुनी कंपनियाँ मूल्य पर कब्ज़ा कर लेंगी, और बाद में enshittification शुरू होगी
मैं अपने बच्चे के स्कूल की PTA वेबसाइट संभालता हूँ, और OpenAI bot event calendar को random तरीके से scrape कर रहा था
वर्ष 1000 से 3000 तक के requests आ रहे थे
User-Agent block करने के बाद लगभग 4 घंटे में जाकर यह रुका
मैं Google Cloud के e2-micro VPS पर static website और cgit instance चला रहा हूँ
160 दिनों में OpenAI और Claude से 85 लाख से ज़्यादा requests मिलीं
इसलिए मैंने lighttpd में ऐसा सेट किया कि User-Agent में “claude|openai” हो तो 403 return करे, और nftables से rate limiting लगाई
असली समस्या residential proxies इस्तेमाल करने वाले botnets हैं। वे सामान्य browser होने का नाटक करके आते हैं
समझ नहीं आता Microsoft इसे रोक रहा है, या मेरा blog bots की रुचि के लायक नहीं है
Cloudflare अब AI scraper detection service देता है
detect किए गए bots को अनंत लूप वाले AI-generated pages की ओर मोड़ देता है
आखिरकार इसका मतलब है कि कोई third party तय करे कि मेरे content तक किसे पहुँच मिले, जो असहज है
मुझे भी इससे बहुत शिकायतें थीं, इसलिए आखिरकार हटा दिया
SQLite टीम ने भी ऐसी ही समस्या झेली
संस्थापक Richard Hipp ने ‘स्वार्थी व्यवहार’ की आलोचना करते हुए कहा कि “सीधे पूरा repository clone कर सकते हैं, फिर भी दूसरों को नुकसान पहुँचाते हुए scrape करते हैं”
संबंधित forum post देखें
समय के साथ मुझे और लगता है कि सारी crawling को Common Crawl जैसे सार्वजनिक चैनल में समेकित करना चाहिए
server load कम रखते हुए वेब की खुली प्रकृति और scrapeability बनाए रखनी होगी
उदाहरण के लिए
/well-known/path के नीचे timestamp वाले data dump links रखने जैसा कोई standard बनाया जा सकता हैमैंने भी करीब एक घंटे में इसे डाउनलोड किया, और उसके बाद local queries से काम चलाया
लेकिन ज्यादातर लोग अब भी dump का इस्तेमाल नहीं करते, क्योंकि scraping ज़्यादा आसान है
प्रस्ताव यह है कि एक निश्चित अवधि के बाद डेटा “national dataset” में दान किया जाए, AI training में उसका उपयोग हो और आमदनी copyright holders में बाँटी जाए
इससे AI developers, copyright holders और आम जनता — तीनों को लाभ हो सकता है
AI से code generate कराकर VPS price lists जैसी चीज़ें अपने-आप इकट्ठी करता हूँ
पहले lowendtalk की सारी headlines scrape करके LLM analysis dataset भी बनाया था
/llms.txtजैसी standard file बनाना भी एक तरीका हो सकता है, जिसमें LLM को चाहिए सिर्फ शुद्ध text data दिया जाएURL, पते, phone numbers जैसी चीज़ें हटा दी जाएँ, और
<item>व<subitem>जैसी न्यूनतम markup ही रखी जाएहालांकि कई साइटें सिर्फ format निभाने के लिए खाली file भी रख सकती हैं
विशाल पूँजी अल्पकालिक लाभ के लिए वेब को बिगाड़ रही है
फिर भी मेरा मानना है कि आखिरकार अनुकूलन और संतुलन उभर आएँगे
आजकल सिर्फ AI scrapers ही नहीं, बल्कि यूज़र खुद summary requests के ज़रिए अप्रत्यक्ष scraping कर रहे हैं
उदाहरण के लिए Firefox लिंक पर क्लिक किए बिना भी summary preview देता है
संबंधित इमेज
आखिर में browser खुद page fetch करके summary बनाता है, इसलिए साइट की नज़र में यह वही request दिखती है
Mozilla की आधिकारिक व्याख्या देखें
आजकल scrapers residential IP pools का इस्तेमाल करके detection से बचते हैं
ऐसी स्थिति में नहीं पता कि बचाव के उपाय कितने समय तक असरदार रहेंगे