- हाल में AI कंपनियों द्वारा बिना अनुमति डेटा संग्रह की वजह से MetaBrainz के सर्वर ओवरलोड हो रहे हैं
- ये robots.txt नियमों को नज़रअंदाज़ करते हैं और MusicBrainz डेटा को पेज-दर-पेज crawl करते हैं, जो सैकड़ों साल लगने जितना अक्षम तरीका है
- यही व्यवहार ListenBrainz API तक फैल गया है, और सेवा की सुरक्षा के लिए authentication token की आवश्यकता और कुछ API बंद करने जैसे कदम लागू किए गए हैं
- LB Radio अब केवल लॉग-इन उपयोगकर्ताओं के लिए उपलब्ध है, और API call करते समय Authorization header भी ज़रूरी है
- बताया गया है कि ये कदम वैध उपयोगकर्ताओं की पहुँच बनाए रखने के लिए आवश्यक प्रतिक्रिया हैं
AI scrapers से सर्वर ओवरलोड की समस्या
- MetaBrainz टीम पिछले कुछ महीनों से AI model training के लिए डेटा इकट्ठा करने वाली अनधिकृत crawling का सामना कर रही है
- कुछ AI कंपनियाँ robots.txt जैसे बुनियादी इंटरनेट शिष्टाचार को नज़रअंदाज़ करते हुए डेटा scrape कर रही हैं
- वे MusicBrainz डेटा तक एक-एक पेज request करके पहुँचती हैं, जो पूरा डाउनलोड करने की तुलना में ज़्यादा अक्षम है और सर्वर पर भार बढ़ाता है
- यह तरीका सैकड़ों साल लगने जितना अक्षम है, और नतीजतन वैध उपयोगकर्ताओं की पहुँच में बाधा पैदा करता है
ListenBrainz API की सुरक्षा के उपाय
- AI scrapers ने ListenBrainz के कई API endpoints को निशाना बनाकर डेटा इकट्ठा करने की कोशिश की
- इसके चलते निम्नलिखित बदलाव किए गए:
/metadata/lookup API (GET और POST) अब Authorization token के बिना काम नहीं करेगा
- ListenBrainz Labs API के
mbid-mapping, mbid-mapping-release, mbid-mapping-explain endpoints हटा दिए गए हैं
- ये API मूल रूप से debugging के लिए दिए गए थे, और आगे चलकर इन्हें नए mapper के endpoint से बदला जाएगा
- LB Radio अब केवल लॉग-इन उपयोगकर्ताओं के लिए उपलब्ध है, और API call के समय Authorization header ज़रूरी है
सेवा की स्थिरता बनाए रखने के लिए आपात प्रतिक्रिया
- MetaBrainz ने कहा कि ये कदम सेवा ओवरलोड रोकने और सामान्य संचालन बनाए रखने के लिए अपरिहार्य थे
- बिना पूर्व सूचना किए गए बदलावों से हुई असुविधा के लिए माफ़ी मांगी गई, और साल के अंत वाले प्रोजेक्ट पूरे होने के बाद error messages में सुधार करने की बात कही गई
कम्युनिटी की प्रतिक्रिया
- टिप्पणियों में AI scrapers के अक्षम approach और automated web spider संरचना पर चर्चा हुई
- कुछ उपयोगकर्ताओं ने “AI workers की अक्षमता” की ओर इशारा किया
- अन्य उपयोगकर्ताओं ने समझाया कि “automated crawlers सिर्फ़ links का पीछा करते हुए डेटा इकट्ठा करते हैं”
व्यापक अर्थ
- MetaBrainz के ये कदम दिखाते हैं कि AI के लिए डेटा संग्रह open data projects को कैसे नुकसान पहुँचा रहा है
- public API की sustainability बनाए रखने के लिए authentication को मज़बूत करना और access restrictions लगाना अब अपरिहार्य होता जा रहा है
अभी कोई टिप्पणी नहीं है.