- 1990 के दशक के मध्य से वेब और अख़बारों को संरक्षित करने वाला Internet Archive अपनी Wayback Machine के जरिए 1 ट्रिलियन से अधिक वेबपेज सहेज चुका है
- हाल में The New York Times और The Guardian जैसे प्रमुख मीडिया संस्थानों ने AI scraping की चिंता के कारण आर्काइव की crawling को ब्लॉक करना शुरू कर दिया है
- ऐसे कदम वेब के ऐतिहासिक रिकॉर्ड में टूट पैदा करते हैं, और लेखों में संपादन या हटाए जाने से पहले और बाद के बदलावों की पुष्टि करने वाला एकमात्र रिकॉर्ड भी खो सकता है
- AI training को लेकर चल रहे कानूनी विवादों से अलग, गैर-लाभकारी संरक्षण संस्थान को ब्लॉक करना सार्वजनिक हित को नुकसान पहुंचाना माना जा रहा है
- search और web archiving पहले से ही fair use के तहत कानूनी रूप से स्थापित क्षेत्र हैं, और इन्हें रोकने का मतलब है कि भविष्य के शोधकर्ता वेब का ऐतिहासिक रिकॉर्ड खो देंगे
Internet Archive को ब्लॉक करना AI को नहीं रोकेगा, लेकिन वेब के ऐतिहासिक रिकॉर्ड को मिटा देगा
- Internet Archive 1990 के दशक के मध्य से वेब और अख़बारों को संरक्षित करने वाली दुनिया की सबसे बड़ी डिजिटल लाइब्रेरी है, और Wayback Machine के जरिए 1 ट्रिलियन से अधिक वेबपेज सहेजती है
- पिछले कुछ महीनों में The New York Times ने AI content scraping को लेकर चिंता जताते हुए आर्काइव की crawling को ब्लॉक करना शुरू किया, और The Guardian सहित अन्य मीडिया संस्थान भी उसी दिशा में बढ़ते दिख रहे हैं
- यह ब्लॉकिंग सिर्फ एक तकनीकी पाबंदी नहीं है, बल्कि ऐतिहासिक रिकॉर्ड में टूट पैदा करती है
- कई बार Internet Archive ही लेखों में संपादन या हटाए जाने से पहले और बाद के बदलावों की पुष्टि करने वाला एकमात्र रिकॉर्ड होता है
- अगर मीडिया संस्थान पहुंच रोकते हैं, तो दशकों में जमा वेब रिकॉर्ड के गायब होने का खतरा है
- AI training को लेकर कानूनी विवाद जारी हैं, लेकिन गैर-लाभकारी संरक्षण संस्थान को ब्लॉक करना गलत प्रतिक्रिया माना जा रहा है
- Internet Archive व्यावसायिक AI systems विकसित नहीं करता, बल्कि ऐतिहासिक संरक्षण के सार्वजनिक हित वाले उद्देश्य को निभाता है
- AI access को नियंत्रित करने की प्रक्रिया में लाइब्रेरी की रिकॉर्ड-संरक्षण भूमिका तक को नुकसान पहुंच सकता है
Archiving और search की कानूनी वैधता
- किसी सामग्री को search योग्य बनाना fair use के रूप में लंबे समय से कानूनी मान्यता प्राप्त है
- अदालतों ने माना है कि search index बनाने के लिए मूल सामग्री की प्रतिलिपि बनाना अपरिहार्य है
- Google द्वारा पूरी पुस्तकों की प्रतिलिपि बनाकर search database तैयार करने के मामले में भी इसे transformative purpose माना गया था
- Internet Archive भी इसी सिद्धांत पर काम करता है
- जैसे कोई भौतिक लाइब्रेरी अख़बारों को संरक्षित करती है, वैसे ही आर्काइव वेब के ऐतिहासिक रिकॉर्ड को संरक्षित करता है
- शोधकर्ता और पत्रकार इसका रोज़ इस्तेमाल करते हैं, और Wikipedia भी 249 भाषाओं में 26 लाख news articles को आर्काइव से लिंक करती है
- अनगिनत blogger, researcher और journalist इसे स्थिर और भरोसेमंद स्रोत के रूप में इस्तेमाल करते हैं
-
search engine की रक्षा करने वाले कानूनी सिद्धांत archive और library पर भी समान रूप से लागू होने चाहिए
- भले ही अदालतें AI training पर कुछ सीमाएँ तय करें, search और web archiving की वैधता पहले ही स्थापित हो चुकी है
ऐतिहासिक रिकॉर्ड के संरक्षण पर संकट
- Internet Archive लगभग 30 वर्षों से वेब के ऐतिहासिक रिकॉर्ड को संभाले हुए है
- अगर प्रमुख मीडिया संस्थान इसे ब्लॉक करना शुरू कर देते हैं, तो भविष्य के शोधकर्ताओं के विशाल रिकॉर्ड खो देने की आशंका बहुत बढ़ जाएगी
- AI training से जुड़े कानूनी विवादों का समाधान अदालतों में होना चाहिए, लेकिन सार्वजनिक रिकॉर्ड की बलि चढ़ाना एक गंभीर और अपरिवर्तनीय गलती होगी, ऐसी चेतावनी दी गई है
1 टिप्पणियां
Hacker News राय
एक साइट ऑपरेटर के रूप में मैं आक्रामक AI crawlers से लड़ रहा हूँ
मुझे चिंता है कि कहीं मेरे block rules ने Internet Archive को भी block तो नहीं कर दिया
Facebook robots.txt को अनदेखा करता है और कई IPs में requests बाँटकर crawl delay को पार कर जाता है
इसलिए मैंने nginx में Facebook के लिए अलग rules रखे हैं
अब तक JA3 hash blocking सबसे असरदार रही है
लेकिन काश TCP fingerprinting के लिए hugin-net को nginx के साथ wrap करने वाला कोई wrapper होता
मुझे Rust नहीं आती, इसलिए LLM से यह करवाने में भी डर लगता है
लेकिन इस तरीके में race condition की समस्या है। पहले connection पर JA4 hash नहीं होता, और AI crawlers हर IP पर सिर्फ एक बार request करते हैं, इसलिए दूसरी request पर block करने का मौका ही नहीं मिलता
उन्होंने आधिकारिक ब्लॉग पोस्ट में कहा था कि “web archiving का भविष्य robots.txt पर कम निर्भर करेगा”
एक और समूह Archiveteam भी robots.txt को ignore करता है
आजकल बड़े archiving groups साइट ऑपरेटरों के नज़रिये की लगभग परवाह नहीं करते लगते
ऐसा हो तो शायद सिर्फ Internet Archive crawler को allow किया जा सके
अब जब लोग यह मान चुके हैं कि AI scrapers को पूरी तरह रोका नहीं जा सकता, तो वे आगे क्या सोचते हैं, यह जानना चाहता हूँ
वह दिन दूर नहीं जब human browser और LLM agent में फर्क मिट जाएगा
वे असली GUI sessions खोल सकते हैं, browser से pages navigate कर सकते हैं, और OS स्तर पर snapshots लेकर content को reconstruct कर सकते हैं
आख़िरकार public web पर access रोकने का पूरा concept ही पुराना पड़ सकता है
ऐसे में individual hosts पर बोझ कम करने का तरीका क्या होगा?
क्या कोई भरोसेमंद central archiving institution बनेगा, या LLM के ‘bad behavior’ को punish करने जैसा कोई मॉडल आएगा?
अगर browser इसे support करे, तो CDN efficiency का फायदा centralization के बिना मिल सकता है
हो सकता है CDN द्वारा data सीधे बेचने वाला मॉडल ज़्यादा efficient हो
तब लगातार scraping की demand कम हो जाएगी
लगता है बुनियादी engineering sense और accounting की समझ भुला दी गई है
media organizations अपने content के AI development पर असर को बहुत बढ़ा-चढ़ाकर देखती हैं
उनके बिना भी LLM quality में शायद बहुत बड़ा फर्क नहीं पड़ता
आख़िरकार news articles जैसे विविध text की ज़रूरत पड़ती है
AI कंपनियों को बिना सहमति इसका इस्तेमाल करने से रोकने की रणनीति उचित है
हम अभी आगज़नी करने वालों को सज़ा देने के चक्कर में पुस्तकालय जला रहे हैं
आगज़नी करने वाले तो पहले ही जा चुके हैं
इसी वजह से archive.is बना था
उसके founder को ढूँढकर सज़ा देने की कोशिश करने के बजाय, क्या उसे एक उपयोगी project मानकर support नहीं करना चाहिए?
archive.org साइट मालिकों की deletion requests मान लेता है, इसलिए पुराना domain खरीदकर उसके past records भी मिटाए जा सकते हैं
users को attack में घसीटने की वजह से वह प्रशंसा के लायक व्यक्ति नहीं है
पहले anti-spam systems बनाने वाले व्यक्ति के रूप में मुझे लगता है कि आगे चलकर साइट access के लिए भी ‘taxi license’ जैसी authentication system आ सकती है
उदाहरण के लिए, अगर Internet Archive signed HTTPS requests भेजे, तो साइट verify कर सकती है कि वह सचमुच वही है
यह open internet की भावना के खिलाफ है, लेकिन trusted crawlers को अलग पहचानने का कोई तरीका चाहिए
मैं ऐसी जानकारी के आधार पर automatic blocking decisions लेता हूँ
मैं पहले ही Amazon requests को default block करने की policy अपने blog में लिख चुका हूँ
मुझे New York Times भयानक लगता है। इसलिए ही उसे भविष्य के लिए संरक्षित किया जाना और भी ज़रूरी है
हर outlet सिर्फ वही लिखता है जो उसकी ideology से मेल खाता हो
EFF का AI पर रुख नरम है
जबकि AI internet और jobs दोनों को नुकसान पहुँचा रहा है, फिर भी वह सख्त रुख नहीं अपनाता
sponsors list देखने पर corporate sponsors बहुत दिखते हैं, इसलिए एक freedom organization के रूप में उसकी credibility कम लगती है
OSI और EFF जैसी संस्थाएँ पहले ही corporate influence में आकर हानिकारक बन चुकी हैं
अगर Internet Archive के पास distributed residential IP crawler program हो, तो मैं खुशी से उसमें भाग लूँगा
बस manipulation रोकने का mechanism होना चाहिए
अगर कोई खाद और diesel साथ बेचता है, तो उसे agricultural supplier मानना उचित है
लेकिन अगर वह किसान न होने वाले लोगों को truckload में बेच रहा हो, तो शक करना भी स्वाभाविक है