6 पॉइंट द्वारा GN⁺ 2026-03-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 1990 के दशक के मध्य से वेब और अख़बारों को संरक्षित करने वाला Internet Archive अपनी Wayback Machine के जरिए 1 ट्रिलियन से अधिक वेबपेज सहेज चुका है
  • हाल में The New York Times और The Guardian जैसे प्रमुख मीडिया संस्थानों ने AI scraping की चिंता के कारण आर्काइव की crawling को ब्लॉक करना शुरू कर दिया है
  • ऐसे कदम वेब के ऐतिहासिक रिकॉर्ड में टूट पैदा करते हैं, और लेखों में संपादन या हटाए जाने से पहले और बाद के बदलावों की पुष्टि करने वाला एकमात्र रिकॉर्ड भी खो सकता है
  • AI training को लेकर चल रहे कानूनी विवादों से अलग, गैर-लाभकारी संरक्षण संस्थान को ब्लॉक करना सार्वजनिक हित को नुकसान पहुंचाना माना जा रहा है
  • search और web archiving पहले से ही fair use के तहत कानूनी रूप से स्थापित क्षेत्र हैं, और इन्हें रोकने का मतलब है कि भविष्य के शोधकर्ता वेब का ऐतिहासिक रिकॉर्ड खो देंगे

Internet Archive को ब्लॉक करना AI को नहीं रोकेगा, लेकिन वेब के ऐतिहासिक रिकॉर्ड को मिटा देगा

  • Internet Archive 1990 के दशक के मध्य से वेब और अख़बारों को संरक्षित करने वाली दुनिया की सबसे बड़ी डिजिटल लाइब्रेरी है, और Wayback Machine के जरिए 1 ट्रिलियन से अधिक वेबपेज सहेजती है
  • पिछले कुछ महीनों में The New York Times ने AI content scraping को लेकर चिंता जताते हुए आर्काइव की crawling को ब्लॉक करना शुरू किया, और The Guardian सहित अन्य मीडिया संस्थान भी उसी दिशा में बढ़ते दिख रहे हैं
  • यह ब्लॉकिंग सिर्फ एक तकनीकी पाबंदी नहीं है, बल्कि ऐतिहासिक रिकॉर्ड में टूट पैदा करती है
    • कई बार Internet Archive ही लेखों में संपादन या हटाए जाने से पहले और बाद के बदलावों की पुष्टि करने वाला एकमात्र रिकॉर्ड होता है
    • अगर मीडिया संस्थान पहुंच रोकते हैं, तो दशकों में जमा वेब रिकॉर्ड के गायब होने का खतरा है
  • AI training को लेकर कानूनी विवाद जारी हैं, लेकिन गैर-लाभकारी संरक्षण संस्थान को ब्लॉक करना गलत प्रतिक्रिया माना जा रहा है
    • Internet Archive व्यावसायिक AI systems विकसित नहीं करता, बल्कि ऐतिहासिक संरक्षण के सार्वजनिक हित वाले उद्देश्य को निभाता है
    • AI access को नियंत्रित करने की प्रक्रिया में लाइब्रेरी की रिकॉर्ड-संरक्षण भूमिका तक को नुकसान पहुंच सकता है

Archiving और search की कानूनी वैधता

  • किसी सामग्री को search योग्य बनाना fair use के रूप में लंबे समय से कानूनी मान्यता प्राप्त है
    • अदालतों ने माना है कि search index बनाने के लिए मूल सामग्री की प्रतिलिपि बनाना अपरिहार्य है
    • Google द्वारा पूरी पुस्तकों की प्रतिलिपि बनाकर search database तैयार करने के मामले में भी इसे transformative purpose माना गया था
  • Internet Archive भी इसी सिद्धांत पर काम करता है
    • जैसे कोई भौतिक लाइब्रेरी अख़बारों को संरक्षित करती है, वैसे ही आर्काइव वेब के ऐतिहासिक रिकॉर्ड को संरक्षित करता है
    • शोधकर्ता और पत्रकार इसका रोज़ इस्तेमाल करते हैं, और Wikipedia भी 249 भाषाओं में 26 लाख news articles को आर्काइव से लिंक करती है
    • अनगिनत blogger, researcher और journalist इसे स्थिर और भरोसेमंद स्रोत के रूप में इस्तेमाल करते हैं
  • search engine की रक्षा करने वाले कानूनी सिद्धांत archive और library पर भी समान रूप से लागू होने चाहिए

    • भले ही अदालतें AI training पर कुछ सीमाएँ तय करें, search और web archiving की वैधता पहले ही स्थापित हो चुकी है

ऐतिहासिक रिकॉर्ड के संरक्षण पर संकट

  • Internet Archive लगभग 30 वर्षों से वेब के ऐतिहासिक रिकॉर्ड को संभाले हुए है
  • अगर प्रमुख मीडिया संस्थान इसे ब्लॉक करना शुरू कर देते हैं, तो भविष्य के शोधकर्ताओं के विशाल रिकॉर्ड खो देने की आशंका बहुत बढ़ जाएगी
  • AI training से जुड़े कानूनी विवादों का समाधान अदालतों में होना चाहिए, लेकिन सार्वजनिक रिकॉर्ड की बलि चढ़ाना एक गंभीर और अपरिवर्तनीय गलती होगी, ऐसी चेतावनी दी गई है

1 टिप्पणियां

 
GN⁺ 2026-03-22
Hacker News राय
  • एक साइट ऑपरेटर के रूप में मैं आक्रामक AI crawlers से लड़ रहा हूँ
    मुझे चिंता है कि कहीं मेरे block rules ने Internet Archive को भी block तो नहीं कर दिया
    Facebook robots.txt को अनदेखा करता है और कई IPs में requests बाँटकर crawl delay को पार कर जाता है
    इसलिए मैंने nginx में Facebook के लिए अलग rules रखे हैं
    अब तक JA3 hash blocking सबसे असरदार रही है
    लेकिन काश TCP fingerprinting के लिए hugin-net को nginx के साथ wrap करने वाला कोई wrapper होता
    मुझे Rust नहीं आती, इसलिए LLM से यह करवाने में भी डर लगता है
    लेकिन इस तरीके में race condition की समस्या है। पहले connection पर JA4 hash नहीं होता, और AI crawlers हर IP पर सिर्फ एक बार request करते हैं, इसलिए दूसरी request पर block करने का मौका ही नहीं मिलता

    • Internet Archive भी robots.txt का पालन नहीं करता
      उन्होंने आधिकारिक ब्लॉग पोस्ट में कहा था कि “web archiving का भविष्य robots.txt पर कम निर्भर करेगा”
      एक और समूह Archiveteam भी robots.txt को ignore करता है
      आजकल बड़े archiving groups साइट ऑपरेटरों के नज़रिये की लगभग परवाह नहीं करते लगते
    • JA3 randomization या disguise जैसी evasion techniques detection को आसानी से bypass कर देती हैं
    • मैं सोच रहा हूँ कि क्या whitelist key से signed requests ही pass होने देने वाला कोई bot blocking bypass mechanism संभव है
      ऐसा हो तो शायद सिर्फ Internet Archive crawler को allow किया जा सके
  • अब जब लोग यह मान चुके हैं कि AI scrapers को पूरी तरह रोका नहीं जा सकता, तो वे आगे क्या सोचते हैं, यह जानना चाहता हूँ
    वह दिन दूर नहीं जब human browser और LLM agent में फर्क मिट जाएगा
    वे असली GUI sessions खोल सकते हैं, browser से pages navigate कर सकते हैं, और OS स्तर पर snapshots लेकर content को reconstruct कर सकते हैं
    आख़िरकार public web पर access रोकने का पूरा concept ही पुराना पड़ सकता है
    ऐसे में individual hosts पर बोझ कम करने का तरीका क्या होगा?
    क्या कोई भरोसेमंद central archiving institution बनेगा, या LLM के ‘bad behavior’ को punish करने जैसा कोई मॉडल आएगा?

    • हमें अब तक सीख लेना चाहिए था कि internet laws में वास्तविक enforcement power लगभग नहीं होती
    • content hashes दे दिए जाएँ और असली data IPFS या BitTorrent जैसी जगहों से fetch कराया जाए, तो साइट का load कम हो सकता है
      अगर browser इसे support करे, तो CDN efficiency का फायदा centralization के बिना मिल सकता है
    • अगर आप public web पर पोस्ट ही न करें, तो scraping की चिंता खत्म हो जाती है
      हो सकता है CDN द्वारा data सीधे बेचने वाला मॉडल ज़्यादा efficient हो
    • अभी हज़ारों AI कंपनियाँ पूरे web को scrape कर रही हैं, लेकिन AI bubble फूटने पर आख़िर में कुछ ही बचेंगी
      तब लगातार scraping की demand कम हो जाएगी
    • असली समस्या traffic load और bandwidth cost है
      लगता है बुनियादी engineering sense और accounting की समझ भुला दी गई है
  • media organizations अपने content के AI development पर असर को बहुत बढ़ा-चढ़ाकर देखती हैं
    उनके बिना भी LLM quality में शायद बहुत बड़ा फर्क नहीं पड़ता

    • सिर्फ Wikipedia, Reddit और research papers से काम नहीं चलेगा
      आख़िरकार news articles जैसे विविध text की ज़रूरत पड़ती है
    • web जितना AI-generated content से भरता जाएगा, इंसानों द्वारा लिखे text की value उतनी बढ़ेगी
      AI कंपनियों को बिना सहमति इसका इस्तेमाल करने से रोकने की रणनीति उचित है
  • हम अभी आगज़नी करने वालों को सज़ा देने के चक्कर में पुस्तकालय जला रहे हैं
    आगज़नी करने वाले तो पहले ही जा चुके हैं

    • लेकिन हकीकत में पुस्तकालय आने वालों में 90% शायद वही आगज़नी करने वाले हों
  • इसी वजह से archive.is बना था
    उसके founder को ढूँढकर सज़ा देने की कोशिश करने के बजाय, क्या उसे एक उपयोगी project मानकर support नहीं करना चाहिए?

    • सहमत। अगर archive.is गायब हो गया, तो archive.org का monopoly हो जाएगा
      archive.org साइट मालिकों की deletion requests मान लेता है, इसलिए पुराना domain खरीदकर उसके past records भी मिटाए जा सकते हैं
    • लेकिन archive.is के founder पर पहले journalists पर DDoS attack करने का आरोप रहा है
      users को attack में घसीटने की वजह से वह प्रशंसा के लायक व्यक्ति नहीं है
  • पहले anti-spam systems बनाने वाले व्यक्ति के रूप में मुझे लगता है कि आगे चलकर साइट access के लिए भी ‘taxi license’ जैसी authentication system आ सकती है
    उदाहरण के लिए, अगर Internet Archive signed HTTPS requests भेजे, तो साइट verify कर सकती है कि वह सचमुच वही है
    यह open internet की भावना के खिलाफ है, लेकिन trusted crawlers को अलग पहचानने का कोई तरीका चाहिए

    • मैं उन crawlers से, जो इंसानों जैसे नहीं लगते, यह अपेक्षा करता हूँ
      • reverse DNS मौजूद हो, और उस domain पर behavior policy page हो
      • IP-based TXT record में यह बताया गया हो कि कौन, कब, और कितनी बार access करेगा
        मैं ऐसी जानकारी के आधार पर automatic blocking decisions लेता हूँ
        मैं पहले ही Amazon requests को default block करने की policy अपने blog में लिख चुका हूँ
  • मुझे New York Times भयानक लगता है। इसलिए ही उसे भविष्य के लिए संरक्षित किया जाना और भी ज़रूरी है

    • सभी media के opinion articles अंततः propaganda ही होते हैं
      हर outlet सिर्फ वही लिखता है जो उसकी ideology से मेल खाता हो
    • यह इतना बुरा क्यों लगता है, यह जानने की जिज्ञासा है। मैं इसे पढ़ता नहीं हूँ
  • EFF का AI पर रुख नरम है
    जबकि AI internet और jobs दोनों को नुकसान पहुँचा रहा है, फिर भी वह सख्त रुख नहीं अपनाता
    sponsors list देखने पर corporate sponsors बहुत दिखते हैं, इसलिए एक freedom organization के रूप में उसकी credibility कम लगती है
    OSI और EFF जैसी संस्थाएँ पहले ही corporate influence में आकर हानिकारक बन चुकी हैं

  • अगर Internet Archive के पास distributed residential IP crawler program हो, तो मैं खुशी से उसमें भाग लूँगा
    बस manipulation रोकने का mechanism होना चाहिए

    • Internet Archive के पास ऐसा नहीं है, लेकिन Archive Team Warrior है
    • IA सब कुछ पूरी तरह public तरीके से करता है, और अनुचित DMCA requests का भी सम्मान करता है
    • अगर वे अपनी तरफ TLS terminate करें, तो यह आसान हो जाता है। अंततः यह residential proxy की तरह काम करेगा
  • अगर कोई खाद और diesel साथ बेचता है, तो उसे agricultural supplier मानना उचित है
    लेकिन अगर वह किसान न होने वाले लोगों को truckload में बेच रहा हो, तो शक करना भी स्वाभाविक है