AI scraping की चिंताओं के चलते समाचार संस्थान Internet Archive की पहुँच सीमित कर रहे हैं

(niemanlab.org)

2 पॉइंट द्वारा GN⁺ 2026-02-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

प्रमुख समाचार संस्थान AI training के लिए data collection रोकने के उद्देश्य से Internet Archive की पहुँच को ब्लॉक या सीमित कर रहे हैं
The Guardian ने Internet Archive के API और Wayback Machine से article pages को हटा दिया है, और केवल कुछ home व topic pages छोड़े हैं
The New York Times ने 2025 के अंत से robots.txt में archive.org_bot जोड़कर crawling को पूरी तरह ब्लॉक कर दिया है
Gannett(USA Today Co.) सहित 241 news sites ने कम-से-कम एक Internet Archive bot को ब्लॉक किया है; कई sites ने Common Crawl, OpenAI और Google AI को भी साथ में ब्लॉक किया है
ये कदम AI कंपनियों द्वारा बिना अनुमति data use के खिलाफ प्रतिक्रिया हैं, और साथ ही digital record preservation तथा information accessibility के बीच संतुलन के सवाल को भी उजागर करते हैं

प्रमुख समाचार संस्थानों द्वारा Internet Archive की पहुँच पर प्रतिबंध

The Guardian ने इस आशंका के कारण पहुँच सीमित की कि AI कंपनियाँ Internet Archive के माध्यम से content collect कर सकती हैं
- API और Wayback Machine के article URL interface से अपने article pages को बाहर कर दिया
- regional home और topic pages आदि अब भी Wayback Machine में उपलब्ध हैं
- Robert Hahn ने कहा, “AI कंपनियाँ structured databases को प्राथमिकता देती हैं, और Internet Archive का API उस रास्ते की तरह इस्तेमाल हो सकता है”
The Guardian ने पूरी तरह ब्लॉक नहीं किया है, और कहा कि वह Internet Archive के information democratization mission का सम्मान करता है
- हालांकि bot management policy की समीक्षा के दौरान वह अपनी स्थिति का पुनर्मूल्यांकन कर रहा है

The New York Times और Financial Times की प्रतिक्रिया

The New York Times ने archive.org_bot को robots.txt में जोड़ा और Internet Archive के crawler को “hard block” कर दिया
- उसका कहना है कि “Wayback Machine, Times content को AI कंपनियों सहित third parties को बिना सीमा उपलब्ध कराता है”
Financial Times ने paid content की सुरक्षा के लिए OpenAI, Anthropic, Perplexity, Internet Archive सहित सभी संबंधित bots को ब्लॉक कर दिया
- FT के अधिकांश articles paywall के पीछे हैं, इसलिए Wayback Machine में केवल public articles ही बचे हैं

Reddit और Internet Archive के बीच टकराव

Reddit ने 2025 के अगस्त में Internet Archive की पहुँच ब्लॉक कर दी
- वजह यह थी कि AI कंपनियों ने Wayback Machine के जरिए Reddit data scrape किया था
- Reddit ने कहा कि यह “platform policy का उल्लंघन करने वाली AI कंपनियों की गतिविधियों को रोकने के लिए लिया गया प्रतिबंधात्मक कदम” है
Reddit पहले Google के साथ AI training data licensing agreement कर चुका है

Internet Archive का रुख और प्रतिक्रिया

संस्थापक Brewster Kahle ने चेतावनी दी कि “अगर publishers, Internet Archive जैसी libraries पर प्रतिबंध लगाते हैं, तो जनता की ऐतिहासिक अभिलेखों तक पहुँच घट जाती है”
Kahle ने Mastodon पर कहा कि “कुछ collections में bulk download संभव नहीं है, और rate limiting, filtering, तथा Cloudflare security services का उपयोग किया जा रहा है”
मई 2023 में एक AI कंपनी के bulk requests से server overload हुआ था, जिसके कारण Internet Archive को अस्थायी रूप से सेवा रोकनी पड़ी थी
- बाद में उस कंपनी ने माफी माँगी और donation दिया

डेटा विश्लेषण: दुनिया भर की news sites में blocking की स्थिति

Nieman Lab ने Ben Welsh के 1,167 news sites के database का विश्लेषण कर Internet Archive से संबंधित blocking की स्थिति की जाँच की
- 241 news sites ने कम-से-कम एक Internet Archive bot को ब्लॉक किया
- इनमें 87% USA Today Co.(Gannett) के स्वामित्व वाले outlets हैं, जिन्होंने 2025 में robots.txt में archive.org_bot और ia_archiver-web.archive.org जोड़ा
- कुछ Gannett sites पर Wayback Machine में “यह URL excluded है” संदेश दिखता है
Gannett ने कहा कि उसने “unauthorized data collection को रोकने के लिए नया protocol लागू किया है”, और रिपोर्ट किया कि सितंबर 2025 के एक महीने में उसने 7.5 करोड़ AI bots को ब्लॉक किया, जिनमें 7 करोड़ OpenAI से आए थे
Group Le Monde के अंतर्गत Le Monde, Le Huffington Post सहित 3 sites ने Internet Archive के तीनों crawlers को ब्लॉक किया

AI-संबंधित crawler blocking का विस्तार

केवल Internet Archive ही नहीं, बल्कि Common Crawl, OpenAI, Google AI जैसे प्रमुख AI crawlers को भी साथ में ब्लॉक करने की प्रवृत्ति बढ़ रही है
- 241 में से 240 sites ने Common Crawl को, और 231 sites ने OpenAI व Google AI bots को ब्लॉक किया
Common Crawl को commercial LLM development से गहराई से जुड़ा माना जाता है

इंटरनेट preservation और information access के बीच संतुलन का प्रश्न

Internet Archive अमेरिका की सबसे व्यापक web preservation projects में से एक है, जबकि कई समाचार संस्थानों के पास अपनी preservation क्षमता नहीं है
दिसंबर 2025 में Poynter और Internet Archive ने local news preservation training program संयुक्त रूप से घोषित किया
Hahn ने कहा, “Internet Archive अच्छे इरादों से संचालित होता है, लेकिन अच्छे इरादों के दुरुपयोग का दुष्प्रभाव पैदा हो रहा है”

1 टिप्पणियां

GN⁺ 2026-02-15

Hacker News की राय

अगर कोई मीडिया संस्थान स्वतंत्र अभिलेखीकरण को मना करता है, तो मुझे नहीं लगता कि उसकी खबरों पर भरोसा किया जा सकता है
AI scraping की अनुमति है या नहीं, इससे फर्क नहीं पड़ता, लेकिन कंटेंट का बाहरी रूप से स्वतंत्र संरक्षण संभव होना ही चाहिए
- मैं भी यही सोचता हूँ। स्वतंत्र रिकॉर्ड ज़रूरी हैं
- लगता है भरोसेमंद news source एक भी नहीं है। ज़्यादातर इरादतन agenda चला रहे हैं, और अब इसे छिपाते भी नहीं
इस मुद्दे का एक compliance (नियामकीय अनुपालन) पहलू भी है
SOC 2 या HIPAA जैसे नियम audit trail और सबूतों के संरक्षण की मांग करते हैं
लेकिन अगर security documents या incident response reports वेब से गायब हो जाएँ, तो audit evidence टूट जाता है, और मैंने कंपनियों को certification review में fail होते देखा है
आखिरकार वेब का गैर-संरक्षित हो जाना सिर्फ सांस्कृतिक नुकसान नहीं, बल्कि operational risk भी बन रहा है
- मैंने उदाहरण ढूँढ़े, और पहला result ही 404 था
  AWS Compliance Reports पेज ऐसा ही एक मामला है
- एक बड़ी financial firm में मैंने कई बार SOC audit झेले हैं, और किस काम को 'critical' माना जाए, इसे परिभाषित करने में विभागों के बीच भारी टकराव था
  साधारण log cleanup पर भी महत्व को लेकर बहस हो जाती थी
- आखिर में शायद insurers ऐसी समस्याओं से बचने के लिए दस्तावेज़ों की कागज़ी प्रतियाँ रखने की मांग करेंगे
  कुछ बड़े नुकसान वाले मामलों के बाद यह सच हो सकता है
- Page Vault जैसी कंपनियाँ पहले से ही इस समस्या को हल करने के लिए मौजूद हैं
- लेकिन यह शक भी है कि इस टिप्पणी का लेखक किसी AI tool account जैसा दिखता है
  हाल में HN पर ऐसे pattern वाले accounts बहुत दिख रहे हैं, जो चिंताजनक है
AI कंपनियाँ Internet Archive को एक बार scrape करने के बजाय residential proxy का इस्तेमाल करके अलग-अलग sites को बार-बार scrape करेंगी
नुकसान आखिरकार आम users को होगा, जिनके पास पूरे वेब को scrape करने के संसाधन नहीं हैं
मैं लंबे समय से ऐसे वेब का सपना देखता रहा हूँ जहाँ कंटेंट hash-based rehosting से उपलब्ध हो — IPFS ने यह कोशिश की थी, लेकिन अफसोस, सफल नहीं हुआ
- सच में AI कंपनियाँ एक ही पेज को बार-बार scrape करती हैं। मेरी personal site पर भी कुछ बदला न हो, तब भी लगातार requests आती रहती हैं
- IPFS ऐसा ही ढाँचा लक्ष्य करने वाला एक project था
- वियतनाम और कोरिया से आने वाला proxy traffic मेरे server को तबाह कर रहा है। 3500 requests प्रति second संभालना नामुमकिन है
- AI कंपनियाँ पहले से ही संक्रमित devices या apps के ज़रिए proxy networks इस्तेमाल कर रही हैं
- मुझे नहीं लगता ऐसे proxies ज़्यादा समय टिकेंगे। commercial pressure के कारण ये कम हो जाएँगे
  लेकिन Common Crawl मौजूद होने के बावजूद AI कंपनियाँ लगातार direct crawling क्यों करती हैं, यह सवाल है
इतिहास को संरक्षित करने को लेकर Brewster की चिंता वास्तविक है
अलग archiving न हो तो मीडिया के लेख भी आखिरकार गायब हो जाने वाले हैं
उदाहरण के लिए, अगर Wikipedia editor के लिए Times article link को स्थिर रूप से सुरक्षित रखना मुश्किल हो, तो अंत में उसे WaPo article से बदल दिया जाएगा
यही असल में commons की tragedy है
मैं Linkwarden नाम का एक open source project चला रहा हूँ
यह teams को बाहरी services पर निर्भर हुए बिना URLs को स्थिर रूप से सुरक्षित रखने में मदद करने वाला tool है
यह HTML snapshots, screenshots, PDF, reader view जैसी कई formats में save करता है
इसका cloud-hosted version (linkwarden.app) और self-hosted version (GitHub repository) दोनों हैं
- Linkwarden शानदार है। SingleFile extension के साथ इस्तेमाल करें तो scraper-blocked pages भी save किए जा सकते हैं
  बस UX के लिहाज़ से 'read/archive' marking feature हो तो अच्छा होगा
- archive.org के साथ integration कैसे होता है, यह जानना चाहूँगा। क्या यह सिर्फ URL भेजता है, या client से लाया गया data सीधे store करता है?
यह समस्या science के क्षेत्र को भी प्रभावित कर रही है
metadata errors बढ़ रहे हैं, और Google Scholar जैसे scientific search engines भी बिगड़ रहे हैं
लगता है कुछ बड़े scientific publishers भी AI bots को block कर रहे हैं
- ऊपर से Google search की अपनी quality भी खराब हो गई है। लगता है जानकारी का दायरा लगातार सिमट रहा है
- public funding से हुए scientific results को AI blocking के कारण inaccessible बनाना जनहित के खिलाफ है
- फिर भी PubMed और सटीक search operators की बदौलत अभी काम चल रहा है
The Guardian और NYT जैसे मीडिया संस्थान Internet Archive और Common Crawl को block कर रहे हैं
सभी news sites में से 20% दोनों को रोक रहे हैं
उदाहरण के तौर पर realtor.com का यह article IA में 429 error के कारण archive नहीं हो पा रहा
- IA request आने पर archiving रोक देता है, लेकिन malicious scrapers ऐसा नहीं करते
  नतीजा यह है कि अच्छे पक्ष को रोका जाता है और बुरे पक्ष ही बचे रहते हैं
- The Guardian सच में IA को block कर रहा है या नहीं, इसके लिए सबूत माँगा गया। खुद चेक करने पर यह ठीक काम कर रहा था
- मुझे लगता है browser extension आधारित crowdsourced archive होना अच्छा होगा
  हालांकि निजी जानकारी वाले pages को कैसे फ़िल्टर किया जाए, यह एक चुनौती है
मेरी पहली धारणा यह है कि news companies copyright issues के लिए AI को बहाना बना रही हैं
- website operator के तौर पर मेरे traffic का 90% से ज़्यादा bots और spam है
  AI कंपनियों ने proxies इस्तेमाल करना शुरू किया, तो मैंने target न होने वाले देशों को पूरी तरह block कर दिया
  इंटरनेट एक बीमार ecosystem बन गया है
सोचता हूँ कि क्या मीडिया कंपनियाँ शैक्षणिक/पत्रकारिता शोध के लिए निजी archives के प्रति ज़्यादा सकारात्मक होंगी
अगर शर्त यह हो कि कॉरपोरेट model training के लिए यह कभी उपलब्ध नहीं कराया जाएगा, तो शायद संभव हो
- वे पहले से libraries को paid licensed archives दे रही हैं। दुरुपयोग रोकना संभव है
- ज़्यादातर मीडिया संस्थानों के पास content syndication contracts होते हैं
  समस्या यह है कि LLM value chain को सोख लेता है और वापसी में कोई value नहीं देता
- अंदरूनी तौर पर उनके पास archive होगा, लेकिन समस्या public accessibility की है
मैंने crowdsourced browser plugin का विचार सोचा है, जो users द्वारा देखे गए pages को अपने-आप archive में भेज दे
अगर यह सिर्फ user द्वारा allow किए गए domains को रिकॉर्ड करे, और open source हो, तो privacy concerns भी कम होंगे
यह automated crawling नहीं, बल्कि असली users के कुछ views upload करने का तरीका होगा
- SingleFile इस तरह की archiving काफ़ी अच्छी तरह करता है
  लेकिन sites user-identifying information छिपाकर डाल सकती हैं, जिससे privacy leak का जोखिम है
- एक और समस्या यह है कि user द्वारा भेजे गए data के tamper न किए जाने की guarantee देना मुश्किल है
  इसे ऐतिहासिक रिकॉर्ड की तरह इस्तेमाल करने के लिए विश्वसनीयता सुनिश्चित करना कठिन है

AI scraping की चिंताओं के चलते समाचार संस्थान Internet Archive की पहुँच सीमित कर रहे हैं

प्रमुख समाचार संस्थानों द्वारा Internet Archive की पहुँच पर प्रतिबंध

The New York Times और Financial Times की प्रतिक्रिया

Reddit और Internet Archive के बीच टकराव

Internet Archive का रुख और प्रतिक्रिया

डेटा विश्लेषण: दुनिया भर की news sites में blocking की स्थिति

AI-संबंधित crawler blocking का विस्तार

इंटरनेट preservation और information access के बीच संतुलन का प्रश्न

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय