AI scraping की चिंताओं के चलते समाचार संस्थान Internet Archive की पहुँच सीमित कर रहे हैं

(niemanlab.org)

2 पॉइंट द्वारा GN⁺ 2026-02-15 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

प्रमुख समाचार संस्थान AI training के लिए data collection रोकने के उद्देश्य से Internet Archive की पहुँच को ब्लॉक या सीमित कर रहे हैं
The Guardian ने Internet Archive के API और Wayback Machine से article pages को हटा दिया है, और केवल कुछ home व topic pages छोड़े हैं
The New York Times ने 2025 के अंत से robots.txt में archive.org_bot जोड़कर crawling को पूरी तरह ब्लॉक कर दिया है
Gannett(USA Today Co.) सहित 241 news sites ने कम-से-कम एक Internet Archive bot को ब्लॉक किया है; कई sites ने Common Crawl, OpenAI और Google AI को भी साथ में ब्लॉक किया है
ये कदम AI कंपनियों द्वारा बिना अनुमति data use के खिलाफ प्रतिक्रिया हैं, और साथ ही digital record preservation तथा information accessibility के बीच संतुलन के सवाल को भी उजागर करते हैं

प्रमुख समाचार संस्थानों द्वारा Internet Archive की पहुँच पर प्रतिबंध

The Guardian ने इस आशंका के कारण पहुँच सीमित की कि AI कंपनियाँ Internet Archive के माध्यम से content collect कर सकती हैं
- API और Wayback Machine के article URL interface से अपने article pages को बाहर कर दिया
- regional home और topic pages आदि अब भी Wayback Machine में उपलब्ध हैं
- Robert Hahn ने कहा, “AI कंपनियाँ structured databases को प्राथमिकता देती हैं, और Internet Archive का API उस रास्ते की तरह इस्तेमाल हो सकता है”
The Guardian ने पूरी तरह ब्लॉक नहीं किया है, और कहा कि वह Internet Archive के information democratization mission का सम्मान करता है
- हालांकि bot management policy की समीक्षा के दौरान वह अपनी स्थिति का पुनर्मूल्यांकन कर रहा है

The New York Times और Financial Times की प्रतिक्रिया

The New York Times ने archive.org_bot को robots.txt में जोड़ा और Internet Archive के crawler को “hard block” कर दिया
- उसका कहना है कि “Wayback Machine, Times content को AI कंपनियों सहित third parties को बिना सीमा उपलब्ध कराता है”
Financial Times ने paid content की सुरक्षा के लिए OpenAI, Anthropic, Perplexity, Internet Archive सहित सभी संबंधित bots को ब्लॉक कर दिया
- FT के अधिकांश articles paywall के पीछे हैं, इसलिए Wayback Machine में केवल public articles ही बचे हैं

Reddit और Internet Archive के बीच टकराव

Reddit ने 2025 के अगस्त में Internet Archive की पहुँच ब्लॉक कर दी
- वजह यह थी कि AI कंपनियों ने Wayback Machine के जरिए Reddit data scrape किया था
- Reddit ने कहा कि यह “platform policy का उल्लंघन करने वाली AI कंपनियों की गतिविधियों को रोकने के लिए लिया गया प्रतिबंधात्मक कदम” है
Reddit पहले Google के साथ AI training data licensing agreement कर चुका है

Internet Archive का रुख और प्रतिक्रिया

संस्थापक Brewster Kahle ने चेतावनी दी कि “अगर publishers, Internet Archive जैसी libraries पर प्रतिबंध लगाते हैं, तो जनता की ऐतिहासिक अभिलेखों तक पहुँच घट जाती है”
Kahle ने Mastodon पर कहा कि “कुछ collections में bulk download संभव नहीं है, और rate limiting, filtering, तथा Cloudflare security services का उपयोग किया जा रहा है”
मई 2023 में एक AI कंपनी के bulk requests से server overload हुआ था, जिसके कारण Internet Archive को अस्थायी रूप से सेवा रोकनी पड़ी थी
- बाद में उस कंपनी ने माफी माँगी और donation दिया

डेटा विश्लेषण: दुनिया भर की news sites में blocking की स्थिति

Nieman Lab ने Ben Welsh के 1,167 news sites के database का विश्लेषण कर Internet Archive से संबंधित blocking की स्थिति की जाँच की
- 241 news sites ने कम-से-कम एक Internet Archive bot को ब्लॉक किया
- इनमें 87% USA Today Co.(Gannett) के स्वामित्व वाले outlets हैं, जिन्होंने 2025 में robots.txt में archive.org_bot और ia_archiver-web.archive.org जोड़ा
- कुछ Gannett sites पर Wayback Machine में “यह URL excluded है” संदेश दिखता है
Gannett ने कहा कि उसने “unauthorized data collection को रोकने के लिए नया protocol लागू किया है”, और रिपोर्ट किया कि सितंबर 2025 के एक महीने में उसने 7.5 करोड़ AI bots को ब्लॉक किया, जिनमें 7 करोड़ OpenAI से आए थे
Group Le Monde के अंतर्गत Le Monde, Le Huffington Post सहित 3 sites ने Internet Archive के तीनों crawlers को ब्लॉक किया

AI-संबंधित crawler blocking का विस्तार

केवल Internet Archive ही नहीं, बल्कि Common Crawl, OpenAI, Google AI जैसे प्रमुख AI crawlers को भी साथ में ब्लॉक करने की प्रवृत्ति बढ़ रही है
- 241 में से 240 sites ने Common Crawl को, और 231 sites ने OpenAI व Google AI bots को ब्लॉक किया
Common Crawl को commercial LLM development से गहराई से जुड़ा माना जाता है

इंटरनेट preservation और information access के बीच संतुलन का प्रश्न

Internet Archive अमेरिका की सबसे व्यापक web preservation projects में से एक है, जबकि कई समाचार संस्थानों के पास अपनी preservation क्षमता नहीं है
दिसंबर 2025 में Poynter और Internet Archive ने local news preservation training program संयुक्त रूप से घोषित किया
Hahn ने कहा, “Internet Archive अच्छे इरादों से संचालित होता है, लेकिन अच्छे इरादों के दुरुपयोग का दुष्प्रभाव पैदा हो रहा है”

AI scraping की चिंताओं के चलते समाचार संस्थान Internet Archive की पहुँच सीमित कर रहे हैं

प्रमुख समाचार संस्थानों द्वारा Internet Archive की पहुँच पर प्रतिबंध

The New York Times और Financial Times की प्रतिक्रिया

Reddit और Internet Archive के बीच टकराव

Internet Archive का रुख और प्रतिक्रिया

डेटा विश्लेषण: दुनिया भर की news sites में blocking की स्थिति

AI-संबंधित crawler blocking का विस्तार

इंटरनेट preservation और information access के बीच संतुलन का प्रश्न

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.