1 पॉइंट द्वारा GN⁺ 1 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • New York Times, The Atlantic, USA Today जैसे प्रमुख मीडिया संस्थान Wayback Machine द्वारा समाचारों के संरक्षण को रोक रहे हैं, इसलिए इसे बंद करने की मांग उठ रही है
  • प्रमुख मीडिया नेताओं को Internet Archive के साथ मिलकर सार्वजनिक रूप से यह वादा करना चाहिए कि वे सभी समाचारों को Wayback Machine में संरक्षित करेंगे
  • 2026 को 30 वर्षों में पहली बार ऐसा वर्ष बताया गया है जब World Press Freedom Day पर प्रमुख मीडिया संस्थानों का काम Internet Archive में संरक्षित नहीं होगा
  • इस रोक के लिए मीडिया संस्थानों द्वारा दी गई AI चिंताएं काल्पनिक हैं, और generative AI के दौर में स्वतंत्र संरक्षण और भी अधिक महत्वपूर्ण हो गया है
  • सेंसरशिप, अधिनायकवाद और पत्रकारों को जान से मारने की धमकियों के बढ़ने के बीच, एक निष्पक्ष तृतीय-पक्ष संरक्षण यह सुनिश्चित करता है कि रिपोर्टिंग गायब न हो

रोक की पृष्ठभूमि

  • 2026 को 30 वर्षों में पहली बार ऐसा वर्ष बताया गया है जब World Press Freedom Day पर New York Times, The Atlantic, USA Today जैसे प्रमुख मीडिया संस्थानों का काम स्वतंत्र गैर-लाभकारी Internet Archive में संरक्षित नहीं होगा
  • New York Times इस साल फरवरी से Internet Archive से मांग कर रहा है कि Wayback Machine उसके पत्रकारों के काम को संरक्षित न करे
  • Wired की रिपोर्ट के अनुसार, USA Today ने Wayback Machine पर निर्भर एक प्रभावशाली रिपोर्ट प्रकाशित की, लेकिन उसी रिपोर्ट को Wayback Machine में संरक्षित होने से रोक रहा है
  • 100 से अधिक पत्रकारों ने Internet Archive द्वारा समाचार संरक्षण के समर्थन में एक पत्र भेजा, जिसके बाद The Atlantic के CEO ने प्रतिक्रिया दी, लेकिन समाधान खोजने का वादा नहीं किया

AI चिंताएं और Wayback Machine की भूमिका

  • इन मीडिया संस्थानों ने Wayback Machine पर रोक के लिए जो AI चिंताएं बताई हैं, उन्हें पूरी तरह काल्पनिक माना गया है
  • generative AI सिद्धांतनिष्ठ रिपोर्टिंग को fact-checkers से छिपाने का कारण नहीं बन सकता, बल्कि यह Wayback Machine की आवश्यकता को और बढ़ाता है
  • माना जाता है कि AI कंपनियां नकली archive साइटों की तरह नियमों की अनदेखी कर सकती हैं और प्रकाशकों की वेबसाइटों से बिना सहमति समाचार उठा सकती हैं, और इसे रोकने के साधन लगभग नहीं हैं
  • Wayback Machine उन सेवाओं से अलग है जो “archive” शब्द का उपयोग कर Internet Archive जैसी दिखने की कोशिश करती हैं, और यह अस्थायी सेवा नहीं है
  • Wayback Machine उन कई लोगों की उम्र से भी अधिक समय से समाचारों को संरक्षित कर रहा है जिन्होंने इस याचिका पर हस्ताक्षर किए हैं
  • Wayback Machine कोई paywall bypass सेवा नहीं है, बल्कि समाचार संरक्षण के लिए एक स्वतंत्र गैर-लाभकारी सार्वजनिक संसाधन है
  • Internet Archive अधिकांश Silicon Valley कंपनियों की तरह व्यवहार नहीं करता, इसका कारण integrity है; इसी वजह से Internet Archive पर भरोसा किया जा सकता है और इसे लंबे समय तक चलने वाला माना जाता है

समाचार संरक्षण और सार्वजनिक महत्व

  • प्रेस की स्वतंत्रता केवल लेख लिखने की स्वतंत्रता नहीं है, बल्कि यह भी है कि उस काम को पीढ़ियों तक पढ़ा और याद किया जा सके
  • सेंसरशिप और अधिनायकवाद के बढ़ने के साथ, रिपोर्ट बदलने या तथ्यों को मिटाने का दबाव भी बढ़ रहा है
  • पत्रकारों को अक्सर जान से मारने की धमकियां मिलती हैं, और बताया गया है कि पिछले एक वर्ष में कई पत्रकार अपने काम के कारण मारे गए
  • ऐसे माहौल में Wayback Machine के निष्पक्ष तृतीय-पक्ष संरक्षण को मजबूत किया जाना चाहिए ताकि पत्रकारों का काम गायब न हो
  • रिपोर्टिंग केवल सहकर्मियों और परिजनों के लिए नहीं, बल्कि इतिहास की नजर के लिए भी उपलब्ध रहनी चाहिए
  • Wayback Machine ऑनलाइन समाचार संस्थानों को सत्ता में बैठे लोगों के उस दबाव का बेहतर सामना करने में मदद करता है, जिसमें वे धमकी देने वाली खबरों को हटाने को कहते हैं
  • जो समाचार संस्थान वास्तव में पत्रकारिता करते हैं, उनके लिए ऐसे गठबंधन का समर्थन करना उनके अपने हित में भी है

मांग और संदर्भ सामग्री

  • प्रमुख मीडिया नेतृत्व को Internet Archive के साथ मिलकर सार्वजनिक रूप से यह वादा करना चाहिए कि वे सभी समाचारों को Wayback Machine में संरक्षित करेंगे
  • समाचारों को स्वतंत्र रूप से संरक्षित करने का तरीका खोजना इतना कठिन नहीं होना चाहिए
  • संदर्भ सामग्री

1 टिप्पणियां

 
GN⁺ 1 시간 전
Hacker News टिप्पणियाँ
  • यह जानने की जिज्ञासा है कि क्या ऐसा इसलिए हुआ क्योंकि archive.org ने robots.txt का सम्मान किया, और उन साइटों ने क्रॉलर की indexing को रोक रखा था
    निराशा इस बात की है कि robots.txt का पालन करने वाला “सही व्यवहार” ही अब याचिकाओं का जवाब देने के बोझ में बदल जाता है, जबकि उसी निर्देश को अनदेखा करने वालों को फायदा मिलता है

    • archive.org जैसे उच्च-प्रोफ़ाइल crawler अगर robots.txt को नज़रअंदाज़ करें, तो उन पर मुक़दमे या दूसरे तरह के दबाव आने की संभावना ज़्यादा है
      यह सिर्फ़ नैतिक चुनाव नहीं, बल्कि लगभग वही एकमात्र तर्कसंगत चुनाव है, और “दूसरे पक्ष को फायदा” इसलिए मिलता है क्योंकि यह दायित्व वादे जैसा होते हुए भी बहुत कमज़ोर है, या कम-नज़र आने वाले पक्षों के ख़िलाफ़ मुक़दमे तक जाने की प्रेरणा कम होती है
    • सही है. nytimes.com के robots.txt में ऐसा अंश है: User-agent: archive.org_bot / Disallow: /
    • वजह यह है कि वे AI कंपनियों द्वारा content चोरी रोकना चाहते हैं, लेकिन अगर Internet Archive सब कुछ उनकी ओर से proxy कर दे, तो उसे रोकना असंभव हो जाएगा
      अगर ताज़ा ख़बरें scrape न की जा सकतीं, तो सभी बड़े language models काफ़ी कम उपयोगी होते
    • नहीं, archive.org robots.txt का सम्मान नहीं करता. आपको सीधे संपर्क करके कहना पड़ता है कि मेरी साइट को शामिल न किया जाए: https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
    • यह DRM जैसी ही बेवकूफ़ी है
      मानो लोगों से pirate बनने को कहा जा रहा हो, क्योंकि pirate आज़ाद होते हैं
  • समस्या यह लगती है कि अगर Archive.org को NYT और दूसरे publishers के content तक पहुँच मिलती है, तो लोग भले सीधे NYT से बड़े पैमाने पर scrape न कर सकें, लेकिन Archive.org के ज़रिए NYT content बड़े पैमाने पर इकट्ठा कर सकते हैं
    अगर Archive.org scrapers को रोक दे, तो publishers शायद अलग विकल्प चुनें और Archive.org को पहुँच की अनुमति दें

  • एक विचार: scraping की अनुमति हो, लेकिन 1 साल तक उसे सार्वजनिक न किया जाए?

    • साथ ही सामूहिक मुक़दमा फंड भी होना चाहिए, ताकि Archive, LLM crawlers को वापस योगदान देने के लिए मजबूर कर सके
  • जैसे Financial Times, NewsBank सेवा में 30-दिन escrow के साथ उपलब्ध होता है, वैसे ये भी escrow अपना सकते हैं

  • साज़िश वाला चश्मा लगाकर देखें तो, शायद एक वजह यह भी है कि उन्हें चुपचाप edits करने और यह दिखाने की सुविधा पसंद है कि पुराने article versions कभी थे ही नहीं

  • क्या वे लोग, जिन्होंने कभी इन संगठनों के ads नहीं देखे और subscription fee भी नहीं दी, अब उन्हीं संगठनों से पीछे का दरवाज़ा खुला रखने की माँग करते हुए लड़ना चाहते हैं?

  • मुझे Times और Atlantic की तरफ़ से इस बहस की थोड़ी जानकारी है. इस पर आलोचना हो सकती है, लेकिन मैंने पहले वाले संगठन के एक वरिष्ठ व्यक्ति से पूछा था कि HN पर आम paywall bypass तरीकों के बारे में वे क्या सोचते हैं, और यह जानकर सच में हैरानी हुई कि उन्होंने उनके बारे में कभी सुना तक नहीं था
    आख़िरकार इस बात पर सहमति बनी कि 30 दिन बाद सार्वजनिक करना, और भविष्य में ज़रूरत पड़ने पर दिन में N बार से ज़्यादा fetch न कर पाने जैसी rate limits लगाना, संतुलित रास्ता हो सकता है. जहाँ तक मुझे पता है, Internet Archive ने इस मुद्दे पर सक्रिय रूप से संपर्क नहीं किया है, इसलिए दबाव सिर्फ़ publishers पर नहीं बल्कि Internet Archive पर भी होना चाहिए कि वे बातचीत करें

    • यह काफ़ी अच्छा समझौता लगता है. news organizations शुरुआती pageview spike बनाए रख सकते हैं, और इंटरनेट की मुफ़्त जानकारी/सार्वभौमिक library वाली भूमिका भी बची रहती है
      फिर भी magazines अपने back catalog पर नियंत्रण रखना चाहेंगी. वे अभी भी libraries और universities को access बेचते हैं, और जैसा HN पर कई बार कहा गया है, कुछ news organizations बिना किसी सार्वजनिक “revision history” के articles बदलना या update करना चाहती होंगी
    • क्या Internet Archive का इस्तेमाल नियमित रूप से paywall bypass के लिए होता है? आमतौर पर तो archive.is होता है, और उसका IA से कोई संबंध नहीं है
    • “अगर प्रासंगिक हो जाए” तो दिन में N बार से ज़्यादा fetch न कर पाने की सीमा, क्या किसी भी तरफ़ से उनके लिए फ़ायदेमंद नहीं है?
      कभी-कभी सोचता हूँ कि कहीं किसी दुखी digital metrics dashboard पर टकटकी लगाए बैठना, journalism की मूल भावना की जगह तो नहीं ले चुका
    • इसमें इतना आश्चर्य नहीं है. वे गलत दौर के गलत मॉडल और गलत incentives के साथ काम कर रहे हैं
      वे अब भी ऐसे व्यवहार करते हैं जैसे data और information दुर्लभ हों और वही सत्य के अकेले स्रोत हों. अब स्थिति उलट चुकी है: कोई एक canonical truth नहीं है, लेकिन data और information प्रचुर मात्रा में हैं, और उस प्रचुरता में झूठा data और झूठ भी शामिल है. NYT और Atlantic अपने सबसे अच्छे दिनों में जो investigative reporting करते हैं, वह दुनिया में मूल्य जोड़ती है, लेकिन पत्रकार चाहते हैं कि वह सुलभ हो, जबकि संस्थान उसी काम को छिपाना और अलग-थलग रखना चाहते हैं. आदर्श रूप में, हर बच्चा NYT और Atlantic के साथ अंग्रेज़ी सीख सके, इन अभिलेखीय माध्यमों के साथ बड़ा हो सके, और दुनिया को देख सके, लेकिन मौजूदा मॉडल इसकी अनुमति नहीं देता. patronage और Wikimedia-जैसी foundation के मिश्रण वाला मॉडल शायद बेहतर बैठे. जो पाठक संस्थान और उसके mission से प्रेम करते हैं, वे अपनी इच्छा के अनुसार भुगतान करें, राशि के अनुसार सुविधाएँ पाएँ, और योगदान endowment में जाए, उसे invest किया जाए, और उसकी आय का एक हिस्सा operating budget में लगाया जाए. information-समृद्ध दुनिया में पारंपरिक journalism शायद patronage-based access के बिना जीवित नहीं रह पाएगा
    • काश ऐसी “news” साइटें HN पर आती ही नहीं. अगर article तथ्यात्मक है और चर्चा योग्य है, तो Reuters जैसी ज़्यादा विश्वसनीय organization उसे report करेगी, या फिर वह खुद एक primary source होगा जिसे सीधे पोस्ट किया जाना चाहिए
      बहुत बार उन्होंने details और quotes को चुनिंदा तरीके से report किया है, या ऐसे अविश्वसनीय स्रोतों से तथ्य छापे हैं जो बाद में पूरी तरह झूठे निकले. दूसरे मामले में वे article चुपचाप वापस ले लेते हैं, इसलिए ज़्यादातर पाठक उस झूठ को सच मानते रहते हैं. शायद इसी वजह से वे archive नहीं होना चाहते. छोटे blog posts साझा करना शायद बेहतर है. वे पक्षपाती और अविश्वसनीय हो सकते हैं, लेकिन उनमें मौलिक विचार होते हैं, किसी व्यक्ति का समर्थन होता है, और शायद ads भी नहीं होते. बेशक यहाँ आने वाले ढेरों स्पष्ट LLM blogs एक अलग समस्या हैं
  • मैं इसका इंतज़ार कर रहा हूँ: (https://news.ycombinator.com/item?id=48070516)

  • हमें cryptographically verifiable internet archive चाहिए. शायद web3, nostr, gpg/pgp जैसी चीज़ों के बिना यह संभव न हो

    • अगर कई असंबद्ध archives हों, तो वह काफ़ी हद तक पर्याप्त होगा
    • क्या Archive हर request के SSL signature जैसी कोई चीज़ प्रकाशित नहीं कर सकता?
      opentimestamps की तरह Bitcoin पर रखने वाले तरीके से timestamps को cryptographically verify किया जा सकता है
  • मैंने sign तो कर दिया, लेकिन ईमानदार होना चाहिए
    अगर Wayback Machine पर पुराने NYT articles पढ़ने की संख्या और HN के top comments द्वारा अपेक्षाकृत नए article links देकर सबको paywall bypass करने के लिए भेजने की संख्या का pie chart बनाया जाए, तो वह पूरा का पूरा एक ही वृत्त होगा

    • अगर archived copy न होती, तो क्या मैं वह article पढ़ने के लिए NYT को पैसे देता? शायद नहीं