1 पॉइंट द्वारा GN⁺ 2024-05-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • इंटरनेट की विशालता और कंटेंट का गायब होना

    • अरबों वेबपेजों वाला इंटरनेट आधुनिक जीवन का एक विशाल भंडार है।
    • लेकिन जिस कंटेंट पर उपयोगकर्ता निर्भर करते हैं, वह कभी-कभी गायब हो जाता है।
    • Pew Research Center के नए विश्लेषण के अनुसार, ऑनलाइन कंटेंट बहुत अस्थायी है।
      • 2013 से 2023 के बीच मौजूद रहे सभी वेबपेजों में से एक-चौथाई 2023 के अक्टूबर तक अब सुलभ नहीं रहे।
      • इसका मुख्य कारण यह है कि खास वेबपेजों को हटा दिया गया या वे मिटा दिए गए।
  • डिजिटल क्षरण का उभरना

    • सरकारी और समाचार वेबसाइटों के साथ-साथ Wikipedia पेजों के "संदर्भ" सेक्शन की जांच की गई।
      • समाचार वेबपेजों में से 23% में कम-से-कम एक टूटा हुआ लिंक शामिल है।
      • सरकारी वेबसाइटों में से 21% में कम-से-कम एक टूटा हुआ लिंक शामिल है।
      • Wikipedia पेजों में से 54% में ऐसे लिंक हैं जो अब मौजूद नहीं रहने वाले पेजों की ओर जाते हैं।
  • सोशल मीडिया में डिजिटल क्षरण

    • 2023 की वसंत ऋतु के दौरान सोशल मीडिया प्लेटफ़ॉर्म X (तब का Twitter) पर ट्वीट्स का रीयल-टाइम सैंपल इकट्ठा कर 3 महीने तक ट्रैक किया गया।
      • लगभग पाँचवाँ हिस्सा ट्वीट्स का पोस्ट किए जाने के कुछ महीनों बाद अब सार्वजनिक रूप से दिखाई नहीं देता।
      • ऐसे मामलों में 60% में मूल ट्वीट पोस्ट करने वाला अकाउंट private, निलंबित या पूरी तरह हटाया जा चुका था।
      • बाकी 40% में अकाउंट मौजूद है, लेकिन अलग-अलग ट्वीट हटा दिए गए।
  • private लिंक और वेबपेज की परिभाषा

    • इंटरनेट पर कभी मौजूद रहे लेकिन अब सुलभ न होने वाले पेजों को परिभाषित करने के कई तरीके हैं।
      • पेज अब होस्ट सर्वर पर मौजूद नहीं है, या होस्ट सर्वर ही अब मौजूद नहीं है।
      • पेज का पता मौजूद है, लेकिन उसका कंटेंट बदल गया है।
      • पेज मौजूद है, लेकिन कुछ उपयोगकर्ताओं (जैसे दृष्टिबाधित लोगों) के लिए उसे पढ़ना कठिन है।
    • यह रिपोर्ट पहली परिभाषा पर केंद्रित है: ऐसे पेज जो अब मौजूद नहीं हैं।
  • पिछले 10 वर्षों के वेबपेज

    • Common Crawl archive से लगभग 10 लाख वेबपेजों का एक यादृच्छिक सैंपल इकट्ठा किया गया।
      • 2013 से 2023 तक इकट्ठा किए गए सभी पेजों में से 25% 2023 के अक्टूबर तक अब सुलभ नहीं रहे।
      • 2013 में इकट्ठा किए गए पेजों में से 38% 2023 में अब सुलभ नहीं रहे।
  • सरकारी वेबसाइटों के लिंक

    • 2023 के मार्च/अप्रैल में इकट्ठा किए गए सरकारी वेबसाइटों के लगभग 5 लाख पेजों का सैंपल लिया गया।
      • 86% पेजों में आंतरिक लिंक शामिल हैं, और उनमें से 6% अब सुलभ नहीं रहे।
      • कुल मिलाकर, जांचे गए सरकारी वेबपेजों में से 21% में कम-से-कम एक टूटा हुआ लिंक शामिल है।
  • समाचार वेबसाइटों के लिंक

    • 2023 के मार्च/अप्रैल में इकट्ठा किए गए समाचार वेबसाइटों के लगभग 5 लाख पेजों का सैंपल लिया गया।
      • समाचार साइटों में से 94% में कम-से-कम एक बाहरी लिंक शामिल है, और 23% पेजों में कम-से-कम एक टूटा हुआ लिंक है।
  • Wikipedia के संदर्भ लिंक

    • 50,000 अंग्रेज़ी Wikipedia पेजों का यादृच्छिक सैंपल लिया गया।
      • इकट्ठा किए गए पेजों में से 82% में कम-से-कम एक संदर्भ लिंक शामिल है, और संदर्भ लिंक में से 11% अब सुलभ नहीं रहे।
  • Twitter की पोस्ट

    • 2023 की वसंत ऋतु में 50 लाख ट्वीट्स इकट्ठा किए गए और 3 महीने तक ट्रैक किए गए।
      • इकट्ठा किए गए ट्वीट्स में से 18% ट्रैकिंग अवधि के अंत तक अब सार्वजनिक रूप से दिखाई नहीं दिए।
      • हटाए गए ट्वीट्स में से 60% में अकाउंट private, निलंबित या हटाया जा चुका था।
      • 1% ट्वीट्स एक घंटे के भीतर हट जाते हैं, 3% एक दिन के भीतर, 10% एक हफ्ते के भीतर, और 15% एक महीने के भीतर हट जाते हैं।
  • ट्वीट्स का survival analysis

    • पोस्ट किए गए ट्वीट्स में से आधे पोस्ट होने के पहले 6 दिनों के भीतर गायब हो जाते हैं।
    • 90% ट्वीट्स पोस्ट होने के 46 दिनों के भीतर असुलभ हो जाते हैं।
    • 6% ऐसे ट्वीट्स भी थे जो हटाए जाने के बाद बाद में फिर से सार्वजनिक हो गए।

1 टिप्पणियां

 
GN⁺ 2024-05-20
Hacker News की राय

Hacker News टिप्पणियों का संक्षिप्त सार

  • Facebook पेजों की समस्याएँ

    • कई संगठन और कंपनियाँ सिर्फ Facebook पेजों का उपयोग करती हैं, जिससे उनकी कोई दूसरी web presence नहीं रहती। Facebook account अनिवार्य हो जाता है.
  • Archiving के प्रयास

    • CNN और BBC जैसी वेबसाइटें पुराने content को archive करने की कोशिश करती हैं। उदाहरण: 9/11 हमले से जुड़ी रिपोर्टिंग.
  • Internet Archive का समर्थन

    • पुराने content के संरक्षण के लिए Internet Archive (archive.org) को दान देकर समर्थन करने की ज़रूरत है। महत्वपूर्ण content की local copy बनाकर रखना भी अच्छा है.
  • News वेबसाइट चलाने का अनुभव

    • 2019 से एक news वेबसाइट चलाते हुए, हर घंटे crawler से dead links खोजकर उन्हें archive links से बदला जाता है। चुनाव के अगले दिन उम्मीदवारों की वेबसाइटें गायब हो जाना आम है.
  • वेबसाइट lifespan graph

    • अनुमान है कि 2013 के बाद कई वेबसाइटें गायब हो चुकी होंगी। खासकर community sites (Angelfire, Geocities आदि) के गायब होने का बड़ा असर पड़ा है। वेबसाइटों की उम्र को graph में दिखाना दिलचस्प होगा.
  • पुरानी वेबसाइटों की समस्याएँ

    • 90 के दशक में Angelfire पर host की गई पहली .com वेबसाइट को फिर से देखा गया। उस समय वह ठीक लगती थी, लेकिन आज के मानकों से उसमें बहुत-सी अनुपयुक्त सामग्री है.
  • इंटरनेट की अस्थायित्व

    • इंटरनेट की मूल अस्थायी प्रकृति को स्वीकार करना चाहिए। अगर archiving चाहिए तो offline copy बनाना बेहतर है। PDF/A format archiving के लिए उपयुक्त है.
  • SEO समस्या

    • आज का अधिकांश web SEO spam से भरा हुआ है.
  • टूटे हुए links की समस्या

    • यह इंटरनेट की बड़ी समस्याओं में से एक है; content अब भी मौजूद हो सकता है, लेकिन link टूट जाता है। लाइब्रेरी के DOI system जैसी दो-स्तरीय व्यवस्था मददगार हो सकती है.
  • भूलने और माफ़ करने का महत्व

    • ऐसी दुनिया भयावह होगी जहाँ सब कुछ हमेशा के लिए बना रहे। मूल्यवान content को सुरक्षित रखने के प्रयास ज़रूरी हैं, और इसी वजह से उसका मूल्य और बढ़ जाता है.