2013 में मौजूद 38% वेबपेज 10 साल बाद अब सुलभ नहीं रहे
(pewresearch.org)-
इंटरनेट की विशालता और कंटेंट का गायब होना
- अरबों वेबपेजों वाला इंटरनेट आधुनिक जीवन का एक विशाल भंडार है।
- लेकिन जिस कंटेंट पर उपयोगकर्ता निर्भर करते हैं, वह कभी-कभी गायब हो जाता है।
- Pew Research Center के नए विश्लेषण के अनुसार, ऑनलाइन कंटेंट बहुत अस्थायी है।
- 2013 से 2023 के बीच मौजूद रहे सभी वेबपेजों में से एक-चौथाई 2023 के अक्टूबर तक अब सुलभ नहीं रहे।
- इसका मुख्य कारण यह है कि खास वेबपेजों को हटा दिया गया या वे मिटा दिए गए।
-
डिजिटल क्षरण का उभरना
- सरकारी और समाचार वेबसाइटों के साथ-साथ Wikipedia पेजों के "संदर्भ" सेक्शन की जांच की गई।
- समाचार वेबपेजों में से 23% में कम-से-कम एक टूटा हुआ लिंक शामिल है।
- सरकारी वेबसाइटों में से 21% में कम-से-कम एक टूटा हुआ लिंक शामिल है।
- Wikipedia पेजों में से 54% में ऐसे लिंक हैं जो अब मौजूद नहीं रहने वाले पेजों की ओर जाते हैं।
- सरकारी और समाचार वेबसाइटों के साथ-साथ Wikipedia पेजों के "संदर्भ" सेक्शन की जांच की गई।
-
सोशल मीडिया में डिजिटल क्षरण
- 2023 की वसंत ऋतु के दौरान सोशल मीडिया प्लेटफ़ॉर्म X (तब का Twitter) पर ट्वीट्स का रीयल-टाइम सैंपल इकट्ठा कर 3 महीने तक ट्रैक किया गया।
- लगभग पाँचवाँ हिस्सा ट्वीट्स का पोस्ट किए जाने के कुछ महीनों बाद अब सार्वजनिक रूप से दिखाई नहीं देता।
- ऐसे मामलों में 60% में मूल ट्वीट पोस्ट करने वाला अकाउंट private, निलंबित या पूरी तरह हटाया जा चुका था।
- बाकी 40% में अकाउंट मौजूद है, लेकिन अलग-अलग ट्वीट हटा दिए गए।
- 2023 की वसंत ऋतु के दौरान सोशल मीडिया प्लेटफ़ॉर्म X (तब का Twitter) पर ट्वीट्स का रीयल-टाइम सैंपल इकट्ठा कर 3 महीने तक ट्रैक किया गया।
-
private लिंक और वेबपेज की परिभाषा
- इंटरनेट पर कभी मौजूद रहे लेकिन अब सुलभ न होने वाले पेजों को परिभाषित करने के कई तरीके हैं।
- पेज अब होस्ट सर्वर पर मौजूद नहीं है, या होस्ट सर्वर ही अब मौजूद नहीं है।
- पेज का पता मौजूद है, लेकिन उसका कंटेंट बदल गया है।
- पेज मौजूद है, लेकिन कुछ उपयोगकर्ताओं (जैसे दृष्टिबाधित लोगों) के लिए उसे पढ़ना कठिन है।
- यह रिपोर्ट पहली परिभाषा पर केंद्रित है: ऐसे पेज जो अब मौजूद नहीं हैं।
- इंटरनेट पर कभी मौजूद रहे लेकिन अब सुलभ न होने वाले पेजों को परिभाषित करने के कई तरीके हैं।
-
पिछले 10 वर्षों के वेबपेज
- Common Crawl archive से लगभग 10 लाख वेबपेजों का एक यादृच्छिक सैंपल इकट्ठा किया गया।
- 2013 से 2023 तक इकट्ठा किए गए सभी पेजों में से 25% 2023 के अक्टूबर तक अब सुलभ नहीं रहे।
- 2013 में इकट्ठा किए गए पेजों में से 38% 2023 में अब सुलभ नहीं रहे।
- Common Crawl archive से लगभग 10 लाख वेबपेजों का एक यादृच्छिक सैंपल इकट्ठा किया गया।
-
सरकारी वेबसाइटों के लिंक
- 2023 के मार्च/अप्रैल में इकट्ठा किए गए सरकारी वेबसाइटों के लगभग 5 लाख पेजों का सैंपल लिया गया।
- 86% पेजों में आंतरिक लिंक शामिल हैं, और उनमें से 6% अब सुलभ नहीं रहे।
- कुल मिलाकर, जांचे गए सरकारी वेबपेजों में से 21% में कम-से-कम एक टूटा हुआ लिंक शामिल है।
- 2023 के मार्च/अप्रैल में इकट्ठा किए गए सरकारी वेबसाइटों के लगभग 5 लाख पेजों का सैंपल लिया गया।
-
समाचार वेबसाइटों के लिंक
- 2023 के मार्च/अप्रैल में इकट्ठा किए गए समाचार वेबसाइटों के लगभग 5 लाख पेजों का सैंपल लिया गया।
- समाचार साइटों में से 94% में कम-से-कम एक बाहरी लिंक शामिल है, और 23% पेजों में कम-से-कम एक टूटा हुआ लिंक है।
- 2023 के मार्च/अप्रैल में इकट्ठा किए गए समाचार वेबसाइटों के लगभग 5 लाख पेजों का सैंपल लिया गया।
-
Wikipedia के संदर्भ लिंक
- 50,000 अंग्रेज़ी Wikipedia पेजों का यादृच्छिक सैंपल लिया गया।
- इकट्ठा किए गए पेजों में से 82% में कम-से-कम एक संदर्भ लिंक शामिल है, और संदर्भ लिंक में से 11% अब सुलभ नहीं रहे।
- 50,000 अंग्रेज़ी Wikipedia पेजों का यादृच्छिक सैंपल लिया गया।
-
Twitter की पोस्ट
- 2023 की वसंत ऋतु में 50 लाख ट्वीट्स इकट्ठा किए गए और 3 महीने तक ट्रैक किए गए।
- इकट्ठा किए गए ट्वीट्स में से 18% ट्रैकिंग अवधि के अंत तक अब सार्वजनिक रूप से दिखाई नहीं दिए।
- हटाए गए ट्वीट्स में से 60% में अकाउंट private, निलंबित या हटाया जा चुका था।
- 1% ट्वीट्स एक घंटे के भीतर हट जाते हैं, 3% एक दिन के भीतर, 10% एक हफ्ते के भीतर, और 15% एक महीने के भीतर हट जाते हैं।
- 2023 की वसंत ऋतु में 50 लाख ट्वीट्स इकट्ठा किए गए और 3 महीने तक ट्रैक किए गए।
-
ट्वीट्स का survival analysis
- पोस्ट किए गए ट्वीट्स में से आधे पोस्ट होने के पहले 6 दिनों के भीतर गायब हो जाते हैं।
- 90% ट्वीट्स पोस्ट होने के 46 दिनों के भीतर असुलभ हो जाते हैं।
- 6% ऐसे ट्वीट्स भी थे जो हटाए जाने के बाद बाद में फिर से सार्वजनिक हो गए।
1 टिप्पणियां
Hacker News की राय
Hacker News टिप्पणियों का संक्षिप्त सार
Facebook पेजों की समस्याएँ
Archiving के प्रयास
Internet Archive का समर्थन
News वेबसाइट चलाने का अनुभव
वेबसाइट lifespan graph
पुरानी वेबसाइटों की समस्याएँ
इंटरनेट की अस्थायित्व
SEO समस्या
टूटे हुए links की समस्या
भूलने और माफ़ करने का महत्व