2013 में मौजूद वेबपेजों में से 38% 10 साल बाद एक्सेस नहीं किए जा सके
(pewresearch.org)- वेब भले ही स्थायी रिकॉर्ड जैसा दिखता हो, लेकिन Pew Research Center के सैंपल में 2013~2023 के बीच कभी मौजूद रहे वेबपेजों में से 25% अक्टूबर 2023 तक गायब हो चुके थे, और 2013 के पेजों में से 38% एक्सेस नहीं किए जा सके
- इस गिनती में एक्सेस न हो पाना कंटेंट बदलने या accessibility समस्या नहीं है, बल्कि इसे उन 9 error codes तक सीमित रखा गया है जो स्पष्ट रूप से बताते हैं कि पेज या host server गायब हो गया है
- 2023 की वसंत ऋतु में सरकारी, news और Wikipedia links की जांच करने पर news web pages के 23%, government web pages के 21%, और English Wikipedia pages के 54% में कम से कम 1 broken link था
- उस समय Twitter रहे X के लगभग 50 लाख public tweets को 3 महीने तक ट्रैक करने पर 18% अब सार्वजनिक रूप से दिखाई नहीं दिए, जिनमें से 60% account private, suspended या deleted होने के कारण थे
- वेबपेज, public agency सामग्री, news links, Wikipedia references और social posts—हर जगह content गायब हो रहा है, और जितनी पुरानी सामग्री होती है, digital decay उतना ही स्पष्ट दिखता है
10 वर्षों में गायब हुए वेबपेज
- इंटरनेट का उपयोग किताबों, images और news articles जैसे आधुनिक जीवन के material repository के रूप में होता है, लेकिन कुछ content समय के साथ दिखाई देना बंद हो जाता है
- Pew Research Center ने 2013~2023 के बीच मौजूद रहे web pages के सैंपल पर अक्टूबर 2023 तक उनकी accessibility की जांच की
- पूरे सैंपल में कभी मौजूद रहे web pages में से 25% अब एक्सेस नहीं किए जा सकते थे
- 16% में root domain काम कर रहा था, लेकिन individual page एक्सेस नहीं हो पा रहा था
- 9% में पूरा root domain ही अब काम नहीं कर रहा था, इसलिए एक्सेस नहीं किया जा सकता था
- पुराने web pages के गायब होने की दर ज्यादा थी
- 2013 snapshot के web pages में से 38% 2023 में एक्सेस नहीं किए जा सके
- 2023 snapshot के web pages में से 8% एक्सेस नहीं किए जा सके
- 2021 snapshot के web pages में भी लगभग पांचवां हिस्सा 2 साल बाद एक्सेस नहीं हो पा रहा था
एक्सेस न हो पाने का मानदंड
- इस analysis में एक्सेस न हो पाना उन मामलों तक सीमित है जहां page अब मौजूद नहीं है
- इसमें वे मामले आते हैं जहां host server या page गायब हो गया हो और आम तौर पर
404 Not Foundजैसे server errors दिखते हों
- इसमें वे मामले आते हैं जहां host server या page गायब हो गया हो और आम तौर पर
- निम्नलिखित मामले इस study के दायरे से बाहर हैं
- page address मौजूद है, लेकिन content original से काफी बदल गया है
- page मौजूद है, लेकिन visually impaired users जैसे कुछ users के लिए पढ़ना मुश्किल या असंभव है
- web page की status determination में अस्पष्टता बनी रहती है
- error status codes दर्जनों प्रकार के होते हैं, और कुछ में यह स्पष्ट नहीं होता कि permanent disappearance है या temporary outage
- कई sites सुरक्षा कारणों से automated data collection को रोकती हैं
- इसलिए सबसे conservative criteria लागू करते हुए, केवल उन 9 error codes को inaccessible के रूप में गिना गया जो स्पष्ट रूप से दिखाते हैं कि page या host server अब मौजूद नहीं है या non-functional है
- error codes की पूरी सूची methodology में शामिल है
Common Crawl आधारित web page sample
- analysis इंटरनेट archive service Common Crawl से 2013~2023 के हर वर्ष के web pages को random रूप से collect करके किया गया
- कुल sample लगभग 10 लाख से कम web pages का था, और प्रत्येक वर्ष के लिए लगभग 90 हजार pages शामिल थे
- अक्टूबर 2023 तक, 2013~2023 samples में कुल मिलाकर 25% inaccessible थे
- inaccessible pages को दो प्रकारों में बांटा गया
- individual page गायब था, लेकिन root domain काम कर रहा था: 16%
- पूरा root domain अब काम नहीं कर रहा था: 9%
- snapshot जितना पुराना था, inaccessible ratio उतना ही ज्यादा था, और 2013 के web pages में से 38% अब मौजूद नहीं थे
सरकारी websites के broken links
- government websites analysis में Common Crawl के मार्च~अप्रैल 2023 snapshots से लगभग 5 लाख pages का sample लिया गया
- sample में federal, state, local आदि कई स्तरों की government websites शामिल थीं
- government web pages में मिले links की संख्या 4.2 करोड़ थी
- 86% internal links थे जो उसी website के दूसरे page पर जाते थे
- लगभग तीन-चौथाई government web pages में कम से कम 1 link था
- median के आधार पर प्रति page links की संख्या 50 थी
- top 10% pages में 190, और top 1% pages में 740 links थे
- links के format की भी जांच की गई
- अधिकांश
https://से शुरू होने वाले secure HTTP pages पर जाते थे - 6% PDF जैसी static files पर जाते थे
- 16% original target URL के बजाय किसी दूसरे URL पर redirect होते थे
- अधिकांश
- links को follow कर जांचने पर government website links के 6% अब inaccessible थे
- जांचे गए सभी government web pages में से 21% में कम से कम 1 broken link था
- internal links और external links के non-functional ratio समान थे
- सभी government levels में कम से कम 14% pages पर broken links थे
- city government pages में broken links का ratio सबसे अधिक था
News websites के broken links
- news websites analysis में comScore द्वारा “News/Information” के रूप में classified 2,063 websites से लगभग 5 लाख pages का sample लिया गया
- pages Common Crawl के मार्च~अप्रैल 2023 snapshots से collect किए गए
- news site sample में external websites पर जाने वाले links 1.4 करोड़ से अधिक थे
- internal links collect नहीं किए गए और न ही उनकी functionality जांची गई
- news pages के 94% में कम से कम 1 external link था
- median के आधार पर प्रति page links की संख्या 20 थी
- link count के top 10% pages में 56 links थे
- news site links की बड़ी संख्या
https://से शुरू होने वाले secure HTTP pages पर जाती थी- लगभग 12% PDF जैसी static files पर जाते थे
- 32% original URL के बजाय किसी दूसरे URL पर redirect होते थे
- government sites के external links में redirect ratio 39% था
- news site links को track करने पर कुल links में से 5% inaccessible थे
- sample news pages में से 23% में कम से कम 1 broken link था
- traffic के top 20% news sites के pages में से 25% में कम से कम 1 broken link था
- traffic के bottom 20% news sites के pages में से 26% में कम से कम 1 broken link था
- traffic scale के हिसाब से broken link ratio में लगभग कोई अंतर नहीं था
Wikipedia reference links
- analysis में English Wikipedia के 50 हजार pages random रूप से collect कर “References” section के links की जांच की गई
- sample pages में से 82% में Wikipedia के बाहर web pages पर जाने वाला कम से कम 1 reference link था
- कुल sample में reference links 10 लाख से थोड़ा अधिक थे
- सामान्य page में reference links की संख्या 4 थी
- Wikipedia reference links में कुल 11% अब inaccessible थे
- जिन source pages में reference links थे, उनमें से लगभग 2% में सभी links broken या inaccessible थे
- अन्य 53% pages में कम से कम 1 broken link था
X/Twitter posts का गायब होना
- social media analysis उस समय Twitter रहे X पर 8 मार्च~27 अप्रैल 2023 के बीच public tweets के लगभग 50 लाख real-time collection से किया गया
- collection में Twitter Streaming API का उपयोग हुआ, और हर 30 मिनट में 3,000 public tweets collect किए गए
- tracking 15 जून 2023 तक जारी रही, और हर tweet site पर अभी भी accessible है या नहीं, यह रोज जांचा गया
- observation समाप्त होने के समय initial collected tweets में से 18% अब public रूप से दिखाई नहीं दे रहे थे
- 60% में original posting account private, suspended या deleted हो गया था
- 40% में account मौजूद था, लेकिन individual tweet deleted था
ज्यादा बार गायब हुए tweets की विशेषताएं
- कुछ भाषाओं में लिखे tweets के गायब होने की संभावना अधिक थी
- Turkish tweets में लगभग आधे tracking end तक accessible नहीं रहे
- Arabic tweets भी इससे थोड़ा कम ratio में गायब हुए
- summary के आधार पर Turkish या Arabic tweets के 40% से अधिक 3 महीनों के भीतर दिखाई देना बंद हो गए
- default profile settings इस्तेमाल करने वाले accounts के tweets भी ज्यादा बार गायब हुए
- default profile image इस्तेमाल करने वाले accounts के tweets में आधे से अधिक अब inaccessible थे
- default bio field इस्तेमाल करने वाले accounts के tweets में एक-तिहाई से अधिक अब inaccessible थे
- ऐसे accounts के tweets individual tweet deletion की तुलना में account deletion या private mode में जाने के कारण गायब होने की प्रवृत्ति रखते थे
- unverified accounts के tweets के deleted या removed होने की संभावना भी अधिक थी
- गायब हुए tweets आम तौर पर अपेक्षाकृत नए, कम followers वाले और मध्यम activity वाले accounts से post किए गए थे
- जो tweets दिखाई देना बंद हो गए, उन्हें post करने वाले accounts, बने रहने वाले tweets post करने वाले accounts की तुलना में average लगभग 8 महीने नए थे
- retweets, quote tweets और original tweets में कुल average से बड़ा अंतर नहीं था
- replies अपेक्षाकृत कम हटाए गए, और tracking end पर inaccessible ratio 12% था
Tweets के गायब होने की गति और फिर से दिखना
- हटाए जाने वाले अधिकांश tweets post होने के तुरंत बाद अपेक्षाकृत तेजी से गायब हो गए
- survival analysis के आधार पर tweet removal timing इस प्रकार थी
- post के 1 घंटे के भीतर 1% removed हुए
- 1 दिन के भीतर 3% removed हुए
- 1 सप्ताह के भीतर 10% removed हुए
- 1 महीने के भीतर 15% removed हुए
- अंततः removed हुए tweets में से आधे post के 6 दिन के भीतर inaccessible हो गए
- अंततः removed हुए tweets में से 90% post के 46 दिन के भीतर inaccessible हो गए
- tweets हमेशा permanent रूप से गायब नहीं होते
- collected tweets में से 6% गायब हुए और बाद में फिर accessible हो गए
- इसका कारण account का private से public पर लौटना, या suspended होने के बाद restore होना हो सकता है
- फिर से दिखाई दिए tweets में से 90% tracking end तक भी Twitter पर accessible थे
1 टिप्पणियां
Hacker News की राय
वेबपेजों के 38% के गायब हो जाने से भी बड़ा मुद्दा यह है कि अब कई संस्थाएं·ग्रुप·बिजनेस लगभग सिर्फ Facebook पेज इस्तेमाल करते हैं, और Facebook के बाहर उनकी कोई web presence नहीं होती
नतीजा यह कि उनसे interact करने के लिए Facebook account जरूरी हो जाता है
अब सब कुछ subreddit, Facebook groups, Discord chats में शिफ्ट हो गया है, और valuable जानकारी ऐसे groups के अंदर छिपी रहती है, जो सच में अफसोस की बात है
दिन में एक बार क्या चल रहा है, यह देखने भर के लिए; अगर आपका account है, तो यह link उस काम को काफी आसान कर देता है: https://www.facebook.com/?filter=friends
मेरे आसपास के local businesses की जानकारी Google Maps पर काफी मिल जाती है, और websites हों भी तो आम तौर पर पुरानी होती हैं, लेकिन सीधे फोन कर लें तो जो पूछना हो उसका जवाब मिल जाता है
आज का web बहुत बड़ा हो गया है, लेकिन कहीं ज्यादा homogeneous भी है; उसमें ऐसा अनुपात शायद 0.00001% के आसपास होगा, और मुझे लगता है कि Web 1.0 sites आज के बंद “group pages” से बेहतर थे
जब मैंने कहा कि मैं Facebook इस्तेमाल नहीं करता, तो उन्होंने मुझे ऐसे देखा जैसे मैं कोई अजीब इंसान हूं
फिर भी अच्छी websites पुराने content को बचाए रखने की कुछ कोशिश तो करती हैं
उदाहरण के लिए 9/11 हमलों के समय की CNN और BBC reporting pages अब भी मौजूद हैं: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
यह उम्मीद करना मुश्किल है कि बहुत सारे links सही से काम करेंगे, लेकिन पुराने web की झलक देखना ही दिलचस्प है
यह कल्पना करना मुश्किल है कि आज की कई sites 20 साल बाद इस तरह बची रहेंगी; वजह तकनीकी असंभवता कम और word processor के आविष्कार के बाद writing quality खराब होने जैसी ज्यादा लगती है
अब सब कुछ managed और structured है, और ऐसा लगता है कि वह आजादी और bubble गायब हो गया है जो ऐसे अच्छे काम बनने देता था जिन्हें आसानी से explain नहीं किया जा सकता
सिर्फ पुराने content ही नहीं, अलग-अलग तरह के content को preserve करने की कोशिशों को support करना हो तो Internet Archive(archive.org) को कुछ pounds भी donate करना अच्छा रहेगा
और जो चीज valuable लगे, उसके कभी गायब हो जाने की स्थिति के लिए जहां तक हो सके local copy बना कर रखना बेहतर है
20 साल से ज्यादा समय में अलग-अलग installations से migrate होते आए मेरे bookmark file की कई technical pages अब original page के गायब होने से ठीक पहले की आखिरी complete backup copy पर जाती हैं
Internet Archive सबके लिए जबरदस्त benefit है
अब अगर कोई insightful article, technical info, humor जैसी जानकारी बाद में reference के लिए चाहिए, तो मैं web page को PDF आदि के रूप में save कर लेता हूं
bookmarks उन्हीं चीजों के लिए ठीक हैं जिनकी सिर्फ latest version तक पहुंच मायने रखती है। जैसे bank sites, shopping sites, company remote desktop systems वगैरह
एक सिर्फ websites को preserve करे, और दूसरी बाकी काम संभाले, जैसे ebooks या videogames पर aggressive intellectual-property tests
ताकि “दूसरा हिस्सा” lawsuits से ढह भी जाए तो website preservation बचा रहे। पहला हिस्सा मानवता के लिए महत्वपूर्ण service है, इसलिए मैं donate भी करता हूं, लेकिन भविष्य को लेकर चिंता है
मैं 2019 से एक news website चला रहा हूं
हर घंटे crawler dead links ढूंढता है, और रोज करीब एक link को archive.org link में बदलता हूं
सबसे मजेदार बात यह होती है कि चुनाव के अगले दिन candidates की websites सब blank pages बन जाती हैं, और सबसे दुखद बात वे government websites हैं जो हर हफ्ते सुबह 3 से 5 बजे तक down रहती हैं
मुझे तो हैरानी हुई कि यह आंकड़ा इससे ज्यादा नहीं है
2013 वह समय था जब शुरुआती internet के hobby sites वाला दौर काफी पीछे छूट चुका था, और ज्यादातर नई sites business purpose के लिए बन रही थीं
businesses की lifespan सोचें तो 11 साल बाद कहीं ज्यादा sites गायब हो चुकी होंगी, ऐसा मेरा अनुमान था
शायद Angelfire, Geocities जैसे community-building spaces के बड़े पैमाने पर मरने का इसमें बड़ा हिस्सा रहा होगा
खासकर यह graph में देखना दिलचस्प होगा कि websites कितने समय तक टिकती हैं। शुरुआती content काफी बचा हुआ है, और 2008~2018 के आसपास site extinction का peak रहा होगा
उदाहरण के लिए Geocities, graduation के बाद delete हो जाने वाले university-provided FTP folders, और Earthlink·Juno·Comcast जैसे ISPs के दिए FTP folders; इनके ज्यादातर delete हो चुके होने की संभावना है
मैं नहीं चाहता कि हर चीज हमेशा के लिए बची रहे
कुछ समय पहले मुझे 90s में बनाया हुआ अपना पहला .com संयोग से मिल गया; वह Angelfire पर hosted था और archive.org ने उसे ईमानदारी से फिर से preserve कर रखा था, और नतीजा वैसा ही था जैसा आप सोच रहे हैं
वह web page मैंने 4th grade में एक दोस्त के साथ बनाया था, इसलिए उस समय के हिसाब से ठीक था, लेकिन आज के हिसाब से, context समझने पर भी, उसमें ऐसी चीजें थीं जो ठीक नहीं थीं
कुछ भयावह नहीं था, लेकिन 90s के elementary school बच्चे जैसी मासूम अनजानगी से निकली bad taste वाली चीजें थीं, और शायद conscience से पूरी तरह मिटेंगी नहीं, इसलिए बस उसे झेलना होगा और उम्मीद करनी होगी कि कोई न देखे
अगर इससे तसल्ली मिले, तो हम सब बस बच्चे या teenagers थे और दुनिया सीख रहे थे
हमारे बाद की पीढ़ी ऐसे समय में बड़ी हुई जब internet ज्यादा accessible और कभी-कभी ज्यादा permanent space बन चुका था, इसलिए उनके लिए और भी बुरा लगता है
अच्छी बात है कि archive भी कभी-कभी material हटा देता है
इंटरनेट पर हर चीज़ मूल रूप से अस्थायी है
उससे लड़ने के बजाय इसे स्वीकार करना बेहतर है, और अगर आप कुछ संभालकर रखना चाहते हैं तो उसकी offline copy बना लें
PDF/A, खासकर -1 और -2 versions, संरक्षण के लिए स्पष्ट रूप से डिज़ाइन किए गए formats हैं और static content के लिए अच्छी तरह फिट बैठते हैं
हालांकि अफ़सोस है कि mirroring को web stack, यानी HTTP/HTML, में और आसानी से built-in नहीं किया गया। अगर local copy को वैकल्पिक path के रूप में शामिल करने वाले links आसानी से बनाए जा सकते, तो link rot बहुत कम चिंता की बात होती
Wikipedia का archive.org के ज़रिए सब कुछ link करने का तरीका निजी तौर पर मुझे थोड़ा अस्थायी workaround जैसा लगता है
सच कहूं तो यह संख्या इतनी कम है, यह देखकर हैरानी होती है
आजकल web का ज़्यादातर हिस्सा search engine optimization कचरा जैसा दिखता है
यह अपने आप में बुरा नहीं है
फिर भी यह बहुत अच्छी बात है कि web archives जैसी चीज़ें हैं, जो मूल्यवान content के लिए हमारी collective memory को बचाकर रखती हैं
खासकर मैं चाहता हूं कि घटनाओं के घटते समय लिखे गए सटीक records ऐसी जगह preserved रहें, जहां उन्हें बाद में बदला न जा सके। आजकल इतिहास को फिर से लिखना लोकप्रिय लगता है, इसलिए उस समय के original records को preserve करना उसका मुकाबला कर सकता है
भले ही वे records पूरी तरह सही न रहे हों, वे यह समझने में मदद करते हैं कि उस समय के actors किसे सच मानते थे
मुझे लगता है कि यह इंटरनेट की एक गंभीर विफलता है, जिससे हमें collectively बेहतर तरीके से बचना चाहिए था
ज़्यादातर मामलों में content खुद शायद कहीं न कहीं अब भी मौजूद है, बस links टूट गए हैं
libraries में इस्तेमाल होने वाले DOI system जैसा two-tier system ऐसे मामलों में मदद कर सकता है: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
हालांकि URL की उपयोगिता और सुविधा बनाए रखने के लिए यह automatically handled होना चाहिए, पर यह कैसे संभव होगा, मुझे ठीक से नहीं पता
यह bug नहीं, feature है
ऐसी दुनिया में रहना भयानक होगा जो न भूलती हो, न माफ़ करती हो
यह भी अच्छा है कि valuable content को preserve करने के लिए कुछ effort चाहिए। तभी उसकी value को ज़्यादा मान्यता मिलती है
“valuable content की value तभी मानी जाएगी जब उसे preserve करने में effort लगे” वाला तर्क लगभग ऐसा लगता है जैसे कहा जा रहा हो कि हर चीज़ महंगी होनी चाहिए
जैसे सस्ता storage बुरा है क्योंकि उससे हम files की value नहीं समझते, और महंगी healthcare अच्छी है क्योंकि उससे organs की value महसूस होती है
मुश्किल हिस्सा यह अनुमान लगाना है कि भविष्य में कौन सा content valuable माना जाएगा। अब तक कोई भी human civilization इसे सही से नहीं समझ पाई, और आम तौर पर उसने राजाओं की महानता को preserve करने पर ध्यान दिया
वह “Macintosh के बच्चों, Unix के आगे घुटने टेको…” से शुरू होता था, और पूरा लेख बाइबिल जैसी शैली बनाए रखते हुए बताता था कि Mac को NeXT ने क्यों जीत लिया
वह सचमुच शानदार लेख था, इसलिए कभी-कभी internet पर उसे फिर खोजने की कोशिश करता हूं, लेकिन जब आपको पता ही न हो कि क्या गायब हो गया है, तो जानना मुश्किल होता है
Ur के कचरे के ढेरों से निकली cuneiform clay tablets हैं, और उन्हीं की बदौलत Sumer के बारे में हमारी थोड़ी-बहुत जानकारी बची है
लेखन के आविष्कार ने भूलना असंभव बना दिया, और Jack Goody, James Carey, David Olson, Barry Powell जैसे anthropologists और Walter Ong जैसे लेखकों ने इसका गहराई से अध्ययन किया है
हम सच में अधिकतर अतीत में फंसी एक भयानक दुनिया में रहते हैं, और सांस्कृतिक जटिलता प्याज़ के छिलकों की तरह परत-दर-परत जमा होती जाती है
कोई भी अतीत में लौटकर उसके लिए nostalgia महसूस कर सकता है, लेकिन stored knowledge के ज़रिए दिखने वाला अतीत उन लोगों के लिए अलग-अलग मायने रखता है जिन्होंने उसे सीधे अनुभव नहीं किया
printing press के बाद से हम लगातार information inflation में जी रहे हैं। मध्यकालीन scholars ने शिकायत की कि printing press की वजह से कोई भी किताबें पढ़ और लिख सकता है, scholastic scholars vernacular के उभार से चौंक गए, और Michelangelo ने Flemish painters की खोखली कला की शिकायत की
यहां अहम बात decay की speed है। लेख कहता है कि 2013 में मौजूद sites में से 38% गायब हो गईं, और यह सिर्फ 10 साल में हुआ
उनमें से कितना noise था और कितना useful information या कम से कम interesting content था, यह हमें नहीं पता। क्योंकि वह पहले ही गायब हो चुका है
हमें यह भी नहीं पता कि बड़े web scrapers ने कितना store किया, या Google या Twitter कितना संभालकर रखते हैं
valuable content को define कैसे करेंगे? क्या वह आधी-नंगी actress की photo वाला 10 लाख views का tweet है, या 300 views वाला किसी अहम discovery का tweet?
जब internet ने newspapers, books, magazines, TV और radio editors जैसे gatekeepers को गिरा दिया, तो हम बेहद खुश हुए, लेकिन नतीजे में हम noise, conspiracy theories, memes, TikTok वगैरह में बह गए
समस्या यह है कि हम पर बरसने वाली विशाल information मात्रा को हम मुश्किल से संभाल पाते हैं, लोग भी बहुत ज़्यादा हैं और tastes भी इतने अलग हैं कि किस चीज़ की value है और किसकी नहीं, इस पर सहमति बनाना कठिन है
आपकी कही हुई “feature” design के हिसाब से ऐसी हो सकती है, लेकिन इसका मतलब यह नहीं कि वह useful या morally सही है