3 पॉइंट द्वारा GN⁺ 2025-08-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ArchiveTeam ने सभी goo.gl short links को सफलतापूर्वक archive कर लिया है
  • ArchiveTeam Warrior नामक virtual archiving program के ज़रिए कोई भी archive project में भाग ले सकता है
  • यह Warrior Windows, OS X, Linux वातावरण में बिना किसी अलग जोखिम के चलाया जा सकता है
  • उपयोगकर्ता सरल settings के ज़रिए project चुनकर गतिविधियों में भाग ले सकते हैं
  • यह आसान और सहज तरीका देता है, जिससे बिना किसी विशेष तकनीकी कौशल के भी archive गतिविधियों में मदद की जा सकती है

ArchiveTeam Warrior का परिचय

  • ArchiveTeam Warrior एक virtual archiving appliance है जिसे कोई भी आसानी से इस्तेमाल कर सकता है
  • उपयोगकर्ता Warrior चलाकर वेबसाइट आदि डाउनलोड कर सकते हैं और उन्हें ArchiveTeam के archive में upload करने के काम में भाग ले सकते हैं
  • Warrior असली कंप्यूटर वातावरण को कोई जोखिम नहीं देता और सिर्फ internet bandwidth और थोड़ी disk space का उपयोग करता है
  • यह Windows, OS X, Linux सभी वातावरणों को support करता है, और VirtualBox, VMware जैसे virtual machine program की आवश्यकता होती है

VirtualBox का उपयोग करने का तरीका

  • Warrior appliance (357MB) डाउनलोड करें
  • VirtualBox में File > Import Appliance मेनू पर क्लिक करके डाउनलोड की गई फ़ाइल लाएँ
  • virtual machine शुरू करने पर यह अपने-आप नवीनतम updates लेता है और web browser इस्तेमाल करने का अनुरोध करता है

Warrior चलाने के बाद की प्रक्रिया

  • Settings page पर जाकर उसे देखें
  • leaderboard पर प्रगति दिखाने के लिए username चुनें
  • All projects tab में अपनी पसंद का project चुनकर भाग लें, या सबसे ज़्यादा urgent project में शामिल होने के लिए ArchiveTeam’s Choice भी चुन सकते हैं

भाग लेने के फायदे

  • बिना किसी विशेष तकनीकी कौशल या जटिल प्रक्रिया के कोई भी आसानी से archive project गतिविधियों में योगदान दे सकता है
  • उपयोगकर्ता की archive गतिविधि उपलब्धियाँ leaderboard पर दिखाई जाती हैं, जिससे प्रेरणा और collaboration दोनों को बढ़ावा मिलता है

1 टिप्पणियां

 
GN⁺ 2025-08-18
Hacker News टिप्पणियाँ
  • जब भी ArchiveTeam ऐसा कोई प्रोजेक्ट करता है, मैं सचमुच हैरान रह जाता हूँ। कुछ साल पहले जिस video platform में मैं काम करता था, उसने जल्द ही सेवा बंद करने की घोषणा की थी। तब मेरा संपर्क ArchiveTeam के एक सदस्य से हुआ, और पता चला कि उन्हें data preserve करने के काम में रुचि है। मैंने उन्हें थोड़ी सलाह दी (server endpoints की जानकारी, जहाँ archiving में दिक्कत आ सकती थी), और अपने कुछ EC2 instances अस्थायी रूप से उधार भी दिए। Server मेरे स्वामित्व में थे, इसलिए मैं देख सकता था कि क्या हो रहा है। सिर्फ 2 मिनट में instances पूरी तरह तैयार हो गए और तेजी से videos archive करने लगे, और हर instance बिना duplication के अलग-अलग videos बहुत कुशलता से download कर रहा था। ArchiveTeam का मिशन तो हमेशा अच्छा लगता है, लेकिन उनका execution जिस efficiency से होता है, वह सचमुच प्रभावशाली है।

  • शीर्षक सही नहीं है। असल में यह Archiveteam.org है, Archive.org नहीं। The Internet Archive storage उपलब्ध कराता है, लेकिन वास्तविक archiving का काम Archiveteam के सदस्य करते हैं।

    • मैं जानना चाहता हूँ कि Archiveteam का सटीक योगदान क्या है। मुझे ठीक से समझ नहीं आ रहा। आखिरकार यह archive target और archive server के बीच शायद किसी गैर-ज़रूरी middleman जैसा लगता है। सोच रहा हूँ कि कहीं मैं कुछ मिस तो नहीं कर रहा।
  • इससे जुड़ी सामग्री साझा करना चाहता हूँ: "लिंक रॉट (Link Rot) के खिलाफ युद्ध में शामिल हों" (लिंक), Google की goo.gl policy changes पर कई HN discussion threads (2018~2025 संबंधित पोस्ट संग्रह, यहाँ, यहाँ, यहाँ, यहाँ, यहाँ, यहाँ)। इस पर कई तरह की चर्चाएँ हैं, उम्मीद है मददगार होंगी।

  • Google का नवीनतम update साझा कर रहा हूँ: Google ब्लॉग update लिंक

    • आह, Google जैसी बेहद अविश्वसनीय कंपनी से आई जानकारी को मैं बहुत भरोसेमंद नहीं मानता, इसलिए इस बार के इस "update" पर भी बिल्कुल भरोसा नहीं है।
    • Google की घोषणा के मुताबिक shortened links (goo.gl links) "25 अगस्त के बाद काम नहीं करेंगे और किसी अन्य URL shortening service पर जाने की सलाह दी जाती है"। अगर ऐसा है, तो कुछ links को ही बचाकर रखने का मतलब ही क्या रह जाता है? वे shortened links जो पहले से documents में दर्ज हैं और बदले नहीं जा सकते, क्या आखिरकार सब टूट ही नहीं जाएँगे?
    • आखिर इसका मतलब क्या है, समझ नहीं आता। जो पुराने links लगभग इस्तेमाल ही नहीं होते (या बहुत कम activity वाले हैं), उन्हें redirect करते रहने में शायद इतना खर्च भी नहीं होगा, तो फिर इन्हें बंद करने की ज़रूरत क्यों है? (यह नीति बदलकर सिर्फ high-traffic links को redirect करते रहना भी)।
    • यह भी समझ नहीं आता। क्या पूरा database सुरक्षित रखना सचमुच इतना महँगा है? जबकि उसका कुछ हिस्सा तो वैसे भी रखना ही पड़ेगा।
  • क्या कोई reddit या twitter को पूरा archive कर रहा है? भले ही उनके Terms बदल गए हों और अब यह अनुमति न देते हों, फिर भी जिज्ञासा है।

    • reddit के लिए पहले Pushshift नाम का एक प्रोजेक्ट था। reddit API बदलने से पहले तक यह data the-eye नाम के एक दूसरे data archiver/preservation group से download किया जा सकता था। twitter के मामले में, मेरी जानकारी में ऐसा कुछ नहीं है। और Wayback Machine में tweets archive न कर पाने की स्थिति को भी कई साल हो चुके हैं।
    • Academictorrents पर API restrictions के बाद भी reddit की सभी submissions और comments के monthly dumps मिल सकते हैं।
    • OpenAI से एक बार पूछकर देखना भी एक तरीका है।
  • यह page मुझे ठीक से समझ नहीं आ रहा। वहाँ dataset list (शायद?) दी हुई है, और उसका size 91 TiB तक काफी बड़ा दिख रहा है। सिर्फ Google shortened links और target URLs की सूची के लिए 91 TiB की ज़रूरत पड़े, ऐसा नहीं लगता। क्या किसी को इसका सिद्धांत पता है?

    • मैंने एक मोटा हिसाब लगाया। Google search से randomly चुना गया एक URL 705 bytes का था, goo.gl short link 22 bytes का, और अगर सिर्फ simple ID store करें तो 6 bytes। छोटे या बड़े cases हो सकते हैं, लेकिन मोटे तौर पर देखें तो यह tens of billions से लेकर trillions तक URLs के बराबर capacity बनती है।
  • मुझे खुशी है कि मैं इस archiving में थोड़ा-बहुत योगदान दे पाया।

    • मुझे भी अच्छा लगा कि leaderboard पर मेरा नाम दिख रहा है। सच कहूँ तो मैंने बस एक दिन docker container install किया और फिर उसे भूल गया।
  • सोच रहा हूँ कि कितने links private YouTube videos या Google Docs जैसी चीज़ों की ओर जाते होंगे।

    • मन ही मन मज़ाक में कहना चाहता था, "अब तो download करके सीधे search कर सकते हैं", लेकिन वास्तव में यहाँ देखें तो "Access-restricted-item: true" के साथ access restriction लगी हुई है। Size भी 10GB के हिस्सों में दिया गया है।
  • मैं यह जानना चाहता हूँ कि "all" का मतलब वास्तव में सभी publicly available URLs है, या फिर पूरे URL namespace को brute-force की तरह बार-बार आज़माया गया है।

    • वास्तव में तरीका यह था कि volunteers ने खुद client चलाकर, IP ban से बचते हुए, पूरे URL namespace को बार-बार try किया।
    • Public goo.gl URLs पहले से ही Internet Archive और Common Crawl की crawling में शामिल हैं।