ArchiveBox का विकास जारी: self-hosted इंटरनेट आर्काइव का भविष्य
(docs.sweeting.me)- ArchiveBox ने इंटरनेट आर्काइव को self-host करने के लिए नई सुविधाएँ पेश की हैं
- Archive.org पर हालिया हमले के बाद, ArchiveBox में रुचि बढ़ी है
- ArchiveBox, Archive.org के मिशन का समर्थन करता है और इस बात पर ज़ोर देता है कि उनकी सेवा मानवता के लिए महत्वपूर्ण मूल्य प्रदान करती है
सार्वजनिक आर्काइव की सीमाएँ
- लोग स्थायी रूप से आर्काइव किए जाने के डर के कारण आर्काइविंग से हिचकिचाते हैं
- व्यक्तियों को यह अधिकार होना चाहिए कि वे जिसे महत्वपूर्ण मानते हैं, उसे आर्काइव कर सकें
- आधुनिक वेब वातावरण के अनुरूप व्यक्तिगत और अर्ध-निजी कंटेंट को आर्काइव करने के लिए समाधान की आवश्यकता है
आर्काइविंग का महत्व
- परिवार, व्यक्ति और कंपनियाँ सभी अपने लिए महत्वपूर्ण कंटेंट को सुरक्षित रखना चाहते हैं
- व्यक्तिगत कंटेंट की आर्काइविंग में सुरक्षा संबंधी चुनौतियाँ होती हैं और इसमें सावधानी की आवश्यकता है
दुर्भावनापूर्ण कंटेंट
- सार्वजनिक आर्काइव कभी-कभी नस्लवाद, हिंसा और घृणास्पद भाषण जैसे कंटेंट को संरक्षित करके समस्याएँ पैदा कर सकते हैं
- ऐसे कंटेंट को संरक्षित करने के तरीकों पर गंभीरता से विचार करने की आवश्यकता है
ArchiveBox के नए plugin ecosystem का परिचय
- ArchiveBox v0.8, प्रोजेक्ट के इतिहास का अब तक का सबसे बड़ा अपडेट है, जो एक नया plugin ecosystem पेश करता है
- इसमें विभिन्न community-supported सुविधाएँ देने वाले plugins शामिल हैं
yt-dlpYouTube, Soundcloud, YouKu आदि से वीडियो, ऑडियो और subtitles डाउनलोड करता हैpapers-dlDOI नंबर दिखने पर scientific papers के PDF अपने-आप डाउनलोड करता हैgallery-dlFlickr, Instagram आदि से photo galleries डाउनलोड करता हैforum-dlपुराने forums और गहराई से nested comment threads डाउनलोड करता हैreadabilityarticle text को .txt, .md, .epub में extract करता हैaipage screenshots और text को custom prompts के साथ LLM को भेजता है और responses सहेजता हैwebhooksकुछ results सेव होते ही external API को trigger करता है और Slack, N8N आदि को ping भेजता है- इसके अलावा भी कई सुविधाएँ हैं
- plugin system, pluggy और pydantic लाइब्रेरी पर आधारित है
अतिरिक्त विकास
- नया REST API, django-ninja से बनाया गया है
- external storage support जोड़ा गया है
- content-addressable storage system के शुरुआती चरण पेश किए गए हैं
- background jobs system जोड़ा गया है
- आसान उपयोग चाहने वालों के लिए नया टूल
abx-dlजल्द जारी किया जाएगा
"ArchiveBox को SQLite का उपयोग करते हुए local-first रूप में डिज़ाइन किया गया है, और P2P हमेशा वैकल्पिक है"
GN⁺ का सारांश
- ArchiveBox एक ऐसा टूल है जो व्यक्तियों और कंपनियों को अपना खुद का इंटरनेट आर्काइव बनाने में मदद करता है, और हालिया बदलाव इसे और मजबूत बनाते हैं
- यह सार्वजनिक आर्काइव की सीमाओं को पूरक करता है और निजी व संवेदनशील कंटेंट को सुरक्षित रूप से संरक्षित करने का तरीका प्रदान करता है
- plugin ecosystem विविध सुविधाएँ देकर user experience को बेहतर बनाता है
2 टिप्पणियां
ArchiveBox - सेल्फ-होस्टेड वेब आर्काइविंग टूल
Hacker News राय
ArchiveBox की स्थिरता और सुधार की ज़रूरत पर राय है। कम्युनिटी की भागीदारी महत्वपूर्ण है, और अकेले डेवलपर की कठिनाइयों को समझा जाता है.
ArchiveBox के नए API और plugins को लेकर उत्साह है। इसे 2 साल से आर्काइविंग के लिए इस्तेमाल किया जा रहा है.
grab-siteजैसे टूल WARC archive बनाने और स्टोर करने में उपयोगी हो सकते हैं। distributed archive के लिए CDX index और encrypted signature support की ज़रूरत हो सकती है.ArchiveBox का उपयोग करके पुरानी नावों की जानकारी archive करने का अनुभव साझा किया गया है। पुराने web forum के गायब हो जाने पर अफसोस जताया गया है.
व्यक्तिगत web page archive करने के लिए Readeck.org का उपयोग किया जा रहा है, और ArchiveBox की distributed archiving दिशा में रुचि है.
abx-dlकी उपलब्धता के बारे में पूछा गया है और packaging support देने की इच्छा जताई गई है.REST API को लेकर उत्साह है, और search feature की अनुपस्थिति पर निराशा जताई गई है। FTS index के जरिए query feature की ज़रूरत है.
ArchiveBox का उपयोग करके website archive करने की ज़रूरत महसूस की जा रही है। Pinboard subscription का archive export feature काम नहीं कर रहा.
archived data के लिए Merkle tree बनाने का सुझाव दिया गया है। डेटा की प्रामाणिकता साबित करने के एक तरीके के रूप में blockchain पर विचार किया जा सकता है.
self-hosted website change monitoring system के लिए सिफारिशें मांगी गई हैं। Huginn का उपयोग किया जा रहा है, लेकिन आधुनिक JS-आधारित साइटों के साथ कठिनाई हो रही है.