18 पॉइंट द्वारा GN⁺ 2024-10-17 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • ArchiveBox ने इंटरनेट आर्काइव को self-host करने के लिए नई सुविधाएँ पेश की हैं
  • Archive.org पर हालिया हमले के बाद, ArchiveBox में रुचि बढ़ी है
    • ArchiveBox, Archive.org के मिशन का समर्थन करता है और इस बात पर ज़ोर देता है कि उनकी सेवा मानवता के लिए महत्वपूर्ण मूल्य प्रदान करती है

सार्वजनिक आर्काइव की सीमाएँ

  • लोग स्थायी रूप से आर्काइव किए जाने के डर के कारण आर्काइविंग से हिचकिचाते हैं
  • व्यक्तियों को यह अधिकार होना चाहिए कि वे जिसे महत्वपूर्ण मानते हैं, उसे आर्काइव कर सकें
  • आधुनिक वेब वातावरण के अनुरूप व्यक्तिगत और अर्ध-निजी कंटेंट को आर्काइव करने के लिए समाधान की आवश्यकता है

आर्काइविंग का महत्व

  • परिवार, व्यक्ति और कंपनियाँ सभी अपने लिए महत्वपूर्ण कंटेंट को सुरक्षित रखना चाहते हैं
  • व्यक्तिगत कंटेंट की आर्काइविंग में सुरक्षा संबंधी चुनौतियाँ होती हैं और इसमें सावधानी की आवश्यकता है

दुर्भावनापूर्ण कंटेंट

  • सार्वजनिक आर्काइव कभी-कभी नस्लवाद, हिंसा और घृणास्पद भाषण जैसे कंटेंट को संरक्षित करके समस्याएँ पैदा कर सकते हैं
  • ऐसे कंटेंट को संरक्षित करने के तरीकों पर गंभीरता से विचार करने की आवश्यकता है

ArchiveBox के नए plugin ecosystem का परिचय

  • ArchiveBox v0.8, प्रोजेक्ट के इतिहास का अब तक का सबसे बड़ा अपडेट है, जो एक नया plugin ecosystem पेश करता है
  • इसमें विभिन्न community-supported सुविधाएँ देने वाले plugins शामिल हैं
    • yt-dlp YouTube, Soundcloud, YouKu आदि से वीडियो, ऑडियो और subtitles डाउनलोड करता है
    • papers-dl DOI नंबर दिखने पर scientific papers के PDF अपने-आप डाउनलोड करता है
    • gallery-dl Flickr, Instagram आदि से photo galleries डाउनलोड करता है
    • forum-dl पुराने forums और गहराई से nested comment threads डाउनलोड करता है
    • readability article text को .txt, .md, .epub में extract करता है
    • ai page screenshots और text को custom prompts के साथ LLM को भेजता है और responses सहेजता है
    • webhooks कुछ results सेव होते ही external API को trigger करता है और Slack, N8N आदि को ping भेजता है
    • इसके अलावा भी कई सुविधाएँ हैं
  • plugin system, pluggy और pydantic लाइब्रेरी पर आधारित है

अतिरिक्त विकास

  • नया REST API, django-ninja से बनाया गया है
  • external storage support जोड़ा गया है
  • content-addressable storage system के शुरुआती चरण पेश किए गए हैं
  • background jobs system जोड़ा गया है
  • आसान उपयोग चाहने वालों के लिए नया टूल abx-dl जल्द जारी किया जाएगा

"ArchiveBox को SQLite का उपयोग करते हुए local-first रूप में डिज़ाइन किया गया है, और P2P हमेशा वैकल्पिक है"

GN⁺ का सारांश

  • ArchiveBox एक ऐसा टूल है जो व्यक्तियों और कंपनियों को अपना खुद का इंटरनेट आर्काइव बनाने में मदद करता है, और हालिया बदलाव इसे और मजबूत बनाते हैं
  • यह सार्वजनिक आर्काइव की सीमाओं को पूरक करता है और निजी व संवेदनशील कंटेंट को सुरक्षित रूप से संरक्षित करने का तरीका प्रदान करता है
  • plugin ecosystem विविध सुविधाएँ देकर user experience को बेहतर बनाता है

2 टिप्पणियां

 
GN⁺ 2024-10-17
Hacker News राय
  • ArchiveBox की स्थिरता और सुधार की ज़रूरत पर राय है। कम्युनिटी की भागीदारी महत्वपूर्ण है, और अकेले डेवलपर की कठिनाइयों को समझा जाता है.

    • ArchiveBox को अधिक स्थिर और भरोसेमंद प्रोजेक्ट बनने के लिए कम्युनिटी के समर्थन की ज़रूरत है.
    • आर्काइविंग सिर्फ अतीत के लिए नहीं, बल्कि भविष्य के लिए भी है, और इसके लिए एक टिकाऊ डेवलपमेंट संगठन की आवश्यकता हो सकती है.
  • ArchiveBox के नए API और plugins को लेकर उत्साह है। इसे 2 साल से आर्काइविंग के लिए इस्तेमाल किया जा रहा है.

  • grab-site जैसे टूल WARC archive बनाने और स्टोर करने में उपयोगी हो सकते हैं। distributed archive के लिए CDX index और encrypted signature support की ज़रूरत हो सकती है.

  • ArchiveBox का उपयोग करके पुरानी नावों की जानकारी archive करने का अनुभव साझा किया गया है। पुराने web forum के गायब हो जाने पर अफसोस जताया गया है.

  • व्यक्तिगत web page archive करने के लिए Readeck.org का उपयोग किया जा रहा है, और ArchiveBox की distributed archiving दिशा में रुचि है.

  • abx-dl की उपलब्धता के बारे में पूछा गया है और packaging support देने की इच्छा जताई गई है.

  • REST API को लेकर उत्साह है, और search feature की अनुपस्थिति पर निराशा जताई गई है। FTS index के जरिए query feature की ज़रूरत है.

  • ArchiveBox का उपयोग करके website archive करने की ज़रूरत महसूस की जा रही है। Pinboard subscription का archive export feature काम नहीं कर रहा.

  • archived data के लिए Merkle tree बनाने का सुझाव दिया गया है। डेटा की प्रामाणिकता साबित करने के एक तरीके के रूप में blockchain पर विचार किया जा सकता है.

  • self-hosted website change monitoring system के लिए सिफारिशें मांगी गई हैं। Huginn का उपयोग किया जा रहा है, लेकिन आधुनिक JS-आधारित साइटों के साथ कठिनाई हो रही है.