ArchiveBox - सेल्फ-होस्टेड वेब आर्काइविंग टूल
(archivebox.io)- ओपन सोर्स टूल जो किसी भी वेबसाइट को ऑफलाइन देखने योग्य रूप में सेव करता है
- सीधे जोड़े गए URL, ब्राउज़र विज़िट हिस्ट्री (extension उपलब्ध), बुकमार्क, RSS, Pocket/Pinboard आदि से इम्पोर्ट करके HTML/JS/PDF/मीडिया आदि सेव करता है
- एक-एक करके जोड़ा जा सकता है या नियमित इम्पोर्ट के लिए शेड्यूल किया जा सकता है
- Linux, macOS, Windows (WSL2) पर इंस्टॉल किया जा सकता है या Docker से चलाकर CLI tool / web app / Python library / one-off command आदि के रूप में इस्तेमाल किया जा सकता है
- URL के snapshots को कई तरह के redundant formats में सेव करता है, और पेज में शामिल सभी content को पहचानकर folders में एक्सट्रैक्ट करता है
- HTML/सभी वेबसाइटें: original HTML+CSS+JS, singlefile HTML, screenshot PNG, PDF, WARC, title, content text, favicon, headers, …
- social media/समाचार: article content TXT, comments, title, saved items, images, …
- YouTube/SoundCloud/etc.: MP3/MP4s, subtitles, metadata, thumbnails, …
- Github/Gitlab/etc. links: GIT source code clone, README, images, …
- किसी अलग format का उपयोग नहीं करता; Chrome, wget, yt-dlp जैसे standard tools का उपयोग करके सामान्य files/folders में सेव करता है। यानी ArchiveBox के बिना भी सभी data पढ़े जा सकते हैं
- सेव किए जाने वाले URL को archive.org पर भेजकर अलग से save request प्रोसेस करता है (redundant preservation, local-only mode में disable किया जा सकता है)
3 टिप्पणियां
मैं आजकल Obsidian इस्तेमाल करते हुए Instapaper -> Obsidian plugin से markdown में सेव करके देख रहा हूँ, लेकिन वह उम्मीद के मुताबिक़ इतना साफ़-सुथरा नहीं आ रहा था।
मैं AWS Lambda पर Go-Readability का एक इंस्टेंस चलाकर आलस की वजह से रुका हुआ था, लेकिन लगता है कि मुझे यह भी देखना चाहिए कि क्या इन जैसे tools के साथ अच्छी तरह इंटीग्रेट होने वाली कोई चीज़ है। धन्यवाद!
मैं जब भी आर्काइविंग जैसा कोई कीवर्ड देखता हूँ, तो उसे थोड़ा ध्यान से देखता हूँ। पहले के GeekNews लेखों में इससे जुड़े कुछ लेख ये हैं.
अरे, Shori का GeekNews लिंक https://hi.news.hada.io/topic?id=577 है.