- वेबपेज से अनावश्यक comments, sidebar, header, footer हटाकर केवल मुख्य सामग्री को साफ़ करके HTML/Markdown में निकालने वाला content parser
- YouTube वीडियो में बातचीत को speaker के अनुसार अलग करके निकालता है (0.12.0 से)
- Obsidian Web Clipper के लिए विकसित किया गया था, लेकिन browser, Node.js आदि विभिन्न environments में इस्तेमाल किया जा सकता है
- Mozilla Readability के विकल्प के रूप में डिज़ाइन किया गया है, ताकि अधिक flexible processing और consistent output मिल सके
- अनिश्चित elements को हटाने को न्यूनतम रखता है
- footnotes, formulas, code blocks आदि के लिए standardized output का समर्थन
- mobile style analysis के ज़रिए अनावश्यक elements की पहचान
- schema.org metadata सहित अधिक metadata का स्वतः extraction
- CLI interface का समर्थन, जिससे terminal में सीधे HTML और URL parsing संभव
- MIT लाइसेंस
8 टिप्पणियां
Defuddle - Readability का विकल्प HTML-to-Markdown open source
यह 10 महीने पहले भी एक बार पोस्ट हुआ था, और इस बार YouTube वीडियो की बातचीत को speaker separation के साथ निकालने की सुविधा जोड़ी गई है.
और इस दौरान X URL का asynchronous extraction, article extraction, Substack app support, CLI जोड़ना, GitHub URL support जैसी कई सुविधाएँ भी जोड़ी गई हैं.
Jina AI Reader - URL को LLM-अनुकूल इनपुट में बदलने वाला टूल
उम्मीद है कि GeekNews के आंतरिक links में title अपने-आप जुड़ जाए...
मैंने इसे ठीक कर दिया है। अब से आने वाली टिप्पणियों के शीर्षक अपने-आप बदल दिए जाएंगे।
वाह, धन्यवाद
वाह, यह तो सच में इतना तुरंत हो जाता है, यह अब पता चला, हाहा। मुझे भी कभी यह असुविधाजनक लगा था, तब कहना चाहिए था।
Markdown थोड़ा अस्पष्ट तरीके से extract हो रहा है। लगता है कि यह सिर्फ़ उन्हीं मानकों पर अच्छी तरह extract करता है जहाँ web page पर SEO ठीक से लागू किया गया हो। क्या यह सही है?
Claude Code के साथ मिलाकर इस्तेमाल करने पर यह वाकई बहुत अच्छा लगता है।