56 पॉइंट द्वारा xguru 2026-03-16 | 8 टिप्पणियां | WhatsApp पर शेयर करें
  • वेबपेज से अनावश्यक comments, sidebar, header, footer हटाकर केवल मुख्य सामग्री को साफ़ करके HTML/Markdown में निकालने वाला content parser
  • YouTube वीडियो में बातचीत को speaker के अनुसार अलग करके निकालता है (0.12.0 से)
  • Obsidian Web Clipper के लिए विकसित किया गया था, लेकिन browser, Node.js आदि विभिन्न environments में इस्तेमाल किया जा सकता है
  • Mozilla Readability के विकल्प के रूप में डिज़ाइन किया गया है, ताकि अधिक flexible processing और consistent output मिल सके
    • अनिश्चित elements को हटाने को न्यूनतम रखता है
    • footnotes, formulas, code blocks आदि के लिए standardized output का समर्थन
    • mobile style analysis के ज़रिए अनावश्यक elements की पहचान
    • schema.org metadata सहित अधिक metadata का स्वतः extraction
  • CLI interface का समर्थन, जिससे terminal में सीधे HTML और URL parsing संभव
  • MIT लाइसेंस

8 टिप्पणियां

 
xguru 2026-03-16

Defuddle - Readability का विकल्प HTML-to-Markdown open source
यह 10 महीने पहले भी एक बार पोस्ट हुआ था, और इस बार YouTube वीडियो की बातचीत को speaker separation के साथ निकालने की सुविधा जोड़ी गई है.
और इस दौरान X URL का asynchronous extraction, article extraction, Substack app support, CLI जोड़ना, GitHub URL support जैसी कई सुविधाएँ भी जोड़ी गई हैं.

 
tested 2026-03-16

उम्मीद है कि GeekNews के आंतरिक links में title अपने-आप जुड़ जाए...

 
xguru 2026-03-16

मैंने इसे ठीक कर दिया है। अब से आने वाली टिप्पणियों के शीर्षक अपने-आप बदल दिए जाएंगे।

 
tested 2026-03-16

वाह, धन्यवाद

 
crawler 2026-03-16

वाह, यह तो सच में इतना तुरंत हो जाता है, यह अब पता चला, हाहा। मुझे भी कभी यह असुविधाजनक लगा था, तब कहना चाहिए था।

 
shakespeares 2026-03-16

Markdown थोड़ा अस्पष्ट तरीके से extract हो रहा है। लगता है कि यह सिर्फ़ उन्हीं मानकों पर अच्छी तरह extract करता है जहाँ web page पर SEO ठीक से लागू किया गया हो। क्या यह सही है?

 
dbs0829 2026-03-16

Claude Code के साथ मिलाकर इस्तेमाल करने पर यह वाकई बहुत अच्छा लगता है।