वेब पेज को Markdown में बदलने वाला टूल बनाते समय लोड मैनेजमेंट और फ्री सर्विस की sustainability को लेकर चिंताएँ हैं
वेब पेज को Markdown में बदलते समय महत्वपूर्ण समस्याएँ निम्नलिखित हैं:
पेज कंटेंट की पूरी तरह scraping (उच्च recall)
विज्ञापन/सहायक कंटेंट हटाना (उच्च precision)
सही layout/section type निकालना (formatting)
मौजूदा open source टूल्स (Trafilatura, Newspaper4k, python-readability आदि) एक निश्चित स्तर से ऊपर का performance दिखाते हैं। differentiation point या improvement area क्या हो सकता है, यह जानने की इच्छा है
जिन साइटों पर cookie message दिखता है, वहाँ असली कंटेंट की जगह सिर्फ cookie से जुड़ा कंटेंट parse होने की समस्या है (उदाहरण: cnbc.com)
GPT का उपयोग करके image download, filtering आदि के आइडिया अच्छे हैं
समान टूल्स का परिचय:
url2text.com: JS से rendered HTML, metadata, screenshot आदि को साथ में extract कर सकता है
firecrawl.dev: सिर्फ single page नहीं, बल्कि पूरी site crawling की सुविधा भी देता है
substack-ai.vercel.app: Substack newsletter कंटेंट extraction पर विशेष रूप से केंद्रित
content-parser.com: Markdown, HTML, text, PDF आदि कई formats को support करता है
pandoc जैसे general-purpose document conversion टूल से भी समान functionality लागू की जा सकती है
अधिकांश टूल्स Mozilla के readability प्रोजेक्ट का उपयोग करके बनाए गए हैं
1 टिप्पणियां
Hacker News राय
संक्षेप में यह इस प्रकार है:
Trafilatura,Newspaper4k,python-readabilityआदि) एक निश्चित स्तर से ऊपर का performance दिखाते हैं। differentiation point या improvement area क्या हो सकता है, यह जानने की इच्छा हैcnbc.com)url2text.com: JS से rendered HTML, metadata, screenshot आदि को साथ में extract कर सकता हैfirecrawl.dev: सिर्फ single page नहीं, बल्कि पूरी site crawling की सुविधा भी देता हैsubstack-ai.vercel.app: Substack newsletter कंटेंट extraction पर विशेष रूप से केंद्रितcontent-parser.com: Markdown, HTML, text, PDF आदि कई formats को support करता हैpandocजैसे general-purpose document conversion टूल से भी समान functionality लागू की जा सकती हैreadabilityप्रोजेक्ट का उपयोग करके बनाए गए हैं