1 टिप्पणियां

 
GN⁺ 2024-04-15
Hacker News राय

संक्षेप में यह इस प्रकार है:

  • वेब पेज को Markdown में बदलने वाला टूल बनाते समय लोड मैनेजमेंट और फ्री सर्विस की sustainability को लेकर चिंताएँ हैं
  • वेब पेज को Markdown में बदलते समय महत्वपूर्ण समस्याएँ निम्नलिखित हैं:
    1. पेज कंटेंट की पूरी तरह scraping (उच्च recall)
    2. विज्ञापन/सहायक कंटेंट हटाना (उच्च precision)
    3. सही layout/section type निकालना (formatting)
  • मौजूदा open source टूल्स (Trafilatura, Newspaper4k, python-readability आदि) एक निश्चित स्तर से ऊपर का performance दिखाते हैं। differentiation point या improvement area क्या हो सकता है, यह जानने की इच्छा है
  • जिन साइटों पर cookie message दिखता है, वहाँ असली कंटेंट की जगह सिर्फ cookie से जुड़ा कंटेंट parse होने की समस्या है (उदाहरण: cnbc.com)
  • GPT का उपयोग करके image download, filtering आदि के आइडिया अच्छे हैं
  • समान टूल्स का परिचय:
    • url2text.com: JS से rendered HTML, metadata, screenshot आदि को साथ में extract कर सकता है
    • firecrawl.dev: सिर्फ single page नहीं, बल्कि पूरी site crawling की सुविधा भी देता है
    • substack-ai.vercel.app: Substack newsletter कंटेंट extraction पर विशेष रूप से केंद्रित
    • content-parser.com: Markdown, HTML, text, PDF आदि कई formats को support करता है
  • pandoc जैसे general-purpose document conversion टूल से भी समान functionality लागू की जा सकती है
  • अधिकांश टूल्स Mozilla के readability प्रोजेक्ट का उपयोग करके बनाए गए हैं