9 पॉइंट द्वारा GN⁺ 2024-11-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • HTML को साफ़ और पढ़ने में आसान Markdown में बदलने वाला एक शक्तिशाली टूल
  • जटिल फ़ॉर्मैटिंग को सपोर्ट करता है, और custom options तथा plugins के ज़रिए conversion process पर पूरा नियंत्रण देता है
  • Golang library या CLI command का उपयोग कर सकते हैं, या online demo और REST API के माध्यम से सीधे देख सकते हैं

मुख्य विशेषताएँ

  • Bold & Italic: शब्द के भीतर भी bold और italic को सपोर्ट करता है
  • List: ordered list और unordered list की पूरी nesting को सही तरह से सपोर्ट करता है
  • Blockquote: quote के भीतर अन्य elements शामिल किए जा सकते हैं, और nested blockquotes भी सहज रूप से सपोर्ट होते हैं
  • Inline Code & Code Block: backticks और multi-line code blocks को सही तरह से संभालकर code structure बनाए रखता है
  • Link & Image: multi-line links को सही format में रखता है, और खाली पंक्तियों के लिए escaping जोड़ता है
  • Smart Escaping: special characters को केवल ज़रूरत पड़ने पर ही escape करता है ताकि अनचाहा Markdown rendering न हो
  • Remove/Keep HTML: कुछ HTML tags को हटाने या बनाए रखने का विकल्प देता है
  • Plugin: plugins को आसानी से extend किया जा सकता है, या functionality बेहतर करने के लिए custom plugins बनाए जा सकते हैं
    • अगर custom logic की ज़रूरत हो, तो code लिखकर उसे register किया जा सकता है
    • अगर default setting पसंद न हो, तो PriorityEarly का उपयोग करके logic को बाकी चीज़ों से पहले चलाया जा सकता है
  • Converter को कई goroutines में उपयोग किया जा सकता है, और यह अंदरूनी रूप से mutex का उपयोग करता है

1 टिप्पणियां

 
GN⁺ 2024-11-10
Hacker News राय
  • Jina.ai के मुफ़्त API का उपयोग करने पर बिना authentication या API key के URL फ़ेच करके Markdown दस्तावेज़ प्राप्त किया जा सकता है

    • कुछ वेबसाइटें प्रोसेस नहीं हो पातीं, लेकिन ज़्यादातर मामलों में यह 90% काम कर सकता है
    • Pandoc का उपयोग करके HTML को Markdown में बदला जा सकता है
  • सोच रहा हूँ कि MIT license वाला यह टूल Kindle पर पढ़ने के लिए p2k, Instapaper आदि के विकल्प के रूप में काम आ सकता है या नहीं

    • ये सेवाएँ अक्सर rendering में सटीक नहीं होतीं और subscription fee मांगती हैं
    • अगर प्रोजेक्ट का सक्रिय रूप से रखरखाव हो, तो इसे अलग-अलग लेखों पर टेस्ट करके समस्याएँ रिपोर्ट की जा सकती हैं
  • मैं इस लाइब्रेरी को Lambda function में इस्तेमाल करके URL को Markdown में बदलता हूँ और उसे S3 में स्टोर करता हूँ

    • इसे सभी bookmark apps से webhook के रूप में जोड़कर, जो भी bookmark करता हूँ उसे Markdown के रूप में सेव करता हूँ
    • Obsidian में import करना सुविधाजनक है
  • LLM को वेब पेज डेटा देने के लिए यह उपयोगी है

    • Elixir ecosystem के लिए मैंने एक मिलता-जुलता टूल बनाया था, लेकिन वह सीमित है
    • यहाँ से आइडिया लिया जा सकता है
  • अच्छा होगा अगर इस टूल में n-gram deduplication फीचर हो

    • header और footer में मौजूद एक जैसी सामग्री हटाने की सुविधा चाहिए
  • Urlbox का उपयोग करके वेब पेज के सटीक screenshot और Markdown दोनों प्राप्त किए जा सकते हैं

    • यह सुविधा एक मुफ़्त टूल से इस्तेमाल की जा सकती है
  • RedditToMarkdown और urltomarkdown.com, LLM और AI apps बनाने में उपयोगी हैं

  • Kotlin/Spring app में इस्तेमाल करने के लिए एक समान लाइब्रेरी ढूँढ़ रहा हूँ

    • HTML से Markdown में बदलते समय HTML document string पहले से साफ़-सुथरी है
  • इस टूल का उपयोग करते समय चुनौतियों में से एक syntax-highlighted code blocks को संभालना है

    • जानना चाहता हूँ कि html-to-markdown ऐसे परिदृश्यों में कैसे काम करता है