5 पॉइंट द्वारा GN⁺ 2024-10-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • वेबसाइटों को ePub में बदलने वाला टूल
  • वेबसाइट से HTML पेजों की सूची निकालकर उन्हें ePub किताब के रूप में संकलित करता है, ताकि आप उसे अपनी पसंद के eReader में इम्पोर्ट कर सकें
  • जो advanced users JavaScript लिख सकते हैं, वे साइट parsing को customize करने के लिए अतिरिक्त parser definitions जोड़ सकते हैं

समर्थित साइटें

  • Novel Update
  • Wuxia World
  • awesome-read-the-docs की अधिकांश साइटें
  • ऐसी custom sites जो UL/OL elements को table of contents की तरह इस्तेमाल करती हैं, या link text पर regular expressions या query selectors का उपयोग करती हैं
  • ऐसे custom web apps जो pre-defined title (header) elements और next button (clickable) का उपयोग करते हैं

GN⁺ की संक्षिप्त जानकारी

  • Epublifier वेबसाइट के कंटेंट को ePub फ़ॉर्मैट में बदलता है, जिससे उसे eReader पर आसानी से पढ़ा जा सके
  • यह टूल खास तौर पर Novel Update और Wuxia World जैसी साइटों को सपोर्ट करता है, और advanced users JavaScript के जरिए parsing को customize कर सकते हैं
  • यह टूल उन users के लिए उपयोगी है जो web content को offline पढ़ना चाहते हैं, और इसी तरह की सुविधा देने वाले टूल्स में Calibre शामिल है

1 टिप्पणियां

 
GN⁺ 2024-10-22
Hacker News की राय
  • Calibre कई साइटों को support करता है
  • यह extension यह समझाने की कोशिश करता है कि यह दूसरे scrapers से कैसे अलग है
    • यह उन वेबसाइटों पर EPub बनाने के लिए है जहाँ पारंपरिक scrapers अच्छी तरह काम नहीं करते
    • सामान्य command-line scrapers और अन्य extensions केवल पहले से परिभाषित साइटों पर ही काम करते हैं
    • इनमें जटिल setup या code की ज़रूरत हो सकती है
    • कुछ साइटें JavaScript का उपयोग करके dynamically text generate या fetch करती हैं
    • यह browser में चलता है, इसलिए detect और block किए जाने की संभावना कम है
    • यह बार-बार उपयोग या background tasks के लिए नहीं है
    • यह site-specific setup के बिना आसान scraping के लिए UI देता है
    • जिन साइटों को दूसरे programs/extensions पहले से संभालते हैं, वहाँ इससे बेहतर performance की उम्मीद नहीं की जा सकती
    • इसे इसलिए बनाया गया क्योंकि यह किसी खास साइट तक सीमित नहीं है
  • इस program की दिलचस्प बात यह है कि यह किसी भी site से content निकालने के लिए UI देता है
  • अगर यह उन साइटों को संभाल सके जहाँ सभी sections accordion के पीछे छिपे हों, तो यह शानदार होगा
  • मैं भी कुछ ऐसा ही बना रहा हूँ
    • blogs और web novels आदि के लिए web scraper और ePub parser विकसित कर रहा हूँ
    • offline reading के लिए एक companion PWA app भी विकसित कर रहा हूँ
  • कभी-कभी Paul Graham के essays को ePub में पाना अच्छा लगता है
  • मैंने एक simple version बनाया था जो server filesystem में ePub files save करता था
    • Postlight Parser का उपयोग करके वेबसाइट का simplified document view दिया था
  • यह tool कमाल का है
    • offline यात्रा के लिए ढेर सारे webpages cache करने के दिन अब बीत गए
  • सोच रहा हूँ कि क्या यह fanfiction.net को support करता है
  • इसे AWS, VueJS, MDN, w3schools, realpython, betterstack जैसी documentation-heavy वेबसाइटों पर चलाना अच्छा लगेगा