Marker - PDF को Markdown में बदलने वाला open source
(github.com/VikParuchuri)- PDF, EPUB, MOBI को Markdown में कन्वर्ट करता है
- Facebook Research द्वारा बनाए गए Nougat की तुलना में 10 गुना से भी तेज़ और अधिक सटीक कन्वर्ज़न
- किताबों और शोध-पत्रों के फ़ॉर्मैट के लिए अनुकूलित
- header, footer और अन्य artifacts को हटाता है
- अधिकांश समीकरणों को LaTeX में कन्वर्ट करता है
- code block और table की formatting करता है
- बहुभाषी समर्थन
6 टिप्पणियां
अरे....
अंग्रेज़ी-भाषी प्रकाशकों के लिए मुश्किल दौर आने वाला है।
कुछ टेक-केंद्रित प्रकाशक किताब खरीदने पर PDF फ़ाइल भी साथ में दे देते हैं, तो वे इसे कैसे संभालेंगे, यह जानने की उत्सुकता है।
क्या PDF पर OCR किया हुआ होना ज़रूरी है?? अभी तुरंत ट्राय करना पड़ेगा
सिर्फ readme देखने पर तो लगता है कि यह OCR काम भी करता है... हो सकता है मैंने गलत पढ़ा हो...
हाँ.. जिन्हें अंग्रेज़ी अच्छी नहीं आती, उनके लिए यह अभिव्यक्ति थोड़ी मुश्किल है
ज़रूरत पड़ने पर text extract करें, OCR करें??
> यह digital PDFs पर सबसे अच्छा काम करता है, जहां बहुत अधिक OCR की ज़रूरत नहीं होती। यह speed के लिए optimized है, और errors ठीक करने के लिए सीमित OCR का उपयोग किया जाता है.
क्योंकि यह speed पर ज़्यादा केंद्रित है, इसलिए जिन PDFs में बड़े पैमाने पर OCR की ज़रूरत हो, उनके लिए शायद यह उपयुक्त नहीं होगा।
इसे इस तरह समझ सकते हैं कि OCR तो होता है, लेकिन इसकी गारंटी नहीं है।
> सिर्फ़ English जैसी भाषाएँ (Spanish, French, German, Russian आदि) supported हैं। अलग character sets वाली भाषाएँ (Chinese, Japanese, Korean आदि) supported नहीं हैं।
अतिरिक्त रूप से, CJK भी supported नहीं है.
धन्यवाद!