OlmOCR - PDF से टेक्स्ट निकालने का open source टूल

xguru · 2025-03-03T09:51:15+09:00

PDF और JPG/PNG दस्तावेज़ों को प्राकृतिक पढ़ने के क्रम को बनाए रखते हुए सामान्य टेक्स्ट में बदलने वाला open source टूल बड़े पैमाने पर दस्तावेज़ों को तेज़ी से प्रोसेस करने के लिए डिज़ाइन किया गया है, और टेबल, सूत्र, हस्तलिखित टेक्स्ट आदि को सपोर्ट करता है अकादमिक शोध-पत्र, तकनीकी दस्तावेज़ और अन्य संदर्भ सामग्रियों के आधार पर प्रशिक्षित सटीकता बढ़ाने और hallucination कम करने के लिए विशिष्ट prompting तकनीक का उपयोग वर्तमान मॉडल अंग्रेज़ी दस्तावेज़ों के लिए optimized है, और अन्य भाषाओं को ठीक से सपोर्ट न करने की संभावना अधिक है डेमो पेज पर सीधे दस्तावेज़ टेस्ट किए जा सकते हैं 10 लाख पेज कन्वर्ज़न की लागत लगभग $190 USD है, इसलिए किफायती संचालन संभव है नवीनतम NVIDIA GPU आवश्यक (RTX 4090, L40S, A100, H100 पर परीक्षण पूरा) ऑनलाइन डेमो पर टेस्ट करें (PDF, JPG, PNG) टूलकिट के open source में शामिल कोड ChatGPT 4o आधारित prompting strategy (buildsilver.py) : प्राकृतिक टेक्स्ट parsing प्रदर्शन को अधिकतम करने वाली तकनीकें शामिल पाइपलाइन तुलना मूल्यांकन टूल (runeval.py) भाषा filtering और SEO spam हटाने की सुविधा (filter.py) Qwen2-VL और Molmo-O fine-tuning कोड (train.py) बड़े पैमाने पर PDF प्रोसेस करने वाली पाइपलाइन (pipeline.py) : Sglang का उपयोग करके लाखों PDF प्रोसेस किए जा सकते हैं Dolma दस्तावेज़ viewer (dolmaviewer.py) : PDF से कन्वर्ट किए गए Dolma फ़ॉर्मेट दस्तावेज़ों को विज़ुअली देखा जा सकता है

(github.com/allenai)

25 पॉइंट द्वारा xguru 2025-03-03 | 2 टिप्पणियां | WhatsApp पर शेयर करें

PDF और JPG/PNG दस्तावेज़ों को प्राकृतिक पढ़ने के क्रम को बनाए रखते हुए सामान्य टेक्स्ट में बदलने वाला open source टूल
बड़े पैमाने पर दस्तावेज़ों को तेज़ी से प्रोसेस करने के लिए डिज़ाइन किया गया है, और टेबल, सूत्र, हस्तलिखित टेक्स्ट आदि को सपोर्ट करता है
अकादमिक शोध-पत्र, तकनीकी दस्तावेज़ और अन्य संदर्भ सामग्रियों के आधार पर प्रशिक्षित
सटीकता बढ़ाने और hallucination कम करने के लिए विशिष्ट prompting तकनीक का उपयोग
वर्तमान मॉडल अंग्रेज़ी दस्तावेज़ों के लिए optimized है, और अन्य भाषाओं को ठीक से सपोर्ट न करने की संभावना अधिक है
डेमो पेज पर सीधे दस्तावेज़ टेस्ट किए जा सकते हैं
10 लाख पेज कन्वर्ज़न की लागत लगभग $190 USD है, इसलिए किफायती संचालन संभव है
नवीनतम NVIDIA GPU आवश्यक (RTX 4090, L40S, A100, H100 पर परीक्षण पूरा)
ऑनलाइन डेमो पर टेस्ट करें (PDF, JPG, PNG)

टूलकिट के open source में शामिल कोड

ChatGPT 4o आधारित prompting strategy (buildsilver.py) : प्राकृतिक टेक्स्ट parsing प्रदर्शन को अधिकतम करने वाली तकनीकें शामिल
पाइपलाइन तुलना मूल्यांकन टूल (runeval.py)
भाषा filtering और SEO spam हटाने की सुविधा (filter.py)
Qwen2-VL और Molmo-O fine-tuning कोड (train.py)
बड़े पैमाने पर PDF प्रोसेस करने वाली पाइपलाइन (pipeline.py) : Sglang का उपयोग करके लाखों PDF प्रोसेस किए जा सकते हैं
Dolma दस्तावेज़ viewer (dolmaviewer.py) : PDF से कन्वर्ट किए गए Dolma फ़ॉर्मेट दस्तावेज़ों को विज़ुअली देखा जा सकता है

2 टिप्पणियां

kleinstein 2025-03-06

लगता है कि यह अभी Windows पर काम नहीं करता..

kaydash 2025-03-03

लगता है GPU के बिना चलने वाली लाइब्रेरीज़ अभी भी काम की हैं।

OlmOCR - PDF से टेक्स्ट निकालने का open source टूल

टूलकिट के open source में शामिल कोड

संबंधित पढ़ाई

2 टिप्पणियां