- PDF और JPG/PNG दस्तावेज़ों को प्राकृतिक पढ़ने के क्रम को बनाए रखते हुए सामान्य टेक्स्ट में बदलने वाला open source टूल
- बड़े पैमाने पर दस्तावेज़ों को तेज़ी से प्रोसेस करने के लिए डिज़ाइन किया गया है, और टेबल, सूत्र, हस्तलिखित टेक्स्ट आदि को सपोर्ट करता है
- अकादमिक शोध-पत्र, तकनीकी दस्तावेज़ और अन्य संदर्भ सामग्रियों के आधार पर प्रशिक्षित
- सटीकता बढ़ाने और hallucination कम करने के लिए विशिष्ट prompting तकनीक का उपयोग
- वर्तमान मॉडल अंग्रेज़ी दस्तावेज़ों के लिए optimized है, और अन्य भाषाओं को ठीक से सपोर्ट न करने की संभावना अधिक है
- डेमो पेज पर सीधे दस्तावेज़ टेस्ट किए जा सकते हैं
- 10 लाख पेज कन्वर्ज़न की लागत लगभग $190 USD है, इसलिए किफायती संचालन संभव है
- नवीनतम NVIDIA GPU आवश्यक (RTX 4090, L40S, A100, H100 पर परीक्षण पूरा)
- ऑनलाइन डेमो पर टेस्ट करें (PDF, JPG, PNG)
टूलकिट के open source में शामिल कोड
- ChatGPT 4o आधारित prompting strategy (
buildsilver.py) : प्राकृतिक टेक्स्ट parsing प्रदर्शन को अधिकतम करने वाली तकनीकें शामिल
- पाइपलाइन तुलना मूल्यांकन टूल (
runeval.py)
- भाषा filtering और SEO spam हटाने की सुविधा (
filter.py)
- Qwen2-VL और Molmo-O fine-tuning कोड (
train.py)
- बड़े पैमाने पर PDF प्रोसेस करने वाली पाइपलाइन (
pipeline.py) : Sglang का उपयोग करके लाखों PDF प्रोसेस किए जा सकते हैं
- Dolma दस्तावेज़ viewer (
dolmaviewer.py) : PDF से कन्वर्ट किए गए Dolma फ़ॉर्मेट दस्तावेज़ों को विज़ुअली देखा जा सकता है
2 टिप्पणियां
लगता है कि यह अभी Windows पर काम नहीं करता..
लगता है GPU के बिना चलने वाली लाइब्रेरीज़ अभी भी काम की हैं।