25 पॉइंट द्वारा xguru 2025-03-03 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • PDF और JPG/PNG दस्तावेज़ों को प्राकृतिक पढ़ने के क्रम को बनाए रखते हुए सामान्य टेक्स्ट में बदलने वाला open source टूल
  • बड़े पैमाने पर दस्तावेज़ों को तेज़ी से प्रोसेस करने के लिए डिज़ाइन किया गया है, और टेबल, सूत्र, हस्तलिखित टेक्स्ट आदि को सपोर्ट करता है
  • अकादमिक शोध-पत्र, तकनीकी दस्तावेज़ और अन्य संदर्भ सामग्रियों के आधार पर प्रशिक्षित
  • सटीकता बढ़ाने और hallucination कम करने के लिए विशिष्ट prompting तकनीक का उपयोग
  • वर्तमान मॉडल अंग्रेज़ी दस्तावेज़ों के लिए optimized है, और अन्य भाषाओं को ठीक से सपोर्ट न करने की संभावना अधिक है
  • डेमो पेज पर सीधे दस्तावेज़ टेस्ट किए जा सकते हैं
  • 10 लाख पेज कन्वर्ज़न की लागत लगभग $190 USD है, इसलिए किफायती संचालन संभव है
  • नवीनतम NVIDIA GPU आवश्यक (RTX 4090, L40S, A100, H100 पर परीक्षण पूरा)
  • ऑनलाइन डेमो पर टेस्ट करें (PDF, JPG, PNG)

टूलकिट के open source में शामिल कोड

  • ChatGPT 4o आधारित prompting strategy (buildsilver.py) : प्राकृतिक टेक्स्ट parsing प्रदर्शन को अधिकतम करने वाली तकनीकें शामिल
  • पाइपलाइन तुलना मूल्यांकन टूल (runeval.py)
  • भाषा filtering और SEO spam हटाने की सुविधा (filter.py)
  • Qwen2-VL और Molmo-O fine-tuning कोड (train.py)
  • बड़े पैमाने पर PDF प्रोसेस करने वाली पाइपलाइन (pipeline.py) : Sglang का उपयोग करके लाखों PDF प्रोसेस किए जा सकते हैं
  • Dolma दस्तावेज़ viewer (dolmaviewer.py) : PDF से कन्वर्ट किए गए Dolma फ़ॉर्मेट दस्तावेज़ों को विज़ुअली देखा जा सकता है

2 टिप्पणियां

 
kleinstein 2025-03-06

लगता है कि यह अभी Windows पर काम नहीं करता..

 
kaydash 2025-03-03

लगता है GPU के बिना चलने वाली लाइब्रेरीज़ अभी भी काम की हैं।