- डॉक्यूमेंट पार्सिंग के लिए अनुकूलित अल्ट्रा-कॉम्पैक्ट vision-language model (VLM), जो कोरियाई सहित 109 भाषाओं को सपोर्ट करता है और फ़ॉर्मूला, टेबल, चार्ट, हस्तलिखित पाठ जैसी जटिल चीज़ों को सटीक रूप से पहचानता है
- मुख्य मॉडल PaddleOCR-VL-0.9B में NaViT-आधारित dynamic resolution visual encoder और ERNIE-4.5-0.3B language model को मिलाकर उच्च-सटीकता पहचान और तेज inference speed दोनों हासिल किए गए हैं
- छोटा लेकिन शक्तिशाली VLM architecture कंप्यूटेशनल दक्षता बनाए रखते हुए मौजूदा बड़े मॉडलों के स्तर का recognition performance देता है
- OmniDocBench आदि में मौजूदा pipeline-आधारित मॉडलों को पीछे छोड़ते हुए SOTA (सर्वोच्च स्तर का प्रदर्शन) दर्ज किया
- कोरियाई, चीनी, अंग्रेज़ी, जापानी के साथ-साथ रूसी, अरबी, हिंदी, थाई जैसी विविध लिपियों और भाषा-प्रणालियों को सपोर्ट करता है, इसलिए वैश्विक डॉक्यूमेंट प्रोसेसिंग automation में इस्तेमाल किया जा सकता है
- हल्के स्ट्रक्चर की वजह से GPU संसाधनों का उपयोग कम है, और Docker, CLI, Python API के जरिए इसे आसानी से deploy और integrate किया जा सकता है
- कुछ श्रेणियों में 72B-स्तर के multimodal models से भी बेहतर प्रदर्शन करते हुए, वास्तविक वातावरण में तुरंत लागू की जा सकने वाली बहुभाषी डॉक्यूमेंट प्रोसेसिंग solution प्रदान करता है
6 टिप्पणियां
अगर यह PaddleOCR है, तो शायद कुछ जगहों पर इसे commercial तौर पर भी इस्तेमाल किया जाता होगा, है न??
वाह, कमाल है, बहुत बढ़िया! इससे तो जटिल टेबल वाले दस्तावेज़ भी तुरंत पहचान लिए जाएंगे।
सुना है कि यह कुछ commercial OCR engines से भी काफ़ी बेहतर है।
इस बार deepseek ocr भी आया था, उसका performance comparison जानने की उत्सुकता है।
अगर बहुभाषी एक साथ काम करे, तो यह सबसे बेहतरीन होगा,,
मोटे तौर पर, अगर कोई चीनी निजी कंपनी इस स्तर का मॉडल जारी कर सकती है, तो क्या यह मानना सही नहीं होगा कि NSA के पास जानकारी जुटाने के लिए इससे भी बेहतर (या पागलपन की हद तक उन्नत) OCR मॉडल होगा?