PaddleOCR-VL - Baidu द्वारा जारी 0.9B अल्ट्रा-कॉम्पैक्ट vision-language मॉडल के साथ बहुभाषी OCR

xguru · 2025-10-21T09:31:02+09:00

डॉक्यूमेंट पार्सिंग के लिए अनुकूलित अल्ट्रा-कॉम्पैक्ट vision-language model (VLM), जो कोरियाई सहित 109 भाषाओं को सपोर्ट करता है और फ़ॉर्मूला, टेबल, चार्ट, हस्तलिखित पाठ जैसी जटिल चीज़ों को सटीक रूप से पहचानता है मुख्य मॉडल PaddleOCR-VL-0.9B में NaViT-आधारित dynamic resolution visual encoder और ERNIE-4.5-0.3B language model को मिलाकर उच्च-सटीकता पहचान और तेज inference speed दोनों हासिल किए गए हैं छोटा लेकिन शक्तिशाली VLM architecture कंप्यूटेशनल दक्षता बनाए रखते हुए मौजूदा बड़े मॉडलों के स्तर का recognition performance देता है OmniDocBench आदि में मौजूदा pipeline-आधारित मॉडलों को पीछे छोड़ते हुए SOTA (सर्वोच्च स्तर का प्रदर्शन) दर्ज किया कोरियाई, चीनी, अंग्रेज़ी, जापानी के साथ-साथ रूसी, अरबी, हिंदी, थाई जैसी विविध लिपियों और भाषा-प्रणालियों को सपोर्ट करता है, इसलिए वैश्विक डॉक्यूमेंट प्रोसेसिंग automation में इस्तेमाल किया जा सकता है हल्के स्ट्रक्चर की वजह से GPU संसाधनों का उपयोग कम है, और Docker, CLI, Python API के जरिए इसे आसानी से deploy और integrate किया जा सकता है कुछ श्रेणियों में 72B-स्तर के multimodal models से भी बेहतर प्रदर्शन करते हुए, वास्तविक वातावरण में तुरंत लागू की जा सकने वाली बहुभाषी डॉक्यूमेंट प्रोसेसिंग solution प्रदान करता है

(huggingface.co)

43 पॉइंट द्वारा xguru 2025-10-21 | 6 टिप्पणियां | WhatsApp पर शेयर करें

डॉक्यूमेंट पार्सिंग के लिए अनुकूलित अल्ट्रा-कॉम्पैक्ट vision-language model (VLM), जो कोरियाई सहित 109 भाषाओं को सपोर्ट करता है और फ़ॉर्मूला, टेबल, चार्ट, हस्तलिखित पाठ जैसी जटिल चीज़ों को सटीक रूप से पहचानता है
मुख्य मॉडल PaddleOCR-VL-0.9B में NaViT-आधारित dynamic resolution visual encoder और ERNIE-4.5-0.3B language model को मिलाकर उच्च-सटीकता पहचान और तेज inference speed दोनों हासिल किए गए हैं
छोटा लेकिन शक्तिशाली VLM architecture कंप्यूटेशनल दक्षता बनाए रखते हुए मौजूदा बड़े मॉडलों के स्तर का recognition performance देता है
OmniDocBench आदि में मौजूदा pipeline-आधारित मॉडलों को पीछे छोड़ते हुए SOTA (सर्वोच्च स्तर का प्रदर्शन) दर्ज किया
कोरियाई, चीनी, अंग्रेज़ी, जापानी के साथ-साथ रूसी, अरबी, हिंदी, थाई जैसी विविध लिपियों और भाषा-प्रणालियों को सपोर्ट करता है, इसलिए वैश्विक डॉक्यूमेंट प्रोसेसिंग automation में इस्तेमाल किया जा सकता है
हल्के स्ट्रक्चर की वजह से GPU संसाधनों का उपयोग कम है, और Docker, CLI, Python API के जरिए इसे आसानी से deploy और integrate किया जा सकता है
कुछ श्रेणियों में 72B-स्तर के multimodal models से भी बेहतर प्रदर्शन करते हुए, वास्तविक वातावरण में तुरंत लागू की जा सकने वाली बहुभाषी डॉक्यूमेंट प्रोसेसिंग solution प्रदान करता है

6 टिप्पणियां

helio 2025-10-21

अगर यह PaddleOCR है, तो शायद कुछ जगहों पर इसे commercial तौर पर भी इस्तेमाल किया जाता होगा, है न??

tsboard 2025-10-21

वाह, कमाल है, बहुत बढ़िया! इससे तो जटिल टेबल वाले दस्तावेज़ भी तुरंत पहचान लिए जाएंगे।

xguru 2025-10-21

सुना है कि यह कुछ commercial OCR engines से भी काफ़ी बेहतर है।

yeorinhieut 2025-10-21

इस बार deepseek ocr भी आया था, उसका performance comparison जानने की उत्सुकता है।

yangeok 2025-10-21

अगर बहुभाषी एक साथ काम करे, तो यह सबसे बेहतरीन होगा,,

forgotdonkey456 2025-10-21

मोटे तौर पर, अगर कोई चीनी निजी कंपनी इस स्तर का मॉडल जारी कर सकती है, तो क्या यह मानना सही नहीं होगा कि NSA के पास जानकारी जुटाने के लिए इससे भी बेहतर (या पागलपन की हद तक उन्नत) OCR मॉडल होगा?

PaddleOCR-VL - Baidu द्वारा जारी 0.9B अल्ट्रा-कॉम्पैक्ट vision-language मॉडल के साथ बहुभाषी OCR

संबंधित पढ़ाई

6 टिप्पणियां