Mistral OCR 3 जारी
(mistral.ai)- दस्तावेज़ प्रोसेसिंग की सटीकता और दक्षता दोनों को एक साथ बेहतर बनाने वाला अगली पीढ़ी का OCR मॉडल, जो विभिन्न दस्तावेज़ प्रकारों में उच्च पहचान प्रदर्शन प्रदान करता है
- पिछले संस्करण की तुलना में कुल प्रदर्शन में 74% सुधार दर्ज किया गया, और हस्तलिखित पाठ, फॉर्म, जटिल तालिकाओं और स्कैन किए गए दस्तावेज़ों में उत्कृष्ट परिणाम हासिल किए
- HTML-आधारित table reconstruction और Markdown output support के साथ दस्तावेज़ की संरचनात्मक जानकारी भी सुरक्षित रखी जा सकती है
- 1,000 पेज पर 2 डॉलर, और बड़े पैमाने पर प्रोसेसिंग के लिए 50% छूट के साथ cost efficiency सुनिश्चित
- enterprise-स्तर की large-scale pipelines से लेकर interactive document workflows तक व्यापक रूप से उपयोग योग्य OCR तकनीक, जो generative AI-आधारित data utilization के लिए एक प्रमुख infrastructure के रूप में उभर रही है
प्रमुख प्रदर्शन और विशेषताएँ
- Mistral OCR 3 विभिन्न दस्तावेज़ों से text और embedded images extraction उच्च सटीकता के साथ करता है
- Markdown format output और HTML table reconstruction feature का समर्थन करता है, जिससे दस्तावेज़ की सामग्री के साथ उसकी संरचना भी पहचानी जा सकती है
- मॉडल का आकार छोटा है, इसलिए इसे प्रतिस्पर्धी solutions की तुलना में कम लागत पर उपलब्ध कराया गया है; 1,000 पेज पर 2 डॉलर, और Batch API के उपयोग पर 1 डॉलर में इस्तेमाल किया जा सकता है
- mistral-ocr-2512 मॉडल को API के रूप में integrate किया जा सकता है, या Document AI Playground UI के ज़रिए PDF और images को text या structured JSON में बदला जा सकता है
प्रदर्शन सुधार और benchmark
- internal benchmark में Mistral OCR 2 की तुलना में 74% win rate दर्ज की गई
- परीक्षण वास्तविक ग्राहकों के business use cases के आधार पर किए गए, और सटीकता का मूल्यांकन fuzzy-match metric से किया गया
- enterprise document processing solutions और AI-आधारित OCR दोनों से बेहतर सटीकता हासिल की गई
प्रमुख upgrade क्षेत्र
- हस्तलेखन पहचान: cursive writing, mixed annotations, और printed forms पर लिखे गए text को सटीक रूप से समझता है
- form processing: boxes, labels, handwritten input, और complex layouts की पहचान में सुधार
- स्कैन और जटिल दस्तावेज़: compression artifacts, distortion, low resolution, और background noise के प्रति मजबूत सहनशीलता
- जटिल table structures: headers, merged cells, और multi-row/multi-column hierarchies वाली तालिकाओं को HTML tags (colspan/rowspan) के साथ पूरी तरह पुनर्निर्मित करता है
- सभी भाषाओं और दस्तावेज़ प्रकारों में Mistral OCR 2 की तुलना में समग्र प्रदर्शन बेहतर
उपयोग के मामले और अनुप्रयोग क्षेत्र
- large-scale enterprise document pipelines और interactive document workflows दोनों के लिए उपयुक्त
- text और image extraction के बाद Markdown conversion, form और invoice auto parsing, document understanding pipelines का निर्माण, तथा handwritten और historical documents का digitization जैसी क्षमताएँ प्रदान करता है
- शुरुआती ग्राहक इसका उपयोग invoices को structured fields में बदलने, enterprise archives के digitization, technical और scientific reports से text extraction, और enterprise search सुधारने में कर रहे हैं
- IDC के Tim Law ने कहा, “OCR generative AI और agentic AI की आधारभूत तकनीक है, और high-precision, low-cost text extraction क्षमता ही data utilization में प्रतिस्पर्धात्मक बढ़त तय करती है”
दृष्टिकोण और संगतता
- API या Document AI Playground interface के माध्यम से तुरंत उपयोग किया जा सकता है
- Mistral OCR 2 के साथ पूर्णतः compatible, इसलिए मौजूदा systems में आसानी से upgrade किया जा सकता है
- विस्तृत दस्तावेज़ mistral.ai/docs पर उपलब्ध हैं
1 टिप्पणियां
Hacker News की राय
Twitter पर देखा गया यह वीडियो देखकर सवाल उठा कि Mistral ने नवीनतम SoTA models से तुलना क्यों नहीं की
Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR जैसे models के साथ तुलना करना अच्छा होता
Mistral VLM-आधारित models की तुलना सामान्य computer vision services से कर रहा है
पहले वाले में document understanding बेहतर होती है, जबकि बाद वाले सटीक bounding box देते हैं
failure patterns भी अलग होते हैं — VLM पूरा वाक्य गलत पढ़ सकता है, जबकि vision model में गलती अक्सर शब्द के भीतर typo स्तर की होती है
पिछले 3 महीनों में open source OCR models की बाढ़ आ गई है
खासकर ऐसे models जो 1B parameters से भी छोटे हैं और edge devices पर भी अच्छी तरह चल जाते हैं
अच्छा होता अगर paddleOCR-VL, olmOCR-2, chandra, dots.ocr जैसे models से तुलना की जाती
अफ़सोस की बात है कि OCR या CV से जुड़े leaderboards या arena लगभग हैं ही नहीं
यह llmarena की तरह models के बीच मुकाबले वाला format है, लेकिन Mistral अभी तक update नहीं हुआ है
फिलहाल Gemini ऊपर के स्थानों पर है
दूसरे OCR token-based pricing रखते हैं, इसलिए वास्तविक लागत निकालना मुश्किल होता है
उदाहरण के लिए Gemini 3.0 flash ऊपर से देखने पर कीमत में समान लगता है, लेकिन token के हिसाब से देखें तो लगभग 3 गुना महँगा पड़ता है
फिर Claude को root access देकर वही install करवाया, और लगता है वह मुझसे कहीं ज़्यादा मज़े से यह काम कर रहा था
open web UI install करते समय भी ऐसा ही अनुभव हुआ, और अंत में मैंने ज़रूरी features खुद HTML की 100 lines में बना लिए
अच्छा होता अगर OCR भी इतना सरल बनाया जा सकता
कहा जा रहा है कि Mistral OCR 3 बड़े enterprise pipelines के लिए उपयुक्त है, लेकिन 79% accuracy पर भरोसा करना मुश्किल है
scientific journal के काम में 2.9+0.5 और 29+0.5 जैसी recognition errors बहुत गंभीर होती हैं
अंत में हर चरण पर human verification की ज़रूरत पड़ती है
मैं Shipibo (पेरू की एक indigenous language)-Spanish dictionary को Shipibo-English dictionary में बदलने वाले एक प्रोजेक्ट पर काम कर रहा हूँ
PDF scans की quality अच्छी नहीं है, और 2-column layout के साथ headers/footers की वजह से OCR अक्सर fail हो जाता है
Shipibo उदाहरण वाक्यों और Spanish definitions को अलग करके केवल English में translate करना पड़ता है, इसलिए काम जटिल है
हर बार जब कोई नया OCR/LLM आता है, मैं उसे आज़माता हूँ, लेकिन हर बार निराशा ही हाथ लगती है
Shipibo संस्कृति में आम लोग नहीं बल्कि maestra लोग Ayahuasca लेकर बीमारी का निदान करती थीं
हर plant के लिए अलग dieta (संयम-आधारित आहार) रखा जाता था, जिसमें साबुन का उपयोग, यौन संबंध, नमक सेवन आदि पर रोक होती थी
परंपरागत रूप से यह एक साल से भी ज़्यादा चल सकता था, जबकि आजकल इसे कुछ हफ्तों तक सीमित कर दिया जाता है
plant medicine का इतना गहरा अध्ययन मुझे प्रभावशाली लगा
मैं गणित की पाठ्यपुस्तकों को LaTeX formulas सहित markdown में बदलना चाहता हूँ, लेकिन अभी तक कोई संतोषजनक OCR model नहीं मिला
मैं Mistral के OCR playground में इसे सीधे test करने वाला हूँ
formulas भी पूरी तरह LaTeX में convert हो गए
मैं image के भीतर translation (in-place translation) ढूँढ रहा हूँ
Mistral OCR3 data extraction पर केंद्रित है, इसलिए मेरे उपयोग के लिए उपयुक्त नहीं है
मैं विदेशी artbooks के text को image पर उसी जगह translate करके दिखाना चाहता हूँ, लेकिन मौजूदा paid services non-standard text layout की वजह से fail हो जाती हैं
फिलहाल मैं Google Lens से स्क्रीन पर दिखाकर translation कर रहा हूँ, जो असुविधाजनक है
Chrome का built-in Lens भी manual selection माँगता है, इसलिए वह भी पूरी तरह automatic नहीं है
क्या किसी को इस तरह की सुविधा में प्रगति की कोई खबर है?
लगता है Mistral इन दिनों AI features की परिधि के पीछे भाग रहा है
OAI, Google, Anthropic की तुलना में यह पीछे दिखता है, और EU स्तर पर निवेश भी कम नज़र आता है
इनकी value meme generation से कहीं अधिक है
अभी revenue model स्थापित नहीं हुआ है, इसलिए Mistral के लिए core model quality पर ध्यान देना ही सही है
EU के भीतर talent को बनाए रखते हुए अच्छे models बनाना ही यथार्थवादी लक्ष्य है
मैंने ऐसे मूल्यांकन देखे हैं जिनमें कहा गया कि Mistral का प्रदर्शन कई open source OCRs (Paddle, MinerU, MonkeyOCR आदि) से भी कम है
codesota.com/ocr देखें
मैं MathPix के विकल्प के रूप में Mistral को test कर रहा हूँ
यह Python script Windows पर sniffing के बाद clipboard image को Mistral को भेजती है, और Markdown output को अपने-आप paste कर देती है
Mistral की सबसे बड़ी समस्या customer inquiries का जवाब न देना है
“pricing inquiry” के पीछे छिपने का तरीका अपनाने पर, SoTA से बेहतर होने का भी कोई मतलब नहीं रह जाता
मैं उससे बेहतर महँगी और कम performant service चुन लूँगा, जिसमें यह प्रक्रिया ही न हो