Mistral OCR 4 जारी
(mistral.ai)- Mistral AI द्वारा जारी Mistral OCR 4 सिर्फ दस्तावेज़ से टेक्स्ट निकालने वाला OCR नहीं है, बल्कि यह bounding box, block classification और inline confidence score भी साथ में लौटाने वाला document understanding model है
- यह 10 language groups की 170 भाषाओं और single-container self-hosting को सपोर्ट करता है, इसलिए data sovereignty और compliance महत्वपूर्ण रखने वाले संगठनों की document ingestion pipeline के लिए उपयुक्त है
- human preference evaluation में इसने औसतन 72% win rate दर्ज की, और OlmOCRBench 85.20, OmniDocBench 93.07 जैसी public और internal evaluations में भी ऊंचे स्कोर हासिल किए
- हालांकि answer errors, equivalent formula notation, multi-column reading order, header/footer handling जैसी evaluation limitations के कारण benchmark scores को वास्तविक document evaluation के साथ मिलाकर देखना चाहिए
- API की कीमत 1,000 pages पर $4, Batch API $2, और Document AI $5 है; raw extraction के लिए OCR 4 पर्याप्त है, लेकिन structured JSON, image annotation, या custom prompt चाहिए तो Document AI route अधिक उपयुक्त है
OCR 4 द्वारा लौटाया जाने वाला structured document representation
- OCR 4 विभिन्न दस्तावेज़ों से content extract और structure करता है, और पिछली पीढ़ी की तरह सिर्फ clean text और table conversion तक सीमित नहीं रहता बल्कि structured representation भी प्रदान करता है
- हर block में bounding box, block type, page- और word-level inline confidence score शामिल होते हैं
- downstream systems दस्तावेज़ की content के साथ-साथ हर element की location, role, और confidence level का भी उपयोग कर सकते हैं
- मुख्य उपयोग प्रवाह इस प्रकार हैं
- RAG के लिए semantic chunking: व्यवस्थित और classified blocks को retrieval units के रूप में उपयोग करना
- agents के लिए structural primitives: form filling, invoice processing, और compliance checks को सपोर्ट करना
- connectors के लिए structured content: ingestion और indexing pipelines में consistent typed output देना
formats, भाषाएँ, और deployment method
- input formats में PDF, DOC, PPT, OpenDocument जैसे सामान्य enterprise document formats शामिल हैं
- यह 10 language groups की 170 भाषाओं को सपोर्ट करता है, जिनमें ऐसे specialized और low-resource languages भी शामिल हैं जहाँ कई systems कमजोर पड़ जाते हैं
- model इतना छोटा है कि इसे single container में deploy किया जा सकता है, इसलिए यह cost-sensitive और high-throughput environments के लिए उपयुक्त है
- यह पूर्ण self-hosting execution को सपोर्ट करता है, इसलिए data sovereignty requirements वाले संगठन अपने document data को अपनी infrastructure के भीतर रख सकते हैं
- self-managed deployment enterprise customers के लिए उपलब्ध है
pricing और usage paths
- developers API के जरिए model को integrate कर सकते हैं, और teams Mistral Studio के Document AI के माध्यम से उसी engine को no-code application के रूप में उपयोग कर सकती हैं
- pricing इस प्रकार है
- OCR 4 API: 1,000 pages पर $4
- Batch API पर 50% discount लागू होने पर: 1,000 pages पर $2
- Document AI: 1,000 pages पर $5
- OCR 4 को Mistral Search Toolkit के ingestion component के रूप में integrate किया गया है, जो RAG और enterprise search के लिए ingestion, retrieval, और evaluation workflows में citable input प्रदान करता है
evaluation results और benchmark limitations
- OCR 4 की evaluation AI-native OCR models, general frontier models, enterprise document services, और Mistral OCR 3 के साथ तुलना करके की गई
- human preference evaluation को वास्तविक उपयोग के करीब लाने के लिए 12 से अधिक भाषाओं के 600 से अधिक दस्तावेज़ शामिल किए गए, और independent annotators ने हर document पर competing systems के output और OCR 4 output की blind comparison की
- annotators ने test किए गए सभी systems की तुलना में अधिकांश दस्तावेज़ों पर OCR 4 को अधिक पसंद किया
- औसत win rate 72% रही
- public OlmOCRBench में इसने tested models में सबसे ऊंचा overall score 85.20 हासिल किया
- internal Crawl Multilingual evaluation में इसने .98 स्कोर किया, जो AI-native और enterprise solutions से आगे था
- OmniDocBench score 93.07 है, लेकिन OlmOCRBench और OmniDocBench दोनों में कुछ output scoring methods की ज्ञात सीमाएँ हैं
- audited mismatches का बड़ा हिस्सा model errors से अधिक benchmark comparison method के कारण उत्पन्न हुआ
- answer errors: reference annotations में missing/extra text, obscured regions की transcription, या typos हो सकते हैं
- equivalent formula notation: rendering result समान होने पर भी अगर LaTeX string अलग हो, तो उसे mismatch माना जाता है
- formula splitting: एक formula को single output के रूप में export करना या कई inline fragments में विभाजित करना answer matching को प्रभावित कर सकता है
- multi-column reading order: column boundaries पर टूटे शब्द और column order assumptions के कारण सही extraction भी failure के रूप में score हो सकता है
- block type attribution: header/footer को output से हटाने के बाद भी page title जैसे strings को test गलत तरीके से flag कर सकता है
- ये artifacts विशेष रूप से mathematics, science, और multi-column documents में केंद्रित हैं, और गलत outputs को reward करने की तुलना में सही outputs को अधिक बार penalize करते हैं
- सभी competitor scores internal reproduction results पर आधारित हैं, इसलिए वास्तविक adoption से पहले अपने दस्तावेज़ों पर सीधे evaluation करना अधिक सुरक्षित है
multilingual performance
- internal multilingual evaluation में OCR 4 ने सभी 8 language groups में बढ़त दिखाई
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu जैसी specialized languages
- सबसे बड़ा अंतर specialized और low-resource languages में था, और जिन क्षेत्रों में कई competing systems तेज़ी से degrade हो जाते हैं वहाँ भी OCR 4 ने high accuracy बनाए रखी
recommended use cases और exclusions
- OCR 4 high-throughput pipelines और interactive document workflows दोनों को सपोर्ट करता है
- recommended use cases इस प्रकार हैं
- जटिल multilingual documents का document parsing और extraction
- RAG के लिए structured, classified, और citable content generation
- Search Toolkit के साथ जुड़ा search pipeline input
- form filling, invoice processing, और compliance checking जैसे agent workflows
- confidence scores का उपयोग करने वाली human-in-the-loop structured data pipelines
- enterprise search और knowledge base के लिए data source components
- शुरुआती उपयोगकर्ता OCR 4 का उपयोग invoice structured field conversion, company archive digitization, technical और scientific reports से clean text extraction, और enterprise search में कर रहे हैं
- OCR 4 एक document understanding model है, decision-maker नहीं
- यह medical diagnosis, legal advice या judgment, high-risk financial decisions, safety-critical systems, real-time या latency-sensitive processing, और raw audio/video जैसे non-document inputs के लिए अभिप्रेत नहीं है
OCR 4 API और Document AI चुनने के मानदंड
- OCR 4 एक single API endpoint के रूप में उपलब्ध है, और सभी requests वही base OCR model चलाती हैं
- default response में हमेशा extracted content, bounding boxes, block types, confidence scores, और Markdown structured text शामिल होता है
- pure extraction mode इन स्थितियों के लिए उपयुक्त है
- तेज़ और सटीक document extraction को application, agent, या data pipeline में सीधे embed करना
- raw response, bounding boxes, block types, और confidence scores का उपयोग करके custom post-processing logic बनाना
- Batch API के जरिए throughput और cost को नियंत्रित करने वाली high-throughput, batch ingestion
- सख्त data privacy, sovereignty, और compliance requirements के अनुसार self-hosting
- Document AI features उसी endpoint में अतिरिक्त parameters जोड़कर activate की जाती हैं
- document के साथ JSON schema भेजने पर OCR output को
mistral-small-2603में input दिया जाता है ताकि आपकी specified spec के अनुसार structured JSON generate किया जा सके - image annotation schema देने पर हर detected image के लिए अतिरिक्त vision-language model call के माध्यम से structured JSON generate किया जाता है
- JSON schema के साथ custom prompt का उपयोग कर पूरे document के extracted content की interpretation या summary को guide किया जा सकता है
- business users, solution teams, और pilot projects अलग post-processing parsing logic के बिना structured results बना सकते हैं
- document के साथ JSON schema भेजने पर OCR output को
- यदि raw extracted content चाहिए तो OCR 4 को सीधे उपयोग करें, और यदि structured format reprocessing, domain field annotation, या custom instruction handling चाहिए तो Document AI parameters जोड़ें
available channels और शुरुआत कैसे करें
- Mistral OCRv4 और OCRv4-आधारित Document AI API, Mistral Studio, Amazon SageMaker, और Microsoft Foundry पर उपलब्ध हैं
- Snowflake Parse Document support जल्द उपलब्ध होगा
- जिन संगठनों को sensitive information अपनी infrastructure के भीतर रखनी होती है, उनके लिए OCR 4 self-hosting option भी प्रदान करता है
- शुरुआत के लिए संसाधन इस प्रकार हैं
- Getting Started with OCR 4 Cookbook: पहला extraction, bounding box handling, और block classification को कवर करता है
- OCR4 in Production webinar: 7 जुलाई शाम 6 बजे CET पर demo और Q&A
- Contact Sales: अतिरिक्त जानकारी के लिए संपर्क
1 टिप्पणियां
Hacker News की राय
US Postal Service हमेशा एक तकनीकी चमत्कार जैसा लगता है
यह कहीं अधिक आदिम तकनीक के साथ भी अरबों डाक-पत्रों की पहचान और रूटिंग कर लेता है, और अमेरिकी पते इतने हास्यास्पद रूप से non-standard हैं कि एक ही पते को कई तरीकों से लिखने पर भी वह अक्सर सही जगह पहुँच जाता है
इस क्षेत्र में बहुत-सा सार्वजनिक ज्ञान ज़रूर होगा, लेकिन USPS के पैमाने पर इसे वर्षों तक किया गया है, इसलिए जब भी कोई OCR घोषणा देखता हूँ तो यह पहले से हल की हुई समस्या जैसा लगता है
यह 1970 के दशक की बात थी, न इंटरनेट था न कोई केंद्रीय database, फिर भी डाक सेवा ने उसे पहुँचा दिया
ऐसा इसलिए हुआ क्योंकि मेरे पिता सामाजिक कल्याण गतिविधियों में बहुत सक्रिय थे और एक youth football team भी चलाते थे, इसलिए मोहल्ले में सिर्फ नाम से ही काफी जाने जाते थे
आजकल लोग अक्सर मोबाइल फोन की मदद के बिना न लोगों को ढूँढ पाते हैं न जगहों को, और डाकिये भी गपशप बंद नहीं करते
ऐसी चिट्ठी शायद न तकनीकी processing से गुजर पाएगी, न शायद लोगों के network से
उसके बाद जब चिट्ठी सही post office तक पहुँच जाती थी, तो बाकी काम सुबह-सुबह डाकिये संभालते थे
यह अंदाज़ा लगाना काफी मज़ेदार होता था कि किसी पते का मतलब क्या है, और खासकर पुराने कर्मचारी अक्सर जानते थे कि किसी जगह का पता उस तरह क्यों लिखा जाता है, या सिर्फ निवासी के नाम से पता अनुमान लगा लेते थे
Carmel-by-the-Sea में सड़क नंबर नहीं हैं, और Florida Keys के पते अक्सर सिर्फ mile marker नंबर होते हैं
डिलीवरी इसलिए हो जाती है क्योंकि उस route का जिम्मा संभालने वाला व्यक्ति उससे परिचित होता है
सोच रहा हूँ कि क्या license plate recognition पर केंद्रित कोई open model है
कुछ पुराने मॉडल मिले, लेकिन जानना चाहता हूँ कि क्या इस तरह के OCR मॉडल जैसा कुछ नया विकसित हो रहा है
शायद इसे खुद इस काम में चलाकर performance देखी जा सकती है
लिंक किए गए पेज का वीडियो उम्मीद से अलग था
मैं Mistral को एक यूरोपीय AI कंपनी मानता था, लेकिन वीडियो San Francisco में शूट हुआ था और उसमें दिखने वाले तीनों लोग भी यूरोपीय नहीं लगे, इसलिए थोड़ा आश्चर्य हुआ
global organization होना अच्छी बात है, लेकिन मैं पेरिस ऑफिस और यूरोपीय accent की उम्मीद कर रहा था
सवाल बहुत होते हैं और बटुआ बहुत कसा हुआ होता है, जबकि अमेरिकी अलग होते हैं
शायद sales engineering भी वहाँ होती होगी
time zone का अंतर 8–10 घंटे है, इसलिए व्यावहारिक रूप से इससे बचने का कोई तरीका नहीं है
जिस कंपनी में मैं पहले काम करता था, उसके पास इसके बजाय Vancouver office था, और वह उसी time zone में था
भले ही वह ज़्यादातर ऑस्ट्रेलिया-आधारित है, लेकिन https://www.blackmagicdesign.com/company/offices पर offices की सूची का क्रम और company page देखकर वह अमेरिकी कंपनी जैसी लगती है
उस मायने में वे अमेरिकी फंडिंग और यूरोपीय टैलेंट, दोनों के फ़ायदों का काफ़ी चतुराई से लाभ उठा रहे हैं
दिलचस्प होगा देखना कि यह मॉडल https://github.com/baidu/Unlimited-OCR की तुलना में कहाँ रैंक करेगा
1,000 पेज पर 4 डॉलर सस्ता है, लेकिन पिछली versions सब कुछ “चार internal benchmark PDFs पर 98% accuracy” जैसी थीं, और व्यवहार में वे बाज़ार के लगभग हर alternative से कमज़ोर निकलीं, इसलिए दोबारा benchmark करने में हिचक हो रही है
इस बार भी OlmOCRBench और OmniDocBench के बारे में “known limitations” कहकर internal benchmarks के प्रतिनिधि numbers को आगे रखा जा रहा है
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
सभी AI labs को benchmark bar graphs में कटे हुए y-axis का इस्तेमाल सच में बंद कर देना चाहिए
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
मैंने Malayalam में test किया; सामान्य handwriting सही पकड़ी गई, लेकिन थोड़ा अलग style को Kannada के रूप में detect किया गया
ज़रूरत हो तो मैं sample दे सकता हूँ, और Sarvam ने उसी sample पर सिर्फ एक text error छोड़ा और 99% accuracy दी
जैसे Indian English, रोमन लिपि में लिखे भारतीय अभिव्यक्तियों वाले दस्तावेज़, और चित्रों/तालिकाओं जैसे complex layouts वाले documents में यह कैसा है
भारतीय services में मेरी रुचि रही है, लेकिन उनकी pricing उम्मीद से थोड़ी ज़्यादा लगती है, इसलिए हिचकिचाहट है
हालाँकि हो सकता है मैं गलत याद कर रहा हूँ
दिसंबर के पिछले OCR v3 model की तुलना में bounding box के अलावा लगभग कोई अंतर समझाया नहीं गया, और कीमत दोगुनी है: https://mistral.ai/news/mistral-ocr-3/
उस समय अलग benchmarks इस्तेमाल किए गए थे
“दायरे से बाहर उपयोग के बारे में नोट. OCR 4 एक document understanding model है, decision-maker नहीं। यह medical diagnosis, legal advice या judgment, high-risk financial decision-making, safety-critical systems, real-time/latency-sensitive processing, non-document input (raw audio, video आदि) के लिए नहीं है।”
अगली मीटिंग में कोई “innovative” मैनेजर यह कहते हुए ज़रूर मिलेगा: “अच्छा, लेकिन अगर इसे मोबाइल फोन की तस्वीरों जैसे non-document input के साथ high-risk financial decision-making में इस्तेमाल करें तो?”
पक्का अगले हफ़्ते तक HN पर कोई इस “idea” को कमेंट में लिखेगा
इससे बेहतर performance वाले दर्जनों model मौजूद हैं, और इसके मुकाबले इससे बस खराब नतीजे ही मिलेंगे
यह सवालों के जवाब देने वाला model नहीं, text conversion के लिए है
यह बस ज़बरदस्ती anti-AI angle बनाने की कोशिश जैसा लगता है
Mistral बस इस बात को थोड़ा ज़्यादा ईमानदारी से दिखाता है, शायद इसलिए कि उसे दर्शकों को ऐसे general-purpose user tool (chatting) से चकित करने की ज़रूरत नहीं है या वह ऐसा करना नहीं चाहता, जो हर चीज़ का expert दिखे
असल में ऐसे tool भी काफ़ी बार कई specialized model को जोड़कर बनाए जाते हैं
यहाँ जो चाहिए, वह Python script की कुछ files से किया जा सकता है
Voxtral से voice prompt को text में बदलो, फिर उसे अतिरिक्त system prompt के साथ Mistral Large 3 को दो ताकि वह OCR के लिए prompt और file path बना सके, उसके बाद loop में files ढूँढो और उन्हें OCR 3 में डालो, फिर Mistral Large 3 से उसकी व्याख्या करवाकर decision में बदल दो
इस तरह की संरचना आम है; बल्कि एक ही model से सब कुछ कराना ज़्यादा दुर्लभ है
हाल ही में मैंने Opus 4.8 से OCR करने की कोशिश की
सख्ती से कहें तो यह उसके लिए सही tool नहीं था, लेकिन मुझे सिर्फ receipts से तारीख़ निकालनी थी
इसने लगभग 20% तारीख़ें गलत निकालीं, फिर भी सबको “high confidence” बताया
शायद मुझे OCR-specialized model इस्तेमाल करना चाहिए था
पहले black-and-white scanner के साथ आने वाले shareware OCR tools भी शायद 20% error से बेहतर रहे होंगे
लगता है वह कोई अलग पुराना OCR tool इस्तेमाल करता है, और test results भी खराब थे
वहीं Gemini API में model खुद OCR करता था, इसलिए accuracy काफ़ी बेहतर थी
यह छोटे 1~4B vision-language model से काफ़ी बेहतर है
अगर Opus विफल हुआ, तो ऐसे छोटे model भी ज़्यादातर विफल होने की संभावना है
मैंने हाल ही में Opus 4.8 से बेहद खराब handwriting वाले सैकड़ों PDF scan किए, और एक ऐसे रिकॉर्ड को छोड़कर जिसे मैं खुद भी नहीं पढ़ पाया, 100% success मिला