Mistral OCR 4 जारी

(mistral.ai)

1 पॉइंट द्वारा GN⁺ 3 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Mistral AI द्वारा जारी Mistral OCR 4 सिर्फ दस्तावेज़ से टेक्स्ट निकालने वाला OCR नहीं है, बल्कि यह bounding box, block classification और inline confidence score भी साथ में लौटाने वाला document understanding model है
यह 10 language groups की 170 भाषाओं और single-container self-hosting को सपोर्ट करता है, इसलिए data sovereignty और compliance महत्वपूर्ण रखने वाले संगठनों की document ingestion pipeline के लिए उपयुक्त है
human preference evaluation में इसने औसतन 72% win rate दर्ज की, और OlmOCRBench 85.20, OmniDocBench 93.07 जैसी public और internal evaluations में भी ऊंचे स्कोर हासिल किए
हालांकि answer errors, equivalent formula notation, multi-column reading order, header/footer handling जैसी evaluation limitations के कारण benchmark scores को वास्तविक document evaluation के साथ मिलाकर देखना चाहिए
API की कीमत 1,000 pages पर $4, Batch API $2, और Document AI $5 है; raw extraction के लिए OCR 4 पर्याप्त है, लेकिन structured JSON, image annotation, या custom prompt चाहिए तो Document AI route अधिक उपयुक्त है

OCR 4 द्वारा लौटाया जाने वाला structured document representation

OCR 4 विभिन्न दस्तावेज़ों से content extract और structure करता है, और पिछली पीढ़ी की तरह सिर्फ clean text और table conversion तक सीमित नहीं रहता बल्कि structured representation भी प्रदान करता है
हर block में bounding box, block type, page- और word-level inline confidence score शामिल होते हैं
- downstream systems दस्तावेज़ की content के साथ-साथ हर element की location, role, और confidence level का भी उपयोग कर सकते हैं
मुख्य उपयोग प्रवाह इस प्रकार हैं
- RAG के लिए semantic chunking: व्यवस्थित और classified blocks को retrieval units के रूप में उपयोग करना
- agents के लिए structural primitives: form filling, invoice processing, और compliance checks को सपोर्ट करना
- connectors के लिए structured content: ingestion और indexing pipelines में consistent typed output देना

formats, भाषाएँ, और deployment method

input formats में PDF, DOC, PPT, OpenDocument जैसे सामान्य enterprise document formats शामिल हैं
यह 10 language groups की 170 भाषाओं को सपोर्ट करता है, जिनमें ऐसे specialized और low-resource languages भी शामिल हैं जहाँ कई systems कमजोर पड़ जाते हैं
model इतना छोटा है कि इसे single container में deploy किया जा सकता है, इसलिए यह cost-sensitive और high-throughput environments के लिए उपयुक्त है
यह पूर्ण self-hosting execution को सपोर्ट करता है, इसलिए data sovereignty requirements वाले संगठन अपने document data को अपनी infrastructure के भीतर रख सकते हैं
self-managed deployment enterprise customers के लिए उपलब्ध है

pricing और usage paths

developers API के जरिए model को integrate कर सकते हैं, और teams Mistral Studio के Document AI के माध्यम से उसी engine को no-code application के रूप में उपयोग कर सकती हैं
pricing इस प्रकार है
- OCR 4 API: 1,000 pages पर $4
- Batch API पर 50% discount लागू होने पर: 1,000 pages पर $2
- Document AI: 1,000 pages पर $5
OCR 4 को Mistral Search Toolkit के ingestion component के रूप में integrate किया गया है, जो RAG और enterprise search के लिए ingestion, retrieval, और evaluation workflows में citable input प्रदान करता है

evaluation results और benchmark limitations

OCR 4 की evaluation AI-native OCR models, general frontier models, enterprise document services, और Mistral OCR 3 के साथ तुलना करके की गई
human preference evaluation को वास्तविक उपयोग के करीब लाने के लिए 12 से अधिक भाषाओं के 600 से अधिक दस्तावेज़ शामिल किए गए, और independent annotators ने हर document पर competing systems के output और OCR 4 output की blind comparison की
- annotators ने test किए गए सभी systems की तुलना में अधिकांश दस्तावेज़ों पर OCR 4 को अधिक पसंद किया
- औसत win rate 72% रही
public OlmOCRBench में इसने tested models में सबसे ऊंचा overall score 85.20 हासिल किया
internal Crawl Multilingual evaluation में इसने .98 स्कोर किया, जो AI-native और enterprise solutions से आगे था
OmniDocBench score 93.07 है, लेकिन OlmOCRBench और OmniDocBench दोनों में कुछ output scoring methods की ज्ञात सीमाएँ हैं
audited mismatches का बड़ा हिस्सा model errors से अधिक benchmark comparison method के कारण उत्पन्न हुआ
- answer errors: reference annotations में missing/extra text, obscured regions की transcription, या typos हो सकते हैं
- equivalent formula notation: rendering result समान होने पर भी अगर LaTeX string अलग हो, तो उसे mismatch माना जाता है
- formula splitting: एक formula को single output के रूप में export करना या कई inline fragments में विभाजित करना answer matching को प्रभावित कर सकता है
- multi-column reading order: column boundaries पर टूटे शब्द और column order assumptions के कारण सही extraction भी failure के रूप में score हो सकता है
- block type attribution: header/footer को output से हटाने के बाद भी page title जैसे strings को test गलत तरीके से flag कर सकता है
ये artifacts विशेष रूप से mathematics, science, और multi-column documents में केंद्रित हैं, और गलत outputs को reward करने की तुलना में सही outputs को अधिक बार penalize करते हैं
सभी competitor scores internal reproduction results पर आधारित हैं, इसलिए वास्तविक adoption से पहले अपने दस्तावेज़ों पर सीधे evaluation करना अधिक सुरक्षित है

multilingual performance

internal multilingual evaluation में OCR 4 ने सभी 8 language groups में बढ़त दिखाई
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu जैसी specialized languages
सबसे बड़ा अंतर specialized और low-resource languages में था, और जिन क्षेत्रों में कई competing systems तेज़ी से degrade हो जाते हैं वहाँ भी OCR 4 ने high accuracy बनाए रखी

recommended use cases और exclusions

OCR 4 high-throughput pipelines और interactive document workflows दोनों को सपोर्ट करता है
recommended use cases इस प्रकार हैं
- जटिल multilingual documents का document parsing और extraction
- RAG के लिए structured, classified, और citable content generation
- Search Toolkit के साथ जुड़ा search pipeline input
- form filling, invoice processing, और compliance checking जैसे agent workflows
- confidence scores का उपयोग करने वाली human-in-the-loop structured data pipelines
- enterprise search और knowledge base के लिए data source components
शुरुआती उपयोगकर्ता OCR 4 का उपयोग invoice structured field conversion, company archive digitization, technical और scientific reports से clean text extraction, और enterprise search में कर रहे हैं
OCR 4 एक document understanding model है, decision-maker नहीं
- यह medical diagnosis, legal advice या judgment, high-risk financial decisions, safety-critical systems, real-time या latency-sensitive processing, और raw audio/video जैसे non-document inputs के लिए अभिप्रेत नहीं है

OCR 4 API और Document AI चुनने के मानदंड

OCR 4 एक single API endpoint के रूप में उपलब्ध है, और सभी requests वही base OCR model चलाती हैं
default response में हमेशा extracted content, bounding boxes, block types, confidence scores, और Markdown structured text शामिल होता है
pure extraction mode इन स्थितियों के लिए उपयुक्त है
- तेज़ और सटीक document extraction को application, agent, या data pipeline में सीधे embed करना
- raw response, bounding boxes, block types, और confidence scores का उपयोग करके custom post-processing logic बनाना
- Batch API के जरिए throughput और cost को नियंत्रित करने वाली high-throughput, batch ingestion
- सख्त data privacy, sovereignty, और compliance requirements के अनुसार self-hosting
Document AI features उसी endpoint में अतिरिक्त parameters जोड़कर activate की जाती हैं
- document के साथ JSON schema भेजने पर OCR output को mistral-small-2603 में input दिया जाता है ताकि आपकी specified spec के अनुसार structured JSON generate किया जा सके
- image annotation schema देने पर हर detected image के लिए अतिरिक्त vision-language model call के माध्यम से structured JSON generate किया जाता है
- JSON schema के साथ custom prompt का उपयोग कर पूरे document के extracted content की interpretation या summary को guide किया जा सकता है
- business users, solution teams, और pilot projects अलग post-processing parsing logic के बिना structured results बना सकते हैं
यदि raw extracted content चाहिए तो OCR 4 को सीधे उपयोग करें, और यदि structured format reprocessing, domain field annotation, या custom instruction handling चाहिए तो Document AI parameters जोड़ें

available channels और शुरुआत कैसे करें

Mistral OCRv4 और OCRv4-आधारित Document AI API, Mistral Studio, Amazon SageMaker, और Microsoft Foundry पर उपलब्ध हैं
Snowflake Parse Document support जल्द उपलब्ध होगा
जिन संगठनों को sensitive information अपनी infrastructure के भीतर रखनी होती है, उनके लिए OCR 4 self-hosting option भी प्रदान करता है
शुरुआत के लिए संसाधन इस प्रकार हैं
- Getting Started with OCR 4 Cookbook: पहला extraction, bounding box handling, और block classification को कवर करता है
- OCR4 in Production webinar: 7 जुलाई शाम 6 बजे CET पर demo और Q&A
- Contact Sales: अतिरिक्त जानकारी के लिए संपर्क

1 टिप्पणियां

GN⁺ 3 시간 전

Hacker News की राय

US Postal Service हमेशा एक तकनीकी चमत्कार जैसा लगता है
यह कहीं अधिक आदिम तकनीक के साथ भी अरबों डाक-पत्रों की पहचान और रूटिंग कर लेता है, और अमेरिकी पते इतने हास्यास्पद रूप से non-standard हैं कि एक ही पते को कई तरीकों से लिखने पर भी वह अक्सर सही जगह पहुँच जाता है
इस क्षेत्र में बहुत-सा सार्वजनिक ज्ञान ज़रूर होगा, लेकिन USPS के पैमाने पर इसे वर्षों तक किया गया है, इसलिए जब भी कोई OCR घोषणा देखता हूँ तो यह पहले से हल की हुई समस्या जैसा लगता है
- मेरे पिता को एक बार अल्जीरिया से एक चिट्ठी मिली थी, और लिफाफे पर सिर्फ तीन शब्द लिखे थे: उनका नाम, “Créteil” (वह शहर जहाँ वे तब रहते थे, आबादी लगभग 1 लाख), और “France”
  यह 1970 के दशक की बात थी, न इंटरनेट था न कोई केंद्रीय database, फिर भी डाक सेवा ने उसे पहुँचा दिया
  ऐसा इसलिए हुआ क्योंकि मेरे पिता सामाजिक कल्याण गतिविधियों में बहुत सक्रिय थे और एक youth football team भी चलाते थे, इसलिए मोहल्ले में सिर्फ नाम से ही काफी जाने जाते थे
  आजकल लोग अक्सर मोबाइल फोन की मदद के बिना न लोगों को ढूँढ पाते हैं न जगहों को, और डाकिये भी गपशप बंद नहीं करते
  ऐसी चिट्ठी शायद न तकनीकी processing से गुजर पाएगी, न शायद लोगों के network से
- मैं पहले डेनमार्क की डाक सेवा में part-time काम करता था, और automatic sorting सिर्फ postal code तक ही होती थी
  उसके बाद जब चिट्ठी सही post office तक पहुँच जाती थी, तो बाकी काम सुबह-सुबह डाकिये संभालते थे
  यह अंदाज़ा लगाना काफी मज़ेदार होता था कि किसी पते का मतलब क्या है, और खासकर पुराने कर्मचारी अक्सर जानते थे कि किसी जगह का पता उस तरह क्यों लिखा जाता है, या सिर्फ निवासी के नाम से पता अनुमान लगा लेते थे
- इस विषय पर Tom Scott का एक अच्छा वीडियो है: https://www.youtube.com/watch?v=XxCha4Kez9c
- अमेरिकी पतों में बहुत अजीब exceptions हैं
  Carmel-by-the-Sea में सड़क नंबर नहीं हैं, और Florida Keys के पते अक्सर सिर्फ mile marker नंबर होते हैं
  डिलीवरी इसलिए हो जाती है क्योंकि उस route का जिम्मा संभालने वाला व्यक्ति उससे परिचित होता है
- भारतीय पतों के मानकों से देखें तो अमेरिकी पतों की non-standardization पर सिर्फ हँसी आती है
सोच रहा हूँ कि क्या license plate recognition पर केंद्रित कोई open model है
कुछ पुराने मॉडल मिले, लेकिन जानना चाहता हूँ कि क्या इस तरह के OCR मॉडल जैसा कुछ नया विकसित हो रहा है
शायद इसे खुद इस काम में चलाकर performance देखी जा सकती है
लिंक किए गए पेज का वीडियो उम्मीद से अलग था
मैं Mistral को एक यूरोपीय AI कंपनी मानता था, लेकिन वीडियो San Francisco में शूट हुआ था और उसमें दिखने वाले तीनों लोग भी यूरोपीय नहीं लगे, इसलिए थोड़ा आश्चर्य हुआ
global organization होना अच्छी बात है, लेकिन मैं पेरिस ऑफिस और यूरोपीय accent की उम्मीद कर रहा था
- दुर्भाग्य से यूरोपीय ग्राहक ऐसे ग्राहक होते हैं जिनसे पैसा कमाना मुश्किल है
  सवाल बहुत होते हैं और बटुआ बहुत कसा हुआ होता है, जबकि अमेरिकी अलग होते हैं
- कोई भी यूरोपीय tech company जो कुछ हद तक बड़ी हो, वह कम-से-कम sales के लिए तो अमेरिका के west coast office रखती ही है
  शायद sales engineering भी वहाँ होती होगी
  time zone का अंतर 8–10 घंटे है, इसलिए व्यावहारिक रूप से इससे बचने का कोई तरीका नहीं है
  जिस कंपनी में मैं पहले काम करता था, उसके पास इसके बजाय Vancouver office था, और वह उसी time zone में था
- Blackmagic Design भी कुछ ऐसा ही है
  भले ही वह ज़्यादातर ऑस्ट्रेलिया-आधारित है, लेकिन https://www.blackmagicdesign.com/company/offices पर offices की सूची का क्रम और company page देखकर वह अमेरिकी कंपनी जैसी लगती है
- जहाँ तक मुझे पता है, founding team के ज़्यादातर लोगों ने अपना करियर Meta जैसी अमेरिकी कंपनियों में शुरू किया था, और मुख्य निवेशक भी अमेरिकी VC हैं
  उस मायने में वे अमेरिकी फंडिंग और यूरोपीय टैलेंट, दोनों के फ़ायदों का काफ़ी चतुराई से लाभ उठा रहे हैं
- पीछे अमेरिकी झंडा भी ऊँचा लगा हुआ है
दिलचस्प होगा देखना कि यह मॉडल https://github.com/baidu/Unlimited-OCR की तुलना में कहाँ रैंक करेगा
- सही, इसकी घोषणा अभी-अभी हुई है: https://x.com/BaiduAI_News/status/2069322806748410291
1,000 पेज पर 4 डॉलर सस्ता है, लेकिन पिछली versions सब कुछ “चार internal benchmark PDFs पर 98% accuracy” जैसी थीं, और व्यवहार में वे बाज़ार के लगभग हर alternative से कमज़ोर निकलीं, इसलिए दोबारा benchmark करने में हिचक हो रही है
इस बार भी OlmOCRBench और OmniDocBench के बारे में “known limitations” कहकर internal benchmarks के प्रतिनिधि numbers को आगे रखा जा रहा है
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
- निष्कर्ष वही है, लेकिन मैंने खुद कुछ samples चलाए और दिसंबर 2025 version के बाद वास्तविक सुधार दिखाई दिया
सभी AI labs को benchmark bar graphs में कटे हुए y-axis का इस्तेमाल सच में बंद कर देना चाहिए
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
मैंने Malayalam में test किया; सामान्य handwriting सही पकड़ी गई, लेकिन थोड़ा अलग style को Kannada के रूप में detect किया गया
ज़रूरत हो तो मैं sample दे सकता हूँ, और Sarvam ने उसी sample पर सिर्फ एक text error छोड़ा और 99% accuracy दी
- जानना चाहूँगा कि Sarvam को भारतीय भाषाओं के बाहर इस्तेमाल करने का अनुभव कैसा है
  जैसे Indian English, रोमन लिपि में लिखे भारतीय अभिव्यक्तियों वाले दस्तावेज़, और चित्रों/तालिकाओं जैसे complex layouts वाले documents में यह कैसा है
  भारतीय services में मेरी रुचि रही है, लेकिन उनकी pricing उम्मीद से थोड़ी ज़्यादा लगती है, इसलिए हिचकिचाहट है
  हालाँकि हो सकता है मैं गलत याद कर रहा हूँ
दिसंबर के पिछले OCR v3 model की तुलना में bounding box के अलावा लगभग कोई अंतर समझाया नहीं गया, और कीमत दोगुनी है: https://mistral.ai/news/mistral-ocr-3/
उस समय अलग benchmarks इस्तेमाल किए गए थे
“दायरे से बाहर उपयोग के बारे में नोट. OCR 4 एक document understanding model है, decision-maker नहीं। यह medical diagnosis, legal advice या judgment, high-risk financial decision-making, safety-critical systems, real-time/latency-sensitive processing, non-document input (raw audio, video आदि) के लिए नहीं है।”
अगली मीटिंग में कोई “innovative” मैनेजर यह कहते हुए ज़रूर मिलेगा: “अच्छा, लेकिन अगर इसे मोबाइल फोन की तस्वीरों जैसे non-document input के साथ high-risk financial decision-making में इस्तेमाल करें तो?”
पक्का अगले हफ़्ते तक HN पर कोई इस “idea” को कमेंट में लिखेगा
- समझ नहीं आता कि कोई ऐसा क्यों करना चाहेगा
  इससे बेहतर performance वाले दर्जनों model मौजूद हैं, और इसके मुकाबले इससे बस खराब नतीजे ही मिलेंगे
  यह सवालों के जवाब देने वाला model नहीं, text conversion के लिए है
  यह बस ज़बरदस्ती anti-AI angle बनाने की कोशिश जैसा लगता है
- हर AI company किसी एक काम में बहुत मजबूत specialized model बना रही है
  Mistral बस इस बात को थोड़ा ज़्यादा ईमानदारी से दिखाता है, शायद इसलिए कि उसे दर्शकों को ऐसे general-purpose user tool (chatting) से चकित करने की ज़रूरत नहीं है या वह ऐसा करना नहीं चाहता, जो हर चीज़ का expert दिखे
  असल में ऐसे tool भी काफ़ी बार कई specialized model को जोड़कर बनाए जाते हैं
  यहाँ जो चाहिए, वह Python script की कुछ files से किया जा सकता है
  Voxtral से voice prompt को text में बदलो, फिर उसे अतिरिक्त system prompt के साथ Mistral Large 3 को दो ताकि वह OCR के लिए prompt और file path बना सके, उसके बाद loop में files ढूँढो और उन्हें OCR 3 में डालो, फिर Mistral Large 3 से उसकी व्याख्या करवाकर decision में बदल दो
  इस तरह की संरचना आम है; बल्कि एक ही model से सब कुछ कराना ज़्यादा दुर्लभ है
- “जब मैंने अहम financial decisions OCR software को सौंप दिए, तो आगे क्या हुआ इस पर आपको यक़ीन नहीं होगा”
हाल ही में मैंने Opus 4.8 से OCR करने की कोशिश की
सख्ती से कहें तो यह उसके लिए सही tool नहीं था, लेकिन मुझे सिर्फ receipts से तारीख़ निकालनी थी
इसने लगभग 20% तारीख़ें गलत निकालीं, फिर भी सबको “high confidence” बताया
शायद मुझे OCR-specialized model इस्तेमाल करना चाहिए था
- receipts से तारीख़ निकालना तो शायद लगभग 30 साल पहले ही लगभग हल हो चुकी समस्या थी
  पहले black-and-white scanner के साथ आने वाले shareware OCR tools भी शायद 20% error से बेहतर रहे होंगे
- Opus के बारे में नहीं जानता, लेकिन Gemini के subscription product का OCR शायद model खुद नहीं करता
  लगता है वह कोई अलग पुराना OCR tool इस्तेमाल करता है, और test results भी खराब थे
  वहीं Gemini API में model खुद OCR करता था, इसलिए accuracy काफ़ी बेहतर थी
- Opus OCR बहुत अच्छी तरह करता है
  यह छोटे 1~4B vision-language model से काफ़ी बेहतर है
  अगर Opus विफल हुआ, तो ऐसे छोटे model भी ज़्यादातर विफल होने की संभावना है
- इस बात पर यक़ीन करना मुश्किल है
  मैंने हाल ही में Opus 4.8 से बेहद खराब handwriting वाले सैकड़ों PDF scan किए, और एक ऐसे रिकॉर्ड को छोड़कर जिसे मैं खुद भी नहीं पढ़ पाया, 100% success मिला

Mistral OCR 4 जारी

OCR 4 द्वारा लौटाया जाने वाला structured document representation

formats, भाषाएँ, और deployment method

pricing और usage paths

evaluation results और benchmark limitations

multilingual performance

recommended use cases और exclusions

OCR 4 API और Document AI चुनने के मानदंड

available channels और शुरुआत कैसे करें

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय