2 पॉइंट द्वारा GN⁺ 2025-12-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • दस्तावेज़ प्रोसेसिंग की सटीकता और दक्षता दोनों को एक साथ बेहतर बनाने वाला अगली पीढ़ी का OCR मॉडल, जो विभिन्न दस्तावेज़ प्रकारों में उच्च पहचान प्रदर्शन प्रदान करता है
  • पिछले संस्करण की तुलना में कुल प्रदर्शन में 74% सुधार दर्ज किया गया, और हस्तलिखित पाठ, फॉर्म, जटिल तालिकाओं और स्कैन किए गए दस्तावेज़ों में उत्कृष्ट परिणाम हासिल किए
  • HTML-आधारित table reconstruction और Markdown output support के साथ दस्तावेज़ की संरचनात्मक जानकारी भी सुरक्षित रखी जा सकती है
  • 1,000 पेज पर 2 डॉलर, और बड़े पैमाने पर प्रोसेसिंग के लिए 50% छूट के साथ cost efficiency सुनिश्चित
  • enterprise-स्तर की large-scale pipelines से लेकर interactive document workflows तक व्यापक रूप से उपयोग योग्य OCR तकनीक, जो generative AI-आधारित data utilization के लिए एक प्रमुख infrastructure के रूप में उभर रही है

प्रमुख प्रदर्शन और विशेषताएँ

  • Mistral OCR 3 विभिन्न दस्तावेज़ों से text और embedded images extraction उच्च सटीकता के साथ करता है
    • Markdown format output और HTML table reconstruction feature का समर्थन करता है, जिससे दस्तावेज़ की सामग्री के साथ उसकी संरचना भी पहचानी जा सकती है
    • मॉडल का आकार छोटा है, इसलिए इसे प्रतिस्पर्धी solutions की तुलना में कम लागत पर उपलब्ध कराया गया है; 1,000 पेज पर 2 डॉलर, और Batch API के उपयोग पर 1 डॉलर में इस्तेमाल किया जा सकता है
  • mistral-ocr-2512 मॉडल को API के रूप में integrate किया जा सकता है, या Document AI Playground UI के ज़रिए PDF और images को text या structured JSON में बदला जा सकता है

प्रदर्शन सुधार और benchmark

  • internal benchmark में Mistral OCR 2 की तुलना में 74% win rate दर्ज की गई
    • परीक्षण वास्तविक ग्राहकों के business use cases के आधार पर किए गए, और सटीकता का मूल्यांकन fuzzy-match metric से किया गया
  • enterprise document processing solutions और AI-आधारित OCR दोनों से बेहतर सटीकता हासिल की गई

प्रमुख upgrade क्षेत्र

  • हस्तलेखन पहचान: cursive writing, mixed annotations, और printed forms पर लिखे गए text को सटीक रूप से समझता है
  • form processing: boxes, labels, handwritten input, और complex layouts की पहचान में सुधार
  • स्कैन और जटिल दस्तावेज़: compression artifacts, distortion, low resolution, और background noise के प्रति मजबूत सहनशीलता
  • जटिल table structures: headers, merged cells, और multi-row/multi-column hierarchies वाली तालिकाओं को HTML tags (colspan/rowspan) के साथ पूरी तरह पुनर्निर्मित करता है
  • सभी भाषाओं और दस्तावेज़ प्रकारों में Mistral OCR 2 की तुलना में समग्र प्रदर्शन बेहतर

उपयोग के मामले और अनुप्रयोग क्षेत्र

  • large-scale enterprise document pipelines और interactive document workflows दोनों के लिए उपयुक्त
    • text और image extraction के बाद Markdown conversion, form और invoice auto parsing, document understanding pipelines का निर्माण, तथा handwritten और historical documents का digitization जैसी क्षमताएँ प्रदान करता है
  • शुरुआती ग्राहक इसका उपयोग invoices को structured fields में बदलने, enterprise archives के digitization, technical और scientific reports से text extraction, और enterprise search सुधारने में कर रहे हैं
  • IDC के Tim Law ने कहा, “OCR generative AI और agentic AI की आधारभूत तकनीक है, और high-precision, low-cost text extraction क्षमता ही data utilization में प्रतिस्पर्धात्मक बढ़त तय करती है”

दृष्टिकोण और संगतता

  • API या Document AI Playground interface के माध्यम से तुरंत उपयोग किया जा सकता है
  • Mistral OCR 2 के साथ पूर्णतः compatible, इसलिए मौजूदा systems में आसानी से upgrade किया जा सकता है
  • विस्तृत दस्तावेज़ mistral.ai/docs पर उपलब्ध हैं

1 टिप्पणियां

 
GN⁺ 2025-12-20
Hacker News की राय
  • Twitter पर देखा गया यह वीडियो देखकर सवाल उठा कि Mistral ने नवीनतम SoTA models से तुलना क्यों नहीं की
    Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR जैसे models के साथ तुलना करना अच्छा होता

    • दस्तावेज़ extraction का बहुत काम कर चुके व्यक्ति के नज़रिए से देखें तो ट्वीट का लहजा थोड़ा खटकता है, लेकिन बात सही है
      Mistral VLM-आधारित models की तुलना सामान्य computer vision services से कर रहा है
      पहले वाले में document understanding बेहतर होती है, जबकि बाद वाले सटीक bounding box देते हैं
      failure patterns भी अलग होते हैं — VLM पूरा वाक्य गलत पढ़ सकता है, जबकि vision model में गलती अक्सर शब्द के भीतर typo स्तर की होती है
    • मैंने लिंक खोला, और लगा कि Twitter का माहौल पहले की तुलना में काफी ज़्यादा अजीब तरह से बदल गया है
    • Qwen 3 VL 235B-A22B के साथ तुलना भी देखना चाहूँगा। मेरे अनुभव में यह MinerU से काफी बेहतर था
  • पिछले 3 महीनों में open source OCR models की बाढ़ आ गई है
    खासकर ऐसे models जो 1B parameters से भी छोटे हैं और edge devices पर भी अच्छी तरह चल जाते हैं
    अच्छा होता अगर paddleOCR-VL, olmOCR-2, chandra, dots.ocr जैसे models से तुलना की जाती
    अफ़सोस की बात है कि OCR या CV से जुड़े leaderboards या arena लगभग हैं ही नहीं

    • करीब एक महीने पहले ocrarena.ai नाम का एक प्रोजेक्ट आया था
      यह llmarena की तरह models के बीच मुकाबले वाला format है, लेकिन Mistral अभी तक update नहीं हुआ है
      फिलहाल Gemini ऊपर के स्थानों पर है
    • MistralOCR की खासियत इसका सरल pricing है — 1,000 pages पर $1, और server-hosted API उपलब्ध है
      दूसरे OCR token-based pricing रखते हैं, इसलिए वास्तविक लागत निकालना मुश्किल होता है
      उदाहरण के लिए Gemini 3.0 flash ऊपर से देखने पर कीमत में समान लगता है, लेकिन token के हिसाब से देखें तो लगभग 3 गुना महँगा पड़ता है
    • मैंने paddleOCR install करने की कोशिश की, लेकिन 12GB की PyTorch dependencies install करते-करते version conflict आ गया और मैंने छोड़ दिया
      फिर Claude को root access देकर वही install करवाया, और लगता है वह मुझसे कहीं ज़्यादा मज़े से यह काम कर रहा था
      open web UI install करते समय भी ऐसा ही अनुभव हुआ, और अंत में मैंने ज़रूरी features खुद HTML की 100 lines में बना लिए
      अच्छा होता अगर OCR भी इतना सरल बनाया जा सकता
    • codesota.com/ocr भी देखने लायक है
  • कहा जा रहा है कि Mistral OCR 3 बड़े enterprise pipelines के लिए उपयुक्त है, लेकिन 79% accuracy पर भरोसा करना मुश्किल है
    scientific journal के काम में 2.9+0.5 और 29+0.5 जैसी recognition errors बहुत गंभीर होती हैं
    अंत में हर चरण पर human verification की ज़रूरत पड़ती है

    • ऐसे मामलों में datalab.to काफ़ी ठीक लगा
    • 79% शायद accuracy नहीं बल्कि win rate का आँकड़ा लगता है
  • मैं Shipibo (पेरू की एक indigenous language)-Spanish dictionary को Shipibo-English dictionary में बदलने वाले एक प्रोजेक्ट पर काम कर रहा हूँ
    PDF scans की quality अच्छी नहीं है, और 2-column layout के साथ headers/footers की वजह से OCR अक्सर fail हो जाता है
    Shipibo उदाहरण वाक्यों और Spanish definitions को अलग करके केवल English में translate करना पड़ता है, इसलिए काम जटिल है
    हर बार जब कोई नया OCR/LLM आता है, मैं उसे आज़माता हूँ, लेकिन हर बार निराशा ही हाथ लगती है

    • क्या आपको Ayahuasca tradition research में रुचि है?
      Shipibo संस्कृति में आम लोग नहीं बल्कि maestra लोग Ayahuasca लेकर बीमारी का निदान करती थीं
      हर plant के लिए अलग dieta (संयम-आधारित आहार) रखा जाता था, जिसमें साबुन का उपयोग, यौन संबंध, नमक सेवन आदि पर रोक होती थी
      परंपरागत रूप से यह एक साल से भी ज़्यादा चल सकता था, जबकि आजकल इसे कुछ हफ्तों तक सीमित कर दिया जाता है
      plant medicine का इतना गहरा अध्ययन मुझे प्रभावशाली लगा
  • मैं गणित की पाठ्यपुस्तकों को LaTeX formulas सहित markdown में बदलना चाहता हूँ, लेकिन अभी तक कोई संतोषजनक OCR model नहीं मिला
    मैं Mistral के OCR playground में इसे सीधे test करने वाला हूँ

    • मैंने Gemini Pro 3 vision model से हज़ारों documents process किए हैं, और अब तक इस्तेमाल किए गए किसी भी OCR से यह बेहद ज़्यादा सटीक निकला
      formulas भी पूरी तरह LaTeX में convert हो गए
    • नतीजे कैसे रहे, यह ज़रूर साझा कीजिए
  • मैं image के भीतर translation (in-place translation) ढूँढ रहा हूँ
    Mistral OCR3 data extraction पर केंद्रित है, इसलिए मेरे उपयोग के लिए उपयुक्त नहीं है
    मैं विदेशी artbooks के text को image पर उसी जगह translate करके दिखाना चाहता हूँ, लेकिन मौजूदा paid services non-standard text layout की वजह से fail हो जाती हैं
    फिलहाल मैं Google Lens से स्क्रीन पर दिखाकर translation कर रहा हूँ, जो असुविधाजनक है
    Chrome का built-in Lens भी manual selection माँगता है, इसलिए वह भी पूरी तरह automatic नहीं है
    क्या किसी को इस तरह की सुविधा में प्रगति की कोई खबर है?

    • अगर paid service भी ठीक है, तो DEEPL या Word का document translation feature काफ़ी उपयोगी है
  • लगता है Mistral इन दिनों AI features की परिधि के पीछे भाग रहा है
    OAI, Google, Anthropic की तुलना में यह पीछे दिखता है, और EU स्तर पर निवेश भी कम नज़र आता है

    • form processing जैसी practical features ही वे चीज़ें हैं जिनकी लोगों को सच में ज़रूरत होती है
      इनकी value meme generation से कहीं अधिक है
    • leading companies की सीधी नकल करना जोखिम भरा है
      अभी revenue model स्थापित नहीं हुआ है, इसलिए Mistral के लिए core model quality पर ध्यान देना ही सही है
      EU के भीतर talent को बनाए रखते हुए अच्छे models बनाना ही यथार्थवादी लक्ष्य है
    • EU, Mistral में बहुत ‘invest’ कर रहा है — आधा taxation में और बाकी आधा regulation discussions में जा रहा है
    • EU regulation ही अड़चन बन रही है, इसलिए अंत में इसके किसी अमेरिकी कंपनी द्वारा अधिग्रहित होने की संभावना बड़ी लगती है
    • फिर भी, मुझे लगता है कि बाकी सब जो कर रहे हैं, वही दोहराने से यह बेहतर है
  • मैंने ऐसे मूल्यांकन देखे हैं जिनमें कहा गया कि Mistral का प्रदर्शन कई open source OCRs (Paddle, MinerU, MonkeyOCR आदि) से भी कम है
    codesota.com/ocr देखें

  • मैं MathPix के विकल्प के रूप में Mistral को test कर रहा हूँ
    यह Python script Windows पर sniffing के बाद clipboard image को Mistral को भेजती है, और Markdown output को अपने-आप paste कर देती है

  • Mistral की सबसे बड़ी समस्या customer inquiries का जवाब न देना है
    “pricing inquiry” के पीछे छिपने का तरीका अपनाने पर, SoTA से बेहतर होने का भी कोई मतलब नहीं रह जाता

    • मैं भी sales representative के साथ आमने-सामने की बातचीत से बेहद चिढ़ता हूँ
      मैं उससे बेहतर महँगी और कम performant service चुन लूँगा, जिसमें यह प्रक्रिया ही न हो