• दस्तावेज़ प्रोसेसिंग की सटीकता और दक्षता दोनों को एक साथ बेहतर बनाने वाला अगली पीढ़ी का OCR मॉडल, जो विभिन्न दस्तावेज़ प्रकारों में उच्च पहचान प्रदर्शन प्रदान करता है
  • पिछले संस्करण की तुलना में कुल प्रदर्शन में 74% सुधार दर्ज किया गया, और हस्तलिखित पाठ, फॉर्म, जटिल तालिकाओं और स्कैन किए गए दस्तावेज़ों में उत्कृष्ट परिणाम हासिल किए
  • HTML-आधारित table reconstruction और Markdown output support के साथ दस्तावेज़ की संरचनात्मक जानकारी भी सुरक्षित रखी जा सकती है
  • 1,000 पेज पर 2 डॉलर, और बड़े पैमाने पर प्रोसेसिंग के लिए 50% छूट के साथ cost efficiency सुनिश्चित
  • enterprise-स्तर की large-scale pipelines से लेकर interactive document workflows तक व्यापक रूप से उपयोग योग्य OCR तकनीक, जो generative AI-आधारित data utilization के लिए एक प्रमुख infrastructure के रूप में उभर रही है

प्रमुख प्रदर्शन और विशेषताएँ

  • Mistral OCR 3 विभिन्न दस्तावेज़ों से text और embedded images extraction उच्च सटीकता के साथ करता है
    • Markdown format output और HTML table reconstruction feature का समर्थन करता है, जिससे दस्तावेज़ की सामग्री के साथ उसकी संरचना भी पहचानी जा सकती है
    • मॉडल का आकार छोटा है, इसलिए इसे प्रतिस्पर्धी solutions की तुलना में कम लागत पर उपलब्ध कराया गया है; 1,000 पेज पर 2 डॉलर, और Batch API के उपयोग पर 1 डॉलर में इस्तेमाल किया जा सकता है
  • mistral-ocr-2512 मॉडल को API के रूप में integrate किया जा सकता है, या Document AI Playground UI के ज़रिए PDF और images को text या structured JSON में बदला जा सकता है

प्रदर्शन सुधार और benchmark

  • internal benchmark में Mistral OCR 2 की तुलना में 74% win rate दर्ज की गई
    • परीक्षण वास्तविक ग्राहकों के business use cases के आधार पर किए गए, और सटीकता का मूल्यांकन fuzzy-match metric से किया गया
  • enterprise document processing solutions और AI-आधारित OCR दोनों से बेहतर सटीकता हासिल की गई

प्रमुख upgrade क्षेत्र

  • हस्तलेखन पहचान: cursive writing, mixed annotations, और printed forms पर लिखे गए text को सटीक रूप से समझता है
  • form processing: boxes, labels, handwritten input, और complex layouts की पहचान में सुधार
  • स्कैन और जटिल दस्तावेज़: compression artifacts, distortion, low resolution, और background noise के प्रति मजबूत सहनशीलता
  • जटिल table structures: headers, merged cells, और multi-row/multi-column hierarchies वाली तालिकाओं को HTML tags (colspan/rowspan) के साथ पूरी तरह पुनर्निर्मित करता है
  • सभी भाषाओं और दस्तावेज़ प्रकारों में Mistral OCR 2 की तुलना में समग्र प्रदर्शन बेहतर

उपयोग के मामले और अनुप्रयोग क्षेत्र

  • large-scale enterprise document pipelines और interactive document workflows दोनों के लिए उपयुक्त
    • text और image extraction के बाद Markdown conversion, form और invoice auto parsing, document understanding pipelines का निर्माण, तथा handwritten और historical documents का digitization जैसी क्षमताएँ प्रदान करता है
  • शुरुआती ग्राहक इसका उपयोग invoices को structured fields में बदलने, enterprise archives के digitization, technical और scientific reports से text extraction, और enterprise search सुधारने में कर रहे हैं
  • IDC के Tim Law ने कहा, “OCR generative AI और agentic AI की आधारभूत तकनीक है, और high-precision, low-cost text extraction क्षमता ही data utilization में प्रतिस्पर्धात्मक बढ़त तय करती है”

दृष्टिकोण और संगतता

  • API या Document AI Playground interface के माध्यम से तुरंत उपयोग किया जा सकता है
  • Mistral OCR 2 के साथ पूर्णतः compatible, इसलिए मौजूदा systems में आसानी से upgrade किया जा सकता है
  • विस्तृत दस्तावेज़ mistral.ai/docs पर उपलब्ध हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.