- Mistral OCR दुनिया का बेहतरीन document understanding API है, जो मौजूदा models की तुलना में दस्तावेज़ों को अधिक सटीक रूप से समझने और विश्लेषित करने की क्षमता देता है
- PDF और images से text, media, equations, tables निकालकर उन्हें structured output में बदलता है
- API फिलहाल 1000 pages/$1 पर उपलब्ध है (batch processing में प्रति page लागत आधी)
Mistral OCR की प्रमुख विशेषताएँ
- जटिल दस्तावेज़ समझने की क्षमता: tables, images, equations, और LaTeX formatting तक को सटीक रूप से समझता है
- multilingual और multimodal support: कई भाषाओं, fonts और scripts का समर्थन
- industry-leading performance: अन्य OCR models की तुलना में अधिक accuracy
- बेहद तेज़: single node पर प्रति मिनट 2000 pages तक प्रोसेस कर सकता है
- दस्तावेज़ों को prompt की तरह इस्तेमाल किया जा सकता है: JSON जैसे structured output का समर्थन
- on-premise (self-host) विकल्प उपलब्ध: गोपनीय दस्तावेज़ों को प्रोसेस करने की ज़रूरत वाली कंपनियों के लिए उपयुक्त
जटिल दस्तावेज़ समझना
- Mistral OCR वैज्ञानिक शोधपत्र, graphs, equations, tables, images वाले दस्तावेज़ों का गहराई से विश्लेषण कर सकता है
- example notebook के ज़रिए देखा जा सकता है कि OCR PDF से text और images कैसे निकालता है (उदाहरण)
प्रदर्शन तुलना (benchmark)
Mistral OCR ने अन्य प्रमुख OCR models की तुलना में overall performance में सबसे अधिक स्कोर दर्ज किया है
- overall performance: 94.89 (अन्य models से अधिक)
- math analysis performance: 94.29 (GPT-4o से 7 points से अधिक बेहतर)
- multilingual recognition performance: 89.55
- scanned document processing performance: 98.96
- table recognition performance: 96.12 (अन्य models की तुलना में सबसे बेहतर)
multilingual support
Mistral OCR दुनिया की कई भाषाओं और scripts को प्रोसेस कर सकता है। प्रमुख models की तुलना में सभी भाषाओं में सर्वोच्च OCR performance दर्ज की गई
- Russian (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
- French (fr): 99.20 (Azure 97.50, Google 96.36)
- Chinese (zh): 97.11 (Azure 91.40, Google 90.89)
- German (de): 99.51 (Azure 98.39, Google 97.09)
तेज़ processing speed
- Mistral OCR मौजूदा OCR models की तुलना में हल्का है, और single node पर अधिकतम 2000 pages/minute प्रोसेस कर सकता है
- बड़े पैमाने पर दस्तावेज़ processing की ज़रूरत वाले environments में लगातार learning और improvement को समर्थन देता है
दस्तावेज़ों को prompt की तरह इस्तेमाल करना (Doc-as-prompt)
- दस्तावेज़ों से specific information निकालकर JSON जैसे structured output तैयार किए जा सकते हैं
- निकाले गए data को आगे के AI processes से जोड़कर automation संभव है
- उदाहरण: कानूनी दस्तावेज़ से विशेष clauses निकालकर AI chatbot response बनाना
on-premise (self-host) विकल्प
- कंपनी के भीतर गोपनीय दस्तावेज़ों की processing के लिए self-hosting संभव है
- data privacy और security को महत्व देने वाले संस्थानों और enterprises के लिए उपयुक्त
प्रमुख उपयोग के मामले
- वैज्ञानिक शोध का digitization: papers और journals को AI द्वारा प्रोसेस किए जा सकने वाले format में बदलकर research collaboration तेज़ करना
- इतिहास और सांस्कृतिक विरासत का संरक्षण: museums और non-profit organizations ऐतिहासिक दस्तावेज़ों को digitize करके सुरक्षित और साझा कर सकते हैं
- customer service में सुधार: manuals और documents को index करके ग्राहक सहायता की गति बढ़ाना
- design, education, और legal documents में AI का उपयोग: engineering drawings, lecture materials, regulatory documents आदि को index करके AI-आधारित information retrieval सक्षम करना
2 टिप्पणियां
कोरियन performance के बारे में कोई जानकारी नहीं है, लेकिन निकालकर देखा तो यह बुरा नहीं लगता।
Hacker News राय
कुछ लोगों की राय है कि यह "बुरा नहीं" है। लेकिन अभी भी hallucination होती है
Mistral और Marker के performance comparison के लिए benchmark आंशिक रूप से चलाया गया
उम्मीद है कि OCR तकनीक बेहतर होने से research papers और textbooks पढ़ना आसान हो जाएगा
OCR तकनीक लगभग solved state तक पहुँच रही है
एक राय यह है कि medical textbooks को PDF से MD में बदलने के मामले में, MinerU/PDF-Extract-Kit के नतीजे बेहतर हैं
कुछ लोगों का कहना है कि तकनीक अब इतनी आगे बढ़ गई है कि PDF को edit किया जा सकता है
कुछ लोगों की राय है कि यह बहुत तेज़ है और Google, Claude आदि से ज़्यादा accurate है
किसी specific model की जगह general VLM इस्तेमाल करने पर, उसे किसी खास use case के लिए tune करना मुश्किल होता है
VLM OCR में hallucination क्यों होती है, इसका एक सरल explanation खोजा जा रहा है