13 पॉइंट द्वारा GN⁺ 2025-03-07 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Mistral OCR दुनिया का बेहतरीन document understanding API है, जो मौजूदा models की तुलना में दस्तावेज़ों को अधिक सटीक रूप से समझने और विश्लेषित करने की क्षमता देता है
  • PDF और images से text, media, equations, tables निकालकर उन्हें structured output में बदलता है
  • API फिलहाल 1000 pages/$1 पर उपलब्ध है (batch processing में प्रति page लागत आधी)

Mistral OCR की प्रमुख विशेषताएँ

  • जटिल दस्तावेज़ समझने की क्षमता: tables, images, equations, और LaTeX formatting तक को सटीक रूप से समझता है
  • multilingual और multimodal support: कई भाषाओं, fonts और scripts का समर्थन
  • industry-leading performance: अन्य OCR models की तुलना में अधिक accuracy
  • बेहद तेज़: single node पर प्रति मिनट 2000 pages तक प्रोसेस कर सकता है
  • दस्तावेज़ों को prompt की तरह इस्तेमाल किया जा सकता है: JSON जैसे structured output का समर्थन
  • on-premise (self-host) विकल्प उपलब्ध: गोपनीय दस्तावेज़ों को प्रोसेस करने की ज़रूरत वाली कंपनियों के लिए उपयुक्त

जटिल दस्तावेज़ समझना

  • Mistral OCR वैज्ञानिक शोधपत्र, graphs, equations, tables, images वाले दस्तावेज़ों का गहराई से विश्लेषण कर सकता है
  • example notebook के ज़रिए देखा जा सकता है कि OCR PDF से text और images कैसे निकालता है (उदाहरण)

प्रदर्शन तुलना (benchmark)

Mistral OCR ने अन्य प्रमुख OCR models की तुलना में overall performance में सबसे अधिक स्कोर दर्ज किया है

  • overall performance: 94.89 (अन्य models से अधिक)
  • math analysis performance: 94.29 (GPT-4o से 7 points से अधिक बेहतर)
  • multilingual recognition performance: 89.55
  • scanned document processing performance: 98.96
  • table recognition performance: 96.12 (अन्य models की तुलना में सबसे बेहतर)

multilingual support

Mistral OCR दुनिया की कई भाषाओं और scripts को प्रोसेस कर सकता है। प्रमुख models की तुलना में सभी भाषाओं में सर्वोच्च OCR performance दर्ज की गई

  • Russian (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
  • French (fr): 99.20 (Azure 97.50, Google 96.36)
  • Chinese (zh): 97.11 (Azure 91.40, Google 90.89)
  • German (de): 99.51 (Azure 98.39, Google 97.09)

तेज़ processing speed

  • Mistral OCR मौजूदा OCR models की तुलना में हल्का है, और single node पर अधिकतम 2000 pages/minute प्रोसेस कर सकता है
  • बड़े पैमाने पर दस्तावेज़ processing की ज़रूरत वाले environments में लगातार learning और improvement को समर्थन देता है

दस्तावेज़ों को prompt की तरह इस्तेमाल करना (Doc-as-prompt)

  • दस्तावेज़ों से specific information निकालकर JSON जैसे structured output तैयार किए जा सकते हैं
  • निकाले गए data को आगे के AI processes से जोड़कर automation संभव है
  • उदाहरण: कानूनी दस्तावेज़ से विशेष clauses निकालकर AI chatbot response बनाना

on-premise (self-host) विकल्प

  • कंपनी के भीतर गोपनीय दस्तावेज़ों की processing के लिए self-hosting संभव है
  • data privacy और security को महत्व देने वाले संस्थानों और enterprises के लिए उपयुक्त

प्रमुख उपयोग के मामले

  1. वैज्ञानिक शोध का digitization: papers और journals को AI द्वारा प्रोसेस किए जा सकने वाले format में बदलकर research collaboration तेज़ करना
  2. इतिहास और सांस्कृतिक विरासत का संरक्षण: museums और non-profit organizations ऐतिहासिक दस्तावेज़ों को digitize करके सुरक्षित और साझा कर सकते हैं
  3. customer service में सुधार: manuals और documents को index करके ग्राहक सहायता की गति बढ़ाना
  4. design, education, और legal documents में AI का उपयोग: engineering drawings, lecture materials, regulatory documents आदि को index करके AI-आधारित information retrieval सक्षम करना

Mistral OCR आज़माएँ

  • Mistral OCR को Le Chat पर मुफ्त में आज़माया जा सकता है (Le Chat)
  • API la Plateforme पर उपलब्ध है (API उपयोग)
  • on-premise deployment और enterprise custom solutions भी उपलब्ध हैं (संपर्क)

2 टिप्पणियां

 
taeha 2025-03-13

कोरियन performance के बारे में कोई जानकारी नहीं है, लेकिन निकालकर देखा तो यह बुरा नहीं लगता।

 
GN⁺ 2025-03-07
Hacker News राय
  • कुछ लोगों की राय है कि यह "बुरा नहीं" है। लेकिन अभी भी hallucination होती है

    • उदाहरण के तौर पर दी गई image में बीच वाले block का text सही निकला
    • लेकिन अगले block में पिछले block के text का कुछ हिस्सा दोहराया गया, अगले block का कुछ हिस्सा गलत तरीके से शामिल हो गया, और ऐसे शब्द भी बना दिए गए जो मौजूद ही नहीं थे
    • सही text है: "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
  • Mistral और Marker के performance comparison के लिए benchmark आंशिक रूप से चलाया गया

    • 375 samples पर LLM द्वारा की गई समीक्षा में, Mistral को 4.32 और Marker को 4.41 अंक मिले
    • Marker H100 पर प्रति सेकंड 20~120 pages infer कर सकता है
    • samples और benchmark code क्रमशः Hugging Face और GitHub पर देखे जा सकते हैं
    • Mistral OCR एक प्रभावशाली model है, लेकिन OCR की समस्या अब भी कठिन है
  • उम्मीद है कि OCR तकनीक बेहतर होने से research papers और textbooks पढ़ना आसान हो जाएगा

    • figure reference और असली figure को जोड़ा जा सकता है, जिससे reading flow बाधित नहीं होता
    • HTML में साफ़ conversion संभव हो जाएगा, जिससे definitions पर click किया जा सकेगा या समझ जांचने वाले सवाल जोड़े जा सकेंगे
    • Andy Matuschak के Orbit SRS को PDF में अपने-आप integrate करने की संभावना भी है
  • OCR तकनीक लगभग solved state तक पहुँच रही है

    • लेकिन business में raw OCR output से document processing तक जाने में अब भी बड़ा gap है
    • LLM और VLM कोई जादू नहीं हैं, और 100% automation की उम्मीद करना अवास्तविक है
    • dataset बनाना, pipeline tuning, uncertainty detection, और human intervention के ज़रिए correction की अब भी ज़रूरत है
  • एक राय यह है कि medical textbooks को PDF से MD में बदलने के मामले में, MinerU/PDF-Extract-Kit के नतीजे बेहतर हैं

    • article में दिया गया Colab link काम नहीं करता, लेकिन docs में काम करने वाला link मिल गया
  • कुछ लोगों का कहना है कि तकनीक अब इतनी आगे बढ़ गई है कि PDF को edit किया जा सकता है

    • लेकिन personal data वाले PDF archive की OCR समस्या अभी भी हल नहीं हुई है
  • कुछ लोगों की राय है कि यह बहुत तेज़ है और Google, Claude आदि से ज़्यादा accurate है

    • कीमत 1000 pages पर $1 है, और batch के लिए 2000 pages के हिसाब से pricing है
    • PDF को Markdown में बदलने के लिए इसे बेहतरीन बताया गया है
  • किसी specific model की जगह general VLM इस्तेमाल करने पर, उसे किसी खास use case के लिए tune करना मुश्किल होता है

    • उदाहरण के लिए, extracted Markdown में बहुत specific alt text जोड़ने के लिए Gemini का इस्तेमाल किया गया
    • यह Gemini Flash से 2~3 गुना महंगा है, लेकिन performance improvement महत्वपूर्ण है
  • VLM OCR में hallucination क्यों होती है, इसका एक सरल explanation खोजा जा रहा है