- OCR परफॉर्मेंस का विश्लेषण करने वाले Omni OCR बेंचमार्क में हाल ही में जारी Qwen 2.5 VL(72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr जैसे मॉडलों सहित तुलना की गई
- Qwen 2.5 VL 72b/32b मॉडलों ने सबसे अधिक सटीकता दर्ज की
- दोनों ने लगभग 75% सटीकता के साथ GPT-4o स्तर का प्रदर्शन दिखाया
- Qwen 72b ने 32b की तुलना में 0.4% अधिक सटीकता दर्ज की, लेकिन व्यावहारिक रूप से यह त्रुटि-सीमा के भीतर लगभग समान प्रदर्शन है
- दोनों Qwen मॉडलों ने mistral-ocr(72.2%) के प्रदर्शन को पीछे छोड़ा
- mistral-ocr OCR के लिए विशेष रूप से प्रशिक्षित मॉडल होने के बावजूद Qwen से पीछे रहा
- Gemma-3 (27B) मॉडल ने केवल 42.9% सटीकता दर्ज की
- Gemini 2.0 architecture पर आधारित होने के बावजूद इसका प्रदर्शन कम रहा, जो कुछ हद तक अप्रत्याशित परिणाम है
Omni OCR Benchmark
- OCR और डेटा extraction क्षमताओं की तुलना करने वाला एक benchmarking tool, जो GPT-4o जैसे बड़े multimodal मॉडलों की text और JSON extraction accuracy का मूल्यांकन करता है
- इस बेंचमार्क का लक्ष्य पारंपरिक OCR providers और multimodal language models के व्यापक दायरे में OCR accuracy का एक comprehensive benchmark प्रकाशित करना है
- evaluation dataset और methodology दोनों open source के रूप में उपलब्ध हैं, और इसमें अतिरिक्त providers को शामिल करते हुए इस benchmark को विस्तार देने के लिए प्रोत्साहित किया जाता है
1 टिप्पणियां
Hacker News राय