8 पॉइंट द्वारा GN⁺ 2025-04-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OCR परफॉर्मेंस का विश्लेषण करने वाले Omni OCR बेंचमार्क में हाल ही में जारी Qwen 2.5 VL(72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr जैसे मॉडलों सहित तुलना की गई
  • Qwen 2.5 VL 72b/32b मॉडलों ने सबसे अधिक सटीकता दर्ज की
    • दोनों ने लगभग 75% सटीकता के साथ GPT-4o स्तर का प्रदर्शन दिखाया
    • Qwen 72b ने 32b की तुलना में 0.4% अधिक सटीकता दर्ज की, लेकिन व्यावहारिक रूप से यह त्रुटि-सीमा के भीतर लगभग समान प्रदर्शन है
  • दोनों Qwen मॉडलों ने mistral-ocr(72.2%) के प्रदर्शन को पीछे छोड़ा
    • mistral-ocr OCR के लिए विशेष रूप से प्रशिक्षित मॉडल होने के बावजूद Qwen से पीछे रहा
  • Gemma-3 (27B) मॉडल ने केवल 42.9% सटीकता दर्ज की
    • Gemini 2.0 architecture पर आधारित होने के बावजूद इसका प्रदर्शन कम रहा, जो कुछ हद तक अप्रत्याशित परिणाम है

Omni OCR Benchmark

  • OCR और डेटा extraction क्षमताओं की तुलना करने वाला एक benchmarking tool, जो GPT-4o जैसे बड़े multimodal मॉडलों की text और JSON extraction accuracy का मूल्यांकन करता है
  • इस बेंचमार्क का लक्ष्य पारंपरिक OCR providers और multimodal language models के व्यापक दायरे में OCR accuracy का एक comprehensive benchmark प्रकाशित करना है
  • evaluation dataset और methodology दोनों open source के रूप में उपलब्ध हैं, और इसमें अतिरिक्त providers को शामिल करते हुए इस benchmark को विस्तार देने के लिए प्रोत्साहित किया जाता है

1 टिप्पणियां

 
GN⁺ 2025-04-04
Hacker News राय
  • 32b का आउटपुट ज़्यादा human-friendly है, गणितीय reasoning बेहतर है, और fine-grained समझ में मदद करने वाले छोटे adjustment फीचर उपयोगी लगते हैं
  • Qwen2.5-VL-72b दो महीने पहले जारी किया गया था, और handwriting recognition पर उत्साही टिप्पणियाँ थीं
    • यह एक दिलचस्प रिलीज़ थी जिसने AI को लेकर संदेह और असंतोष को दूर करने में मदद की
    • रिलीज़ नोट्स अच्छी तरह व्यवस्थित हैं, और ब्लॉग पोस्ट भी शानदार है
  • Qwen का HTML आउटपुट दिलचस्प लगा
    • यह HTML फ़ॉर्मेट में bounding boxes देता है, जिससे visual feedback जल्दी बनाया जा सकता है या structured data का आसानी से उपयोग किया जा सकता है
    • पारंपरिक OCR में LLM की तुलना में bounding box coordinates देने का बड़ा फ़ायदा है
  • 95% से अधिक accuracy तक पहुँचने से पहले मानव द्वारा double-check और correction ज़रूरी है, और bounding boxes के बिना यह अव्यावहारिक है
  • मैं LM Studio के ज़रिए "Qwen2.5-VL-32b-Instruct -8bit" का MLX वर्ज़न डाउनलोड कर रहा हूँ, और इसे OCR side project में इस्तेमाल करने वाला हूँ
  • अगर accuracy के अलावा cost और latency को भी मापा गया हो, तो काश उसके नतीजे साझा किए जाएँ
  • मैं Gemini की OCR क्षमता से लगातार प्रभावित हूँ, और Qwen तेज़ी से आगे बढ़ रहा है
  • मैं कई models की तुलना करके काम करता हूँ, और Qwen का नवीनतम मॉडल पहले की तुलना में कहीं ज़्यादा stable है और fine-tune करना आसान है
  • OpenAI का OCR प्रदर्शन लंबे समय से बेहतर नहीं हुआ है, और यह अजीब और परेशान करने वाला है
  • Qwen 2.5 VL 72b सामान्य vision कार्यों में Gemini को पीछे छोड़ देता है, और इसे लोकल पर चलाया जा सकता है
  • मैं macOS पर OCR API के साथ प्रयोग कर रहा हूँ, और इन LLMs से इसकी तुलना करना चाहता हूँ
  • Tesseract handwriting को छोड़कर लगभग हर चीज़ में 99% accuracy हासिल कर सकता है
  • मैं जानना चाहता हूँ कि LLM इस्तेमाल करने का कोई फ़ायदा है या नहीं
  • मैं Qwen के test results से बहुत प्रभावित हूँ, और मुझे लगता है कि लोग इसे कम आँक रहे हैं
  • मैं जानना चाहता हूँ कि कई files को एक ही prompt में प्रोसेस करने के लिए LLM interface को कैसे कॉन्फ़िगर किया जाता है
  • Tyler और टीम का शानदार काम