कोरियाई क्षमता का मूल्यांकन करने वाले 3 VLM बेंचमार्क जारी (KO-VQA, KO-VDC, KO-OCRAG)

हाल के समय में VLM को लेकर रुचि बढ़ने के साथ, ऐसे बेंचमार्क जारी किए गए हैं जिनसे विभिन्न क्षेत्रों में VLM की कोरियाई क्षमता की जाँच की जा सकती है.

इस प्रोजेक्ट में कुल 3 बेंचमार्क पेश किए गए हैं.

KO-VQA: विभिन्न डोमेन के कोरियाई दस्तावेज़ों को समझने की क्षमता और दस्तावेज़-आधारित उत्तर अनुमान क्षमता का मूल्यांकन
KO-VDC: कोरियाई visualized diagram सामग्री को समझने की क्षमता और diagram-आधारित विवरण निर्माण/समझ क्षमता का मूल्यांकन
KO-OCRAG: जटिल संरचना वाले कोरियाई दस्तावेज़ों की OCR क्षमता और दस्तावेज़ में दिखाई देने वाले Visual Context parsing की क्षमता का मूल्यांकन

सभी datasets का मूल्यांकन LLM-as-a-Judge पर निर्भर किए बिना, पूरी तरह objective multiple-choice फ़ॉर्म में किया गया है.
एक ही A100 40GB या 80GB के भीतर चलाए जा सकने वाले विभिन्न open-source VLM और closed-source gemini की तुलना की गई है.

gemini ने सभी बेंचमार्क में दबदबे वाला प्रदर्शन दिखाया.
open source में Qwen3 ने सबसे अलग और उत्कृष्ट प्रदर्शन दिखाया.
NCSoft के VARCO-VISION-2.0 मॉडल ने भी काफ़ी अच्छा प्रदर्शन दिखाया है.
संक्षेप में, closed-source VLM और open-source VLM के बीच कोरियाई प्रदर्शन का अंतर अब भी काफ़ी बड़ा है, यह पुष्टि हुई.
साथ ही, gemini ने लगभग perfect score दिखाया, जिससे हैरानी भी हुई;;

विस्तृत dataset विवरण के लिए प्रत्येक readme देखें.
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐Github star⭐⭐, रुचि और प्रचार open-source प्रोजेक्ट बनाने में बड़ी मदद करते हैं!!
यह प्रोजेक्ट markrAI के समर्थन से चलाया गया है.

कोरियाई क्षमता का मूल्यांकन करने वाले 3 VLM बेंचमार्क जारी (KO-VQA, KO-VDC, KO-OCRAG)

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.