ko-arena-hard-auto: LLM के कोरियाई प्रदर्शन को मापने के लिए एक benchmark
(github.com/qwopqwop200)Leaderboard / Code / Dataset
मानव वरीयता LLM प्रदर्शन का मूल्यांकन करने वाले महत्वपूर्ण सूचकों में से एक है।
लेकिन मानव वरीयता को मापना बहुत कठिन और महंगा है।
MT-Bench, Arena-Hard-Auto आदि, LLM-as-a-Judge का उपयोग करके इस समस्या को हल करते हैं।
लेकिन पहले के ये benchmark अंग्रेज़ी के लिए हैं।
बेशक, कोरियाई के लिए भी KoMT-Bench, LogicKor, Horangi जैसे अच्छे benchmark मौजूद हैं।
लेकिन मौजूदा benchmark MT-Bench पर आधारित हैं, और MT-Bench के बारे में यह जाना जाता है कि Arena-Hard-Auto की तुलना में इसका मानव वरीयता के साथ सहसंबंध और विभेदन क्षमता कम है।
इस समस्या को हल करने के लिए ko-arena-hard-auto, Arena-Hard-Auto पर आधारित है,
और Arena-Hard-Auto के 500 कठिन और चुनौतीपूर्ण प्रश्नों का कोरियाई में अनुवाद करके उपयोग करता है।
अनुवाद GPT-4o और o1 का उपयोग करके किया गया और मैन्युअल रूप से समीक्षा की गई।
इसके अलावा, यह मौजूदा Arena-Hard-Auto से तीन बड़े पहलुओं में अलग है।
- यह code mixing और code switching को ध्यान में रखने वाला judge system prompt उपयोग करता है।
- judge model के रूप में gemini-2.0-flash, gpt-4o-mini, deepseek-chat-v3-0324 का उपयोग किया जाता है और उनका ensemble बनाया जाता है। इससे self-preference bias कम होता है और मौजूदा Arena-Hard-Auto की तुलना में कम लागत पर प्रदर्शन मापा जा सकता है।
- baseline model के रूप में claude-3.7-sonnet का उपयोग किया जाता है। लगातार ऊपर जाते LLM प्रदर्शन को ध्यान में रखते हुए, एक शक्तिशाली LLM claude-3.7-sonnet को baseline के रूप में सेट किया गया है।
Benchmarking के परिणाम यहाँ देखे जा सकते हैं: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html
Code: https://github.com/qwopqwop200/ko-arena-hard-auto
Dataset: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1
अभी कोई टिप्पणी नहीं है.