Leaderboard / Code / Dataset

मानव वरीयता LLM प्रदर्शन का मूल्यांकन करने वाले महत्वपूर्ण सूचकों में से एक है।
लेकिन मानव वरीयता को मापना बहुत कठिन और महंगा है।
MT-Bench, Arena-Hard-Auto आदि, LLM-as-a-Judge का उपयोग करके इस समस्या को हल करते हैं।
लेकिन पहले के ये benchmark अंग्रेज़ी के लिए हैं।

बेशक, कोरियाई के लिए भी KoMT-Bench, LogicKor, Horangi जैसे अच्छे benchmark मौजूद हैं।

लेकिन मौजूदा benchmark MT-Bench पर आधारित हैं, और MT-Bench के बारे में यह जाना जाता है कि Arena-Hard-Auto की तुलना में इसका मानव वरीयता के साथ सहसंबंध और विभेदन क्षमता कम है।

इस समस्या को हल करने के लिए ko-arena-hard-auto, Arena-Hard-Auto पर आधारित है,
और Arena-Hard-Auto के 500 कठिन और चुनौतीपूर्ण प्रश्नों का कोरियाई में अनुवाद करके उपयोग करता है।
अनुवाद GPT-4o और o1 का उपयोग करके किया गया और मैन्युअल रूप से समीक्षा की गई।

इसके अलावा, यह मौजूदा Arena-Hard-Auto से तीन बड़े पहलुओं में अलग है।

  1. यह code mixing और code switching को ध्यान में रखने वाला judge system prompt उपयोग करता है।
  2. judge model के रूप में gemini-2.0-flash, gpt-4o-mini, deepseek-chat-v3-0324 का उपयोग किया जाता है और उनका ensemble बनाया जाता है। इससे self-preference bias कम होता है और मौजूदा Arena-Hard-Auto की तुलना में कम लागत पर प्रदर्शन मापा जा सकता है।
  3. baseline model के रूप में claude-3.7-sonnet का उपयोग किया जाता है। लगातार ऊपर जाते LLM प्रदर्शन को ध्यान में रखते हुए, एक शक्तिशाली LLM claude-3.7-sonnet को baseline के रूप में सेट किया गया है।

Benchmarking के परिणाम यहाँ देखे जा सकते हैं: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

Code: https://github.com/qwopqwop200/ko-arena-hard-auto
Dataset: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.