CSAT कोरियन LLM Benchmark Leaderboard खुला
(github.com/minsing-jin)- 2024 CSAT कोरियन में o1-preview ने 1 ग्रेड हासिल किया (88 अंक, शीर्ष 4%)
- gpt-4o इस समय पहले स्थान पर है, llama-3.1-405B-instruct दूसरे और Qwen-2.5-72B तीसरे स्थान पर हैं
- अभी gpt o1-preview को छोड़कर बाकी मॉडल 3~4 ग्रेड के आसपास ही हैं
- इससे पता चलता है कि कई मॉडलों के लिए कोरियन language section में Human performance की बराबरी करना अभी भी मुश्किल है
- हर साल नए CSAT कोरियन जैसे उच्च-गुणवत्ता वाले डेटासेट के जरिए LLM के प्रदर्शन का मूल्यांकन
- विभिन्न क्षेत्रों के passages (humanities, society, science, technology, arts), literature, speech and writing
- वास्तविक CSAT की तरह standard score और grade system का उपयोग करके Human performance और LLM performance की तुलना
- अपने huggingFace finetuning model या किसी दिलचस्प model के लिए benchmarking आवेदन किया जा सकता है
CSAT कोरियन LLM benchmark leaderboard खुल गया है!
यह leaderboard उच्च-गुणवत्ता वाले CSAT कोरियन प्रश्नों के आधार पर LLM की कोरियन भाषा क्षमता को मापता है। CSAT के standard score और grade calculation method को लागू करके यह ऐसा leaderboard प्रदान करता है जिसमें model performance की तुलना Human performance से की जा सकती है, और इसी जानकारी को लोगों के साथ साझा करने के लिए इसे शुरू किया गया है।
फीडबैक का हमेशा स्वागत है!
i.e)
-
मॉडल evaluation के लिए GPU resources इस समय कम हैं! अगर कोई GPU donation कर सकता है तो मैं वास्तव में आभारी रहूंगा!
-
API लागत की समस्या के कारण o1-preview के साथ परीक्षण नहीं कर सके हैं, और o1 का आधिकारिक संस्करण आते ही उसका परीक्षण करने की योजना है।
10 टिप्पणियां
लगता है कि वे सुनेउंग को CSAT कहते हैं।
कोरियन passages में चित्र भी हैं, तो यह multimodal के रूप में क्यों नहीं किया गया, यह जानना चाहूंगा?
लीडरबोर्ड में रुचि दिखाने के लिए धन्यवाद!
पहला कारण लागत की समस्या थी। जब हमने सूनुंग डेटा तैयार किया था, उस समय पिछले साल ही GPT-4 Turbo जारी हुआ था, इसलिए 10 वर्षों के सूनुंग डेटा को बनाने में लागत काफी अधिक आई।
दूसरा कारण यह था कि सूनुंग के प्रश्न हल करने के लिए चित्र संबंधी जानकारी सहित सभी संकेतों को विवरण में शामिल करना पड़ता था। लेकिन multimodal का उपयोग करते समय सीमाएँ थीं, इसलिए हमने चित्रों के बारे में विवरण सीधे स्वयं लिखे।
दिलचस्प है! लीडरबोर्ड देखते हुए मेरे मन में कुछ सवाल आए, उनका जवाब दें तो आभारी रहूँगा।
मेरे अनुमान से समय 80 मिनट से काफी कम लगेगा, और आसान परीक्षा में भी absolute score लगभग समान रहेगा, लेकिन वास्तविकता में क्या होगा यह जानने की उत्सुकता है.
CSAT कोरियाई भाषा LLM बेंचमार्क लीडरबोर्ड में इतनी बड़ी रुचि दिखाने के लिए धन्यवाद! आपके सवालों का जवाब दें तो
उदाहरण के लिए, gpt-4o के मामले में 2018 ~2015 के बीच की अपेक्षाकृत आसान CSAT परीक्षाओं में, जहाँ standard score का highest score 130 के दायरे में था, बेहतर अंक मिले, और grade भी दूसरे वर्षों की कठिन परीक्षाओं की तुलना में बेहतर आया।
लेकिन meta llama 3.1 70B मॉडल के मामले में, 2018 ~2015 के बीच की CSAT परीक्षाओं में कम grade range और standard score मिलने के बावजूद, 2022 CSAT में, जहाँ standard score का highest score 149 के दायरे में दर्ज किया गया था, 3rd grade मिलने के मामले भी थे.
अगर आपके मन में और कोई सवाल हों या किसी अतिरिक्त स्पष्टीकरण की ज़रूरत हो, तो बेझिझक बताइए!
ओ... हर मॉडल में थोड़ा-थोड़ा रुझान का फर्क दिखता है, है न? सच में इंसानों जैसा लगता है। विस्तृत विवरण के लिए धन्यवाद!
1वें के बारे में,
आखिरकार यह 5 विकल्पों वाले 45 multiple-choice प्रश्न हैं, इसलिए लगता है कि 45 samples (input) के लिए 1 token (1,2,3,4,5) को कुछ सौ सेकंड के भीतर हल किया जा सकता है।
AI को सूनुंग ग्रेड मिलते देखना थोड़ा अजीब भी लगता है और मज़ेदार भी।
यह कोरियाई CSAT भाषा बेंचमार्क है, लेकिन इसका README अंग्रेज़ी में होना विडंबनापूर्ण है।
कोरियाई के हिसाब से देखें तो शायद इस स्तर का इतना high-quality open source benchmark data और नहीं होगा haha