25 पॉइंट द्वारा ironman0722 2024-10-18 | 10 टिप्पणियां | WhatsApp पर शेयर करें
  • 2024 CSAT कोरियन में o1-preview ने 1 ग्रेड हासिल किया (88 अंक, शीर्ष 4%)
  • gpt-4o इस समय पहले स्थान पर है, llama-3.1-405B-instruct दूसरे और Qwen-2.5-72B तीसरे स्थान पर हैं
    • अभी gpt o1-preview को छोड़कर बाकी मॉडल 3~4 ग्रेड के आसपास ही हैं
    • इससे पता चलता है कि कई मॉडलों के लिए कोरियन language section में Human performance की बराबरी करना अभी भी मुश्किल है
  • हर साल नए CSAT कोरियन जैसे उच्च-गुणवत्ता वाले डेटासेट के जरिए LLM के प्रदर्शन का मूल्यांकन
    • विभिन्न क्षेत्रों के passages (humanities, society, science, technology, arts), literature, speech and writing
  • वास्तविक CSAT की तरह standard score और grade system का उपयोग करके Human performance और LLM performance की तुलना
  • अपने huggingFace finetuning model या किसी दिलचस्प model के लिए benchmarking आवेदन किया जा सकता है

CSAT कोरियन LLM benchmark leaderboard खुल गया है!

यह leaderboard उच्च-गुणवत्ता वाले CSAT कोरियन प्रश्नों के आधार पर LLM की कोरियन भाषा क्षमता को मापता है। CSAT के standard score और grade calculation method को लागू करके यह ऐसा leaderboard प्रदान करता है जिसमें model performance की तुलना Human performance से की जा सकती है, और इसी जानकारी को लोगों के साथ साझा करने के लिए इसे शुरू किया गया है।

फीडबैक का हमेशा स्वागत है!

i.e)

  • मॉडल evaluation के लिए GPU resources इस समय कम हैं! अगर कोई GPU donation कर सकता है तो मैं वास्तव में आभारी रहूंगा!

  • API लागत की समस्या के कारण o1-preview के साथ परीक्षण नहीं कर सके हैं, और o1 का आधिकारिक संस्करण आते ही उसका परीक्षण करने की योजना है।

10 टिप्पणियां

 
roxie 2024-10-24

लगता है कि वे सुनेउंग को CSAT कहते हैं।

 
doolayer 2024-10-21

कोरियन passages में चित्र भी हैं, तो यह multimodal के रूप में क्यों नहीं किया गया, यह जानना चाहूंगा?

 
ironman0722 2024-10-21

लीडरबोर्ड में रुचि दिखाने के लिए धन्यवाद!

पहला कारण लागत की समस्या थी। जब हमने सूनुंग डेटा तैयार किया था, उस समय पिछले साल ही GPT-4 Turbo जारी हुआ था, इसलिए 10 वर्षों के सूनुंग डेटा को बनाने में लागत काफी अधिक आई।

दूसरा कारण यह था कि सूनुंग के प्रश्न हल करने के लिए चित्र संबंधी जानकारी सहित सभी संकेतों को विवरण में शामिल करना पड़ता था। लेकिन multimodal का उपयोग करते समय सीमाएँ थीं, इसलिए हमने चित्रों के बारे में विवरण सीधे स्वयं लिखे।

 
ilotoki0804 2024-10-18

दिलचस्प है! लीडरबोर्ड देखते हुए मेरे मन में कुछ सवाल आए, उनका जवाब दें तो आभारी रहूँगा।

  1. LLM का इस्तेमाल करते समय पूरा प्रश्नपत्र हल करने में कितना समय लगता है? सुनेउंग कोरियन के मामले में 80 मिनट की समय-सीमा होती है (जिसमें OMR मार्किंग का समय भी शामिल है), इसलिए यह जानने की जिज्ञासा है कि LLM को पूरे प्रश्न हल करने में लगभग कितना समय लगेगा।
  2. क्या आसान परीक्षा में भी वही ग्रेड रेंज आएगी? चरम उदाहरण के तौर पर, इस बार सितंबर मॉक टेस्ट इतना आसान था कि प्रथम ग्रेड कटऑफ 100 अंक था; ऐसे में, अगर वही मॉक टेस्ट दिया जाए, तो क्या अन्य मॉक टेस्ट की तरह ही मिलती-जुलती ग्रेड हासिल हो सकेगी?

मेरे अनुमान से समय 80 मिनट से काफी कम लगेगा, और आसान परीक्षा में भी absolute score लगभग समान रहेगा, लेकिन वास्तविकता में क्या होगा यह जानने की उत्सुकता है.

 
ironman0722 2024-10-21

CSAT कोरियाई भाषा LLM बेंचमार्क लीडरबोर्ड में इतनी बड़ी रुचि दिखाने के लिए धन्यवाद! आपके सवालों का जवाब दें तो

  1. कम से कम 10 मिनट, और ज़्यादा से ज़्यादा लगभग 25 मिनट लगे।
  2. केवल नतीजों को देखकर लगता है कि परीक्षा की कठिनाई कुछ मॉडलों में LLM के सवाल हल करने पर असर डालती है, जबकि कुछ मॉडलों में ऐसा नहीं दिखता, इसलिए इसे सामान्यीकृत करना कठिन है।

उदाहरण के लिए, gpt-4o के मामले में 2018 ~2015 के बीच की अपेक्षाकृत आसान CSAT परीक्षाओं में, जहाँ standard score का highest score 130 के दायरे में था, बेहतर अंक मिले, और grade भी दूसरे वर्षों की कठिन परीक्षाओं की तुलना में बेहतर आया।
लेकिन meta llama 3.1 70B मॉडल के मामले में, 2018 ~2015 के बीच की CSAT परीक्षाओं में कम grade range और standard score मिलने के बावजूद, 2022 CSAT में, जहाँ standard score का highest score 149 के दायरे में दर्ज किया गया था, 3rd grade मिलने के मामले भी थे.

अगर आपके मन में और कोई सवाल हों या किसी अतिरिक्त स्पष्टीकरण की ज़रूरत हो, तो बेझिझक बताइए!

 
ilotoki0804 2024-10-21

ओ... हर मॉडल में थोड़ा-थोड़ा रुझान का फर्क दिखता है, है न? सच में इंसानों जैसा लगता है। विस्तृत विवरण के लिए धन्यवाद!

 
doolayer 2024-10-21

1वें के बारे में,
आखिरकार यह 5 विकल्पों वाले 45 multiple-choice प्रश्न हैं, इसलिए लगता है कि 45 samples (input) के लिए 1 token (1,2,3,4,5) को कुछ सौ सेकंड के भीतर हल किया जा सकता है।

 
savvykang 2024-10-18

AI को सूनुंग ग्रेड मिलते देखना थोड़ा अजीब भी लगता है और मज़ेदार भी।

 
mammal 2024-10-18

यह कोरियाई CSAT भाषा बेंचमार्क है, लेकिन इसका README अंग्रेज़ी में होना विडंबनापूर्ण है।

 
ng0301 2024-10-18

कोरियाई के हिसाब से देखें तो शायद इस स्तर का इतना high-quality open source benchmark data और नहीं होगा haha