- 2025 शैक्षणिक वर्ष के CSAT कोरियन में O1-Preview ने 97 अंकों का चौंकाने वाला स्कोर दर्ज किया
- 8वें प्रश्न (3 अंक) के non-fiction passage में गलत उत्तर दर्ज हुआ
- तर्क की त्रुटि के कारण गलत विकल्प 3 चुना गया
- जो लोग benchmark प्रक्रिया के बारे में अधिक जानना चाहते हैं, उनके लिए मैंने प्रयोग प्रक्रिया और अतिरिक्त विवरणों को संकलित करते हुए एक ब्लॉग भी लिखा है, कृपया देखें!
- 2025 CSAT Korean LLM benchmark में GPT मॉडलों के परिणाम
🥇 1st. o1-Preview: 97 अंक (ग्रेड 1)
🥈 2nd. o1-mini: 78 अंक (ग्रेड 4)
🥉 3rd. gpt-4o: 75 अंक (ग्रेड 4): gpt-4o
4th. gpt-4o-mini: 59 अंक (ग्रेड 5)
5th. gpt-3.5-turbo: 16 अंक (ग्रेड 8)
- CSAT LLM benchmark leaderboard प्रोजेक्ट का उद्देश्य
- Human performance और LLM performance की तुलना के लिए benchmark जानकारी साझा करना
- कोरियाई भाषा क्षमता का मूल्यांकन करने वाली Korea की सबसे विश्वसनीय KICE मूल्यांकन संस्था द्वारा चुना गया benchmark dataset
- हर साल अपडेट होने वाले नए CSAT Korean benchmark dataset के जरिए data leakage को रोकना
- किसी विशेष देश या कंपनी पर निर्भर न रहने वाले open source LLM को Korea CSAT के ग्रेड 1 स्तर तक पहुंचाना
- यह प्रोजेक्ट Markr.AI द्वारा संचालित किया गया है.
- यह benchmark AutoRAG open source का उपयोग करके किया गया था!
- leaderboard में 2023 CSAT Korean को benchmark करने के लिए tutorial अपडेट किया गया है!
- अगर आपके कोई प्रश्न हैं, तो बेझिझक संपर्क करें!
1 टिप्पणियां
ब्लॉग लिंक हट गया लगता है! मैं इसे फिर से कमेंट में डाल रहा हूँ! https://velog.io/@minsing-jin/…