LogicKor: कोरियाई language model के लिए बहु-क्षेत्रीय reasoning benchmark
(github.com/StableFluffy)यह अंग्रेज़ी-भाषी benchmarks में 8 categories के लिए 10-10 प्रश्नों से बने benchmark MT-Bench से प्रेरित होकर तैयार किया गया कोरियाई language model benchmark बताया गया है.
निर्माता के अनुसार, इसे वर्तमान में उपयोग हो रहे कोरियाई language model benchmarks की सीमाओं को देखते हुए बनाया गया है.
नीचे LogicKor benchmark के बारे में निर्माता की पोस्ट से उद्धृत अंश दिया गया है.
कोरियाई मॉडल की तर्क-क्षमता का आकलन करने के लिए 6 विषयों को नीचे की तरह विभाजित किया गया है.
तर्क (Reasoning) - तार्किक सोच, समस्या समाधान
गणित (Math) - गणितीय अवधारणाएं, गणना
लेखन (Writing) - वाक्यों के बीच सामंजस्य, रचनात्मकता
कोडिंग (Coding) - कोडिंग ज्ञान, फीचर कार्यान्वयन
समझ (Understanding) - गद्यांश की समझ, जानकारी निकालना, निर्देशों का पालन
व्याकरण (Grammar) - हंगुल वर्तनी, मानक उच्चारण नियम
और, प्रत्येक विषय के लिए 7 मल्टी-टर्न प्रश्न तैयार किए गए हैं.
3 टिप्पणियां
रेपो में कोई खास विवरण नहीं है, लेकिन क्या आप उद्धृत किए गए लेख का लिंक भी जोड़ सकते हैं?
क्योंकि यह एक community site पर पोस्ट किया गया लेख है, इसलिए शब्दों का चयन थोड़ा तीखा हो सकता है... इसलिए मुझे चिंता थी कि कहीं comment section में बड़ी गड़बड़ी न हो जाए, इस वजह से मैंने लेख का लिंक नहीं जोड़ा था.
संबंधित लेख का पता यह है: https://arca.live/b/alpaca/102052014
धन्यवाद! मुझे भी लगा था कि Upstage कुछ काफ़ी संदिग्ध benchmark results फैला रहा है, तो यह सोचने वाला मैं अकेला नहीं था.. ClovaX की वास्तविक अनुभव वाली performance इतनी अच्छी नहीं लगी थी, लेकिन Korean models में यह पहले स्थान पर है।