14 पॉइंट द्वारा libner 2024-03-29 | 3 टिप्पणियां | WhatsApp पर शेयर करें

यह अंग्रेज़ी-भाषी benchmarks में 8 categories के लिए 10-10 प्रश्नों से बने benchmark MT-Bench से प्रेरित होकर तैयार किया गया कोरियाई language model benchmark बताया गया है.
निर्माता के अनुसार, इसे वर्तमान में उपयोग हो रहे कोरियाई language model benchmarks की सीमाओं को देखते हुए बनाया गया है.

नीचे LogicKor benchmark के बारे में निर्माता की पोस्ट से उद्धृत अंश दिया गया है.


कोरियाई मॉडल की तर्क-क्षमता का आकलन करने के लिए 6 विषयों को नीचे की तरह विभाजित किया गया है.  
तर्क (Reasoning) - तार्किक सोच, समस्या समाधान  
गणित (Math) - गणितीय अवधारणाएं, गणना  
लेखन (Writing) - वाक्यों के बीच सामंजस्य, रचनात्मकता  
कोडिंग (Coding) - कोडिंग ज्ञान, फीचर कार्यान्वयन  
समझ (Understanding) - गद्यांश की समझ, जानकारी निकालना, निर्देशों का पालन  
व्याकरण (Grammar) - हंगुल वर्तनी, मानक उच्चारण नियम  
  
और, प्रत्येक विषय के लिए 7 मल्टी-टर्न प्रश्न तैयार किए गए हैं.

3 टिप्पणियां

 
skymer 2024-03-29

रेपो में कोई खास विवरण नहीं है, लेकिन क्या आप उद्धृत किए गए लेख का लिंक भी जोड़ सकते हैं?

 
libner 2024-03-29

क्योंकि यह एक community site पर पोस्ट किया गया लेख है, इसलिए शब्दों का चयन थोड़ा तीखा हो सकता है... इसलिए मुझे चिंता थी कि कहीं comment section में बड़ी गड़बड़ी न हो जाए, इस वजह से मैंने लेख का लिंक नहीं जोड़ा था.
संबंधित लेख का पता यह है: https://arca.live/b/alpaca/102052014

 
skymer 2024-03-29

धन्यवाद! मुझे भी लगा था कि Upstage कुछ काफ़ी संदिग्ध benchmark results फैला रहा है, तो यह सोचने वाला मैं अकेला नहीं था.. ClovaX की वास्तविक अनुभव वाली performance इतनी अच्छी नहीं लगी थी, लेकिन Korean models में यह पहले स्थान पर है।