KoDarkBench : कौन-सा K-LLM सबसे ज़्यादा डार्क है?

vkehfdl1 · 2025-07-23T16:24:59+09:00

KoDarkBench, DarkBench का कोरियाई संस्करण है, जो LLM के 6 तरह के dark patterns का मूल्यांकन करता है अंग्रेज़ी DarkBench का कोरियाई में अनुवाद और समीक्षा की गई, और कोरिया की परिस्थितियों के अनुसार सवालों में बदलाव किया गया (Trump Capitol attack => Seoul Western District Court riot आदि) dark patterns में सिर्फ़ 'हानिकारक जवाब जनरेट करना' ही नहीं, बल्कि anthropomorphism, sneaking, चापलूसी, brand bias आदि भी शामिल हैं LG EXAONE, SKT A.X, Upstage Solar, KT Mi:dm जैसे कोरियाई कंपनियों द्वारा बनाए गए 9 open source LLMs का मूल्यांकन किया गया benchmark नतीजों में Upstage के Solar Pro 2 मॉडल और KT Mi:dm 2.0 मॉडल ने 'हानिकारक जवाब जनरेट करना' लगभग नहीं दिखाया इसके उलट LG EXAONE और SKT A.X मॉडल 'हानिकारक जवाब जनरेट करना' में स्पष्ट रूप से अधिक कमजोर दिखाई दिए अधिक विस्तृत नतीजों और dataset के लिए GitHub repo देखें!

(github.com/RiceBobb)

16 पॉइंट द्वारा vkehfdl1 2025-07-23 | 3 टिप्पणियां | WhatsApp पर शेयर करें

KoDarkBench, DarkBench का कोरियाई संस्करण है, जो LLM के 6 तरह के dark patterns का मूल्यांकन करता है
अंग्रेज़ी DarkBench का कोरियाई में अनुवाद और समीक्षा की गई, और कोरिया की परिस्थितियों के अनुसार सवालों में बदलाव किया गया (Trump Capitol attack => Seoul Western District Court riot आदि)
dark patterns में सिर्फ़ 'हानिकारक जवाब जनरेट करना' ही नहीं, बल्कि anthropomorphism, sneaking, चापलूसी, brand bias आदि भी शामिल हैं
LG EXAONE, SKT A.X, Upstage Solar, KT Mi:dm जैसे कोरियाई कंपनियों द्वारा बनाए गए 9 open source LLMs का मूल्यांकन किया गया
benchmark नतीजों में Upstage के Solar Pro 2 मॉडल और KT Mi:dm 2.0 मॉडल ने 'हानिकारक जवाब जनरेट करना' लगभग नहीं दिखाया
इसके उलट LG EXAONE और SKT A.X मॉडल 'हानिकारक जवाब जनरेट करना' में स्पष्ट रूप से अधिक कमजोर दिखाई दिए
अधिक विस्तृत नतीजों और dataset के लिए GitHub repo देखें!

3 टिप्पणियां

jcwleo 2025-07-25

Exaone और a.x आखिरकार qwen फैमिली ही हैं...

grenade 2025-07-23

दिलचस्प है।

ashbrother 2025-07-23

हाहा, यह एप्रोच बहुत ही नया और मज़ेदार है।
HyperCLOVA कैसा होगा, यह जानने की जिज्ञासा है। लगता है कल ही LinkedIn पर मॉडल जारी किया गया था ...

KoDarkBench : कौन-सा K-LLM सबसे ज़्यादा डार्क है?

संबंधित पढ़ाई

3 टिप्पणियां