ओवरफिटिंग की जांच करने वाले बेंचमार्क में DeepSeek V3 का प्रदर्शन अच्छा नहीं रहा

(github.com/cpldcpu)

2 पॉइंट द्वारा jhj0517 2024-12-31 | 2 टिप्पणियां | WhatsApp पर शेयर करें

बंद-स्रोत LLMs को पीछे छोड़ने वाले ओपन सोर्स मॉडल DeepSeek V3 का आगमन

हाल ही में DeepSeek (चीन की एक AI कंपनी) ने DeepSeek V3 नाम का एक चौंकाने वाला ओपन सोर्स मॉडल जारी किया, जिसने MMLU (अंग्रेज़ी), Human-Eval-Mul (कोडिंग), AIME 2024 (गणित) जैसे कुछ विशेष LLM बेंचमार्क्स में GPT-4o 0513 को पीछे छोड़ दिया
चूँकि यह मौजूदा बंद-स्रोत (Closed Source) LLMs (जैसे OpenAI का GPT, Anthropic का Claude) से बेहतर परिणाम दिखाता है, इसने काफी ध्यान आकर्षित किया है

ओवरफिटिंग की जांच करने वाले बेंचमार्क MisguidedAttention में कमजोर प्रदर्शन

MisguidedAttention एक ऐसा बेंचमार्क है जो यह जांचता है कि "क्या LLM किसी विशेष बेंचमार्क पर ओवरफिटिंग (Overfitting) हुआ है"
MisguidedAttention मौजूदा बेंचमार्क प्रश्नों में हल्का बदलाव करके LLM की ओवरफिटिंग को परखता है
उदाहरण के लिए, मौजूदा बेंचमार्क "एक खराब ट्रेन पटरी पर दौड़ रही है। रेलवे की दो पटरियों पर क्रमशः 5 लोग और 1 व्यक्ति बंधे हुए हैं। यदि आप लीवर खींचते हैं, तो 5 लोग बच जाएंगे लेकिन 1 व्यक्ति मर जाएगा; और यदि आप कुछ नहीं करते, तो 5 लोग मर जाएंगे। क्या आप लीवर खींचेंगे?" जैसे "ट्रॉली दुविधा" का प्रश्न पूछता है, लेकिन MisguidedAttention इसे बदलकर "रेलवे की दो पटरियों पर 5 लाशें और 1 जीवित व्यक्ति बंधा हुआ है।" जैसे "नो ट्रॉली दुविधा" का प्रश्न पूछता है और देखता है कि LLM स्पष्ट उत्तर देता है या नहीं
DeepSeek V3 ने MisguidedAttention में 0.22 स्कोर किया, जो बंद-स्रोत LLM claude-3.5-sonnet-new के 0.45 और gpt4-32k के 0.46 की तुलना में कम है

DeepSeek V3 एक ओपन सोर्स मॉडल है

हालांकि, यह एक अन्य बंद-स्रोत LLM gemini-pro-1.5 के 0.21 से थोड़ा बेहतर है
ओपन सोर्स मॉडलों में llama-आधारित फाइन-ट्यूनिंग मॉडल 'hermes-3-llama-3.1-405' ने 0.27 के साथ सबसे ऊँचा स्कोर किया, और DeepSeek V3 के 0.22 की तुलना में यह बहुत बड़ा अंतर नहीं है
ओवरफिटिंग को परखने वाले बेंचमार्क में कम स्कोर मिलने के बावजूद, ओपन सोर्स मॉडल होने के कारण इसे अब भी महत्वपूर्ण माना जा रहा है

2 टिप्पणियां

dohyun682 2024-12-31

शायद क्योंकि यह चीन में बनाया गया है, इसलिए चीन में संवेदनशील माने जाने वाले मुद्दों पर यह ठीक से जवाब नहीं दे पाता।

jhj0517 2024-12-31

लगता है चीन की सभी सेवाओं में ऐसी ही प्रवृत्ति है। सही-गलत से अलग, वे शायद बस इस तरह के संबंधित विषय सामने आने से सावधान रहते हैं।

ओवरफिटिंग की जांच करने वाले बेंचमार्क में DeepSeek V3 का प्रदर्शन अच्छा नहीं रहा

बंद-स्रोत LLMs को पीछे छोड़ने वाले ओपन सोर्स मॉडल DeepSeek V3 का आगमन

ओवरफिटिंग की जांच करने वाले बेंचमार्क MisguidedAttention में कमजोर प्रदर्शन

DeepSeek V3 एक ओपन सोर्स मॉडल है

संबंधित पढ़ाई

2 टिप्पणियां