Meta पर AI benchmark में हेरफेर का विवाद

(theverge.com)

4 पॉइंट द्वारा GN⁺ 2025-04-09 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Meta ने दो नए Llama 4 मॉडल पेश किए: छोटा मॉडल Scout और मध्यम आकार का मॉडल Maverick
Meta का दावा है कि Maverick ने GPT-4o और Gemini 2.0 Flash से बेहतर प्रदर्शन दिखाया
Maverick ने AI मॉडल तुलना प्लेटफ़ॉर्म LMArena में दूसरा स्थान हासिल किया
सार्वजनिक ELO स्कोर 1417 था, जो GPT-4o से अधिक और Gemini 2.5 Pro से थोड़ा कम है
ऊंचा ELO स्कोर यह दर्शाता है कि वह मॉडल अन्य मॉडलों के साथ तुलनात्मक मूल्यांकन में अधिक बार जीतता है

benchmark में हेरफेर के आरोप

AI शोधकर्ताओं ने Meta के दस्तावेज़ों में कुछ असामान्य बातें देखीं
LMArena में इस्तेमाल किया गया Maverick संस्करण, आम लोगों के लिए जारी किए गए संस्करण से अलग था
Meta ने बताया कि उसने LMArena में conversation-optimized experimental version का उपयोग किया था
यह संस्करण “conversationality” पर केंद्रित एक experimental model था

कम्युनिटी और प्लेटफ़ॉर्म की प्रतिक्रिया

LMArena ने आधिकारिक बयान में कहा कि Meta की policy interpretation उनकी अपेक्षाओं से मेल नहीं खाती
Meta ने इसे experimental version के रूप में स्पष्ट रूप से चिह्नित नहीं किया था, और इसी कारण LMArena ने leaderboard policy बदलने की घोषणा की
यह आगे निष्पक्ष और पुनरुत्पादनीय मूल्यांकन सुनिश्चित करने के लिए उठाया गया कदम है

Meta की सफाई

Meta की प्रवक्ता Ashley Gabriel ने email statement में समझाया कि वे विभिन्न experimental versions का परीक्षण करते हैं
उन्होंने कहा, “‘Llama-4-Maverick-03-26-Experimental’ बातचीत के लिए optimized एक experimental model है, और इसने LMArena में भी उत्कृष्ट प्रदर्शन दिखाया”

2 टिप्पणियां

ndrgrd 2025-04-10

जैसा उम्मीद थी, benchmark में हेरफेर का मामला भी गायब नहीं रह सकता था।

GN⁺ 2025-04-09

Hacker News राय

Llama 4 का लॉन्च Meta के लिए बड़ी विफलता जैसा दिखता है। मॉडल का प्रदर्शन अच्छा नहीं है। सारी कवरेज नकारात्मक है
- जैसा अपेक्षित था, लेकिन अब जिज्ञासा है कि Meta आगे क्या करेगा। फिलहाल यह दूसरे open model से पीछे लगता है, और MoEs पर लगाया गया इसका महत्वाकांक्षी दांव सफल नहीं हुआ लगता
- सोच रहा हूँ कि क्या Zuck ने लॉन्च पर ज़ोर दिया। उसे पता रहा होगा कि यह तैयार नहीं था
यह देखकर हैरानी होती है कि copyrighted material चुराने वाली कंपनियाँ फिर से अनैतिक व्यवहार कर रही हैं
Meta पहली बार पकड़ा गया है
LMArena द्वारा जारी sample battle (H2H) देखना सबसे अधिक समझाने वाला है। Meta के मॉडल का output बहुत ज़्यादा लंबा और बातूनी है। निर्णयों को देखकर समझ में आता है कि लोग LMArena ranking को नज़रअंदाज़ क्यों करते हैं
क्या LMArena अब बेकार हो गया है?
- मैंने सोचा था कि इसमें एक ही user-provided query पर दो मॉडल चलाए जाते हैं। इसे manipulate नहीं किया जा सकता होगा
- मैं समझ नहीं पा रहा कि "conversation optimization" का मतलब क्या है। यह LMArena को क्या फायदा देता है, यह भी स्पष्ट नहीं है
Meta अपने ही लिए नुकसान कर रहा है क्योंकि उसके पास एक बहुत खराब public AI है जिसे लोग आज़मा सकते हैं (meta.ai)। मैं नियमित रूप से GPT 4o, Deepseek, Grok, Google Gemeni 2.5 के web version इस्तेमाल करता हूँ
- Meta हमेशा सबसे खराब रहता है, इसलिए अब मैं इसकी परवाह नहीं करता
किसी को भी हैरानी नहीं होगी। साथ ही Goodhart का नियम फिर से लागू हो रहा है
leaderboard का ऊपरी हिस्सा closed-weight experimental model से भरा हुआ है
मुझे लगता है कि इसे prompter के प्रति और अधिक खुशामदी या चापलूस बनने के लिए डिज़ाइन किया गया है। अगर यह सच है, तो यह तुलना करने वाले लोगों के बारे में चिंताजनक है

Meta पर AI benchmark में हेरफेर का विवाद

benchmark में हेरफेर के आरोप

कम्युनिटी और प्लेटफ़ॉर्म की प्रतिक्रिया

Meta की सफाई

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News राय