- Meta ने दो नए Llama 4 मॉडल पेश किए: छोटा मॉडल Scout और मध्यम आकार का मॉडल Maverick
- Meta का दावा है कि Maverick ने GPT-4o और Gemini 2.0 Flash से बेहतर प्रदर्शन दिखाया
- Maverick ने AI मॉडल तुलना प्लेटफ़ॉर्म LMArena में दूसरा स्थान हासिल किया
- सार्वजनिक ELO स्कोर 1417 था, जो GPT-4o से अधिक और Gemini 2.5 Pro से थोड़ा कम है
- ऊंचा ELO स्कोर यह दर्शाता है कि वह मॉडल अन्य मॉडलों के साथ तुलनात्मक मूल्यांकन में अधिक बार जीतता है
benchmark में हेरफेर के आरोप
- AI शोधकर्ताओं ने Meta के दस्तावेज़ों में कुछ असामान्य बातें देखीं
- LMArena में इस्तेमाल किया गया Maverick संस्करण, आम लोगों के लिए जारी किए गए संस्करण से अलग था
- Meta ने बताया कि उसने LMArena में conversation-optimized experimental version का उपयोग किया था
- यह संस्करण “conversationality” पर केंद्रित एक experimental model था
कम्युनिटी और प्लेटफ़ॉर्म की प्रतिक्रिया
- LMArena ने आधिकारिक बयान में कहा कि Meta की policy interpretation उनकी अपेक्षाओं से मेल नहीं खाती
- Meta ने इसे experimental version के रूप में स्पष्ट रूप से चिह्नित नहीं किया था, और इसी कारण LMArena ने leaderboard policy बदलने की घोषणा की
- यह आगे निष्पक्ष और पुनरुत्पादनीय मूल्यांकन सुनिश्चित करने के लिए उठाया गया कदम है
Meta की सफाई
- Meta की प्रवक्ता Ashley Gabriel ने email statement में समझाया कि वे विभिन्न experimental versions का परीक्षण करते हैं
- उन्होंने कहा, “‘Llama-4-Maverick-03-26-Experimental’ बातचीत के लिए optimized एक experimental model है, और इसने LMArena में भी उत्कृष्ट प्रदर्शन दिखाया”
2 टिप्पणियां
जैसा उम्मीद थी, benchmark में हेरफेर का मामला भी गायब नहीं रह सकता था।
Hacker News राय