- 9 महीने पहले यह मानकर एक startup शुरू किया कि AI वास्तव में इंसानों की जगह लेने लायक code security analysis अच्छी तरह कर सकता है
- शुरुआत में GPT-4o से Claude 3.5 sonnet पर बदलने से, सुरक्षा कमजोरियों की व्याख्या और severity के आकलन में गुणवत्ता के स्तर पर बड़ा सुधार था
- लेकिन उसके बाद Claude 3.6, 3.7 सहित अधिकांश मॉडलों ने internal benchmark या bug detection क्षमता में कोई वास्तविक सुधार नहीं दिखाया
- प्रदर्शन में सुधार मुख्य रूप से AI मॉडल की वजह से नहीं, बल्कि सामान्य engineering सुधारों की वजह से था
- दूसरे startup ने भी ऐसा ही अनुभव किया, और अधिकांश ने नए मॉडल की घोषणा → benchmark पर अच्छा प्रदर्शन → वास्तविक प्रदर्शन मामूली वाला चक्र देखा
- लेखक का मानना है कि वर्तमान AI मॉडलों की प्रगति आर्थिक उपयोगिता या generalization क्षमता के मामले में अभी सार्थक स्तर पर नहीं है
AI benchmark और वास्तविक प्रदर्शन के बीच का अंतर
- AI मॉडल परीक्षा में अच्छे अंक लाते हैं, लेकिन वास्तविक काम करने की क्षमता में यह लगभग दिखता ही नहीं
- benchmark ज़्यादातर छोटे और अलग-थलग समस्याओं पर केंद्रित होते हैं, इसलिए वास्तविक अनुप्रयोगों के लिए उपयुक्त नहीं हैं
- उदाहरण के तौर पर Claude मॉडल Pokémon गेम पूरा नहीं कर पाता, जिससे पता चलता है कि long-term memory बनाए रखना कठिन है
- ‘Humanity’s Last Exam’ जैसे benchmark पहली नज़र में महत्वपूर्ण लगते हैं, लेकिन वे वास्तविक उपयोगिता का ठीक से आकलन नहीं करते
- लेखक का कहना है कि आगे AI प्रदर्शन को परखने में वह Claude Plays Pokemon जैसे वास्तविक उपयोग-आधारित benchmark पर ही भरोसा करेगा
AI labs की विश्वसनीयता की समस्या
- AI labs सभ्यतागत प्रतिस्पर्धा के माहौल में हैं, और कुछ के पास प्रदर्शन को बढ़ा-चढ़ाकर दिखाने या चुनकर सिर्फ अच्छे नतीजे प्रकाशित करने की प्रेरणा है
- वास्तव में OpenAI, Anthropic आदि जिन benchmark का उपयोग करते हैं, वे ज़्यादातर public test set पर आधारित हैं, इसलिए उनमें हेरफेर की संभावना मौजूद है
- ARC-AGI जैसे आंशिक रूप से non-public मूल्यांकन को छोड़ दें, तो लगभग सभी नतीजे प्रशिक्षित dataset पर आधारित हो सकते हैं
- सबसे आशावादी व्याख्या यह है कि समस्या तकनीकी सीमा नहीं, बल्कि मानवीय cheating है
संरचनात्मक कारण कि benchmark वास्तविक उपयोगिता को क्यों नहीं दिखाते
- इंसानी IQ test का कई वास्तविक उपलब्धियों से सहसंबंध होता है, लेकिन AI benchmark के साथ ऐसा नहीं है
- AI benchmark अधिकतर स्वतंत्र puzzle या अल्पकालिक समस्या-समाधान पर आधारित होते हैं
- वास्तविक समस्याओं में जिस memory, situational awareness, और goal tracking की ज़रूरत होती है, उसमें AI बहुत कमजोर है
- benchmark development या evaluation के लिए सुविधाजनक हैं, लेकिन वास्तविक दुनिया की समग्र क्षमता से उनका संबंध कमजोर है
AI मॉडल स्मार्ट हो सकते हैं, लेकिन alignment समस्या से प्रदर्शन सीमित हो सकता है
- लेखक की कंपनी वास्तविक code security inspection में AI का उपयोग करती है, लेकिन मॉडल काम के context को ठीक से नहीं समझता
- मॉडल इस निर्देश का पालन नहीं कर पाता कि केवल वही समस्याएँ रिपोर्ट करो जो वास्तविक service को प्रभावित करती हैं, और वह अक्सर अनावश्यक warning देता है
- इसकी वजह यह है कि मॉडल को "स्मार्ट दिखने वाले" जवाबों को तरजीह देने के लिए train किया गया है
- बातचीत के लिए यह ठीक हो सकता है, लेकिन जब इसे किसी system में जोड़कर इस्तेमाल किया जाता है तो गलतियाँ जमा होकर समस्या बन जाती हैं
- केवल बाहरी लक्षणों को ठीक करने की कोशिश लंबी अवधि में खतरनाक हो सकती है; मूल alignment समस्या का समाधान ज़रूरी है
समापन विचार और सामाजिक निहितार्थ
- अभी AI के बारे में अपेक्षाएँ जितनी बढ़ा-चढ़ाकर पेश की गई हैं, वास्तविक प्रदर्शन उससे कम है, और यह कई उपयोगकर्ताओं के ‘जीवन के अनुभव’ से मेल खाता है
- पूरे समाज पर असर डालने वाले unaligned AI system के व्यापक होने से पहले, और अधिक बुनियादी समझ और design की ज़रूरत है
- केवल परिणाम-केंद्रित benchmark की तुलना में, वास्तविक उपयोग परिदृश्यों को दर्शाने वाला गुणात्मक मूल्यांकन अधिक महत्वपूर्ण है
5 टिप्पणियां
सहमत हूँ। मैं Perplexity में Claude 3.7 मॉडल का अच्छे से इस्तेमाल कर रहा हूँ, लेकिन हाल में Gemini 2.5 भी इस्तेमाल कर रहा हूँ और सच में इसे इस्तेमाल करते हुए इसकी परफ़ॉर्मेंस बहुत अच्छी लग रही है।
आजकल सिर्फ़ आर्थिक अख़बार जैसी ख़बरें ही क्यों पोस्ट हो रही हैं?
मुझे तो बहुत अच्छा लग रहा है...
लगता है आजकल इस स्तर का टाइटल लिखना पड़ता है तभी clickbait काम करता है।
Hacker News राय
मेरी माँ ने कहा कि Paul Newman को शराब की समस्या थी। ChatGPT से पूछा तो उसने जवाब दिया कि Paul Newman शराब की समस्या के लिए खास तौर पर जाने नहीं जाते थे
हाल के USAMO में SOTA models ने औसतन 5% स्कोर किया। इससे संकेत मिलता है कि AI models वास्तव में समस्याएँ हल नहीं कर रहे, बल्कि पुराने नतीजे याद रख रहे हैं
LLMs में कुछ न कुछ रिपोर्ट करने की प्रवृत्ति होती है, इसलिए वे अक्सर बढ़ा-चढ़ाकर बोलते हैं
इस पोस्ट पर प्रतिक्रियाएँ पढ़ना दिलचस्प है। यह दिखाता है कि हमारी सामूहिक प्रतिक्रिया बहुत विविध है और काफ़ी हद तक व्यक्तिगत अनुभवों पर आधारित है
व्यक्तिगत अनुभव लेखक की राय से मेल खाता है
benchmark results में सुधार और वास्तविक कामों में सुधार की कमी, LLMs की प्रकृति को दर्शाती है
मैंने वीकेंड पर gemini 2.5 इस्तेमाल किया, और वह बहुत शानदार था
अगर LLM development अभी रुक भी जाए, तब भी हम अगले 10 साल तक इसके नए उपयोग खोजते रहेंगे
LLMs और coding assistant plugins इस्तेमाल करने वाले व्यक्ति के रूप में, मुझे लगता है कि पिछले 12 महीनों में GPT/Claude खराब हुए हैं