6 पॉइंट द्वारा GN⁺ 2025-04-07 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • 9 महीने पहले यह मानकर एक startup शुरू किया कि AI वास्तव में इंसानों की जगह लेने लायक code security analysis अच्छी तरह कर सकता है
  • शुरुआत में GPT-4o से Claude 3.5 sonnet पर बदलने से, सुरक्षा कमजोरियों की व्याख्या और severity के आकलन में गुणवत्ता के स्तर पर बड़ा सुधार था
  • लेकिन उसके बाद Claude 3.6, 3.7 सहित अधिकांश मॉडलों ने internal benchmark या bug detection क्षमता में कोई वास्तविक सुधार नहीं दिखाया
  • प्रदर्शन में सुधार मुख्य रूप से AI मॉडल की वजह से नहीं, बल्कि सामान्य engineering सुधारों की वजह से था
  • दूसरे startup ने भी ऐसा ही अनुभव किया, और अधिकांश ने नए मॉडल की घोषणा → benchmark पर अच्छा प्रदर्शन → वास्तविक प्रदर्शन मामूली वाला चक्र देखा
  • लेखक का मानना है कि वर्तमान AI मॉडलों की प्रगति आर्थिक उपयोगिता या generalization क्षमता के मामले में अभी सार्थक स्तर पर नहीं है

AI benchmark और वास्तविक प्रदर्शन के बीच का अंतर

  • AI मॉडल परीक्षा में अच्छे अंक लाते हैं, लेकिन वास्तविक काम करने की क्षमता में यह लगभग दिखता ही नहीं
  • benchmark ज़्यादातर छोटे और अलग-थलग समस्याओं पर केंद्रित होते हैं, इसलिए वास्तविक अनुप्रयोगों के लिए उपयुक्त नहीं हैं
  • उदाहरण के तौर पर Claude मॉडल Pokémon गेम पूरा नहीं कर पाता, जिससे पता चलता है कि long-term memory बनाए रखना कठिन है
  • ‘Humanity’s Last Exam’ जैसे benchmark पहली नज़र में महत्वपूर्ण लगते हैं, लेकिन वे वास्तविक उपयोगिता का ठीक से आकलन नहीं करते
  • लेखक का कहना है कि आगे AI प्रदर्शन को परखने में वह Claude Plays Pokemon जैसे वास्तविक उपयोग-आधारित benchmark पर ही भरोसा करेगा

AI labs की विश्वसनीयता की समस्या

  • AI labs सभ्यतागत प्रतिस्पर्धा के माहौल में हैं, और कुछ के पास प्रदर्शन को बढ़ा-चढ़ाकर दिखाने या चुनकर सिर्फ अच्छे नतीजे प्रकाशित करने की प्रेरणा है
  • वास्तव में OpenAI, Anthropic आदि जिन benchmark का उपयोग करते हैं, वे ज़्यादातर public test set पर आधारित हैं, इसलिए उनमें हेरफेर की संभावना मौजूद है
  • ARC-AGI जैसे आंशिक रूप से non-public मूल्यांकन को छोड़ दें, तो लगभग सभी नतीजे प्रशिक्षित dataset पर आधारित हो सकते हैं
  • सबसे आशावादी व्याख्या यह है कि समस्या तकनीकी सीमा नहीं, बल्कि मानवीय cheating है

संरचनात्मक कारण कि benchmark वास्तविक उपयोगिता को क्यों नहीं दिखाते

  • इंसानी IQ test का कई वास्तविक उपलब्धियों से सहसंबंध होता है, लेकिन AI benchmark के साथ ऐसा नहीं है
  • AI benchmark अधिकतर स्वतंत्र puzzle या अल्पकालिक समस्या-समाधान पर आधारित होते हैं
  • वास्तविक समस्याओं में जिस memory, situational awareness, और goal tracking की ज़रूरत होती है, उसमें AI बहुत कमजोर है
  • benchmark development या evaluation के लिए सुविधाजनक हैं, लेकिन वास्तविक दुनिया की समग्र क्षमता से उनका संबंध कमजोर है

AI मॉडल स्मार्ट हो सकते हैं, लेकिन alignment समस्या से प्रदर्शन सीमित हो सकता है

  • लेखक की कंपनी वास्तविक code security inspection में AI का उपयोग करती है, लेकिन मॉडल काम के context को ठीक से नहीं समझता
  • मॉडल इस निर्देश का पालन नहीं कर पाता कि केवल वही समस्याएँ रिपोर्ट करो जो वास्तविक service को प्रभावित करती हैं, और वह अक्सर अनावश्यक warning देता है
  • इसकी वजह यह है कि मॉडल को "स्मार्ट दिखने वाले" जवाबों को तरजीह देने के लिए train किया गया है
  • बातचीत के लिए यह ठीक हो सकता है, लेकिन जब इसे किसी system में जोड़कर इस्तेमाल किया जाता है तो गलतियाँ जमा होकर समस्या बन जाती हैं
  • केवल बाहरी लक्षणों को ठीक करने की कोशिश लंबी अवधि में खतरनाक हो सकती है; मूल alignment समस्या का समाधान ज़रूरी है

समापन विचार और सामाजिक निहितार्थ

  • अभी AI के बारे में अपेक्षाएँ जितनी बढ़ा-चढ़ाकर पेश की गई हैं, वास्तविक प्रदर्शन उससे कम है, और यह कई उपयोगकर्ताओं के ‘जीवन के अनुभव’ से मेल खाता है
  • पूरे समाज पर असर डालने वाले unaligned AI system के व्यापक होने से पहले, और अधिक बुनियादी समझ और design की ज़रूरत है
  • केवल परिणाम-केंद्रित benchmark की तुलना में, वास्तविक उपयोग परिदृश्यों को दर्शाने वाला गुणात्मक मूल्यांकन अधिक महत्वपूर्ण है

5 टिप्पणियां

 
ifmkl 2025-04-08

सहमत हूँ। मैं Perplexity में Claude 3.7 मॉडल का अच्छे से इस्तेमाल कर रहा हूँ, लेकिन हाल में Gemini 2.5 भी इस्तेमाल कर रहा हूँ और सच में इसे इस्तेमाल करते हुए इसकी परफ़ॉर्मेंस बहुत अच्छी लग रही है।

 
say8425 2025-04-07

आजकल सिर्फ़ आर्थिक अख़बार जैसी ख़बरें ही क्यों पोस्ट हो रही हैं?

 
sjisrich 2025-04-07

मुझे तो बहुत अच्छा लग रहा है...

 
kandk 2025-04-07

लगता है आजकल इस स्तर का टाइटल लिखना पड़ता है तभी clickbait काम करता है।

 
GN⁺ 2025-04-07
Hacker News राय
  • मेरी माँ ने कहा कि Paul Newman को शराब की समस्या थी। ChatGPT से पूछा तो उसने जवाब दिया कि Paul Newman शराब की समस्या के लिए खास तौर पर जाने नहीं जाते थे

    • ChatGPT ने समझाया कि उनकी अभिनय करियर, परोपकारी गतिविधियाँ और car racing के प्रति जुनून को ज्यादा ध्यान मिला
    • लेकिन ऑनलाइन उनकी शराब की समस्या के बहुत से सबूत हैं, जिनमें उनकी पत्नी Joanne Woodward की गवाही भी शामिल है
    • जब मैंने ChatGPT का जवाब माँ को भेजा, तो उन्होंने 5 मिनट में एक authoritative source ढूँढ़ निकाला
    • मैं ChatGPT रोज़ इस्तेमाल करता हूँ, लेकिन यह समझ नहीं पाया कि वह इतनी सरल बात में भी गलत कैसे हो सकता है
    • इससे यह सबक मिला कि माँ के फिल्म-ज्ञान पर शक नहीं करना चाहिए
  • हाल के USAMO में SOTA models ने औसतन 5% स्कोर किया। इससे संकेत मिलता है कि AI models वास्तव में समस्याएँ हल नहीं कर रहे, बल्कि पुराने नतीजे याद रख रहे हैं

    • इन नतीजों के बावजूद, कंपनियाँ यह सार्वजनिक नहीं करतीं कि training data से test data हटाने के लिए उन्होंने क्या प्रयास किए
  • LLMs में कुछ न कुछ रिपोर्ट करने की प्रवृत्ति होती है, इसलिए वे अक्सर बढ़ा-चढ़ाकर बोलते हैं

    • सवालों के जवाब में "हाँ" कहने की प्रवृत्ति होती है
    • LLM की प्रतिस्पर्धा धीरे-धीरे benchmark scores बढ़ा रही है, लेकिन ये सुधार भ्रामक हैं
    • LLMs में सहमत होने की प्रवृत्ति होती है, और यह सुधर नहीं रही
    • agent scenarios में models का मूल्यांकन करना महत्वपूर्ण है
  • इस पोस्ट पर प्रतिक्रियाएँ पढ़ना दिलचस्प है। यह दिखाता है कि हमारी सामूहिक प्रतिक्रिया बहुत विविध है और काफ़ी हद तक व्यक्तिगत अनुभवों पर आधारित है

    • कुछ लोग सही होंगे और कुछ गलत, और यह जानना रोचक है कि AI के बारे में "बेहतर चुनाव" करने की क्षमता का संकेत देने वाली विशेषताएँ क्या हैं
  • व्यक्तिगत अनुभव लेखक की राय से मेल खाता है

    • LLMs को उपयोगकर्ता के साथ बातचीत में "स्मार्ट सुनाई देने" के लिए train किया गया है, इसलिए वे समस्या को बढ़ा-चढ़ाकर दिखाने की प्रवृत्ति रखते हैं
    • यह ज्यादातर स्थितियों में भाषा के उद्देश्य से मेल खाता है, और LLMs को भाषा पर ही train किया गया है
  • benchmark results में सुधार और वास्तविक कामों में सुधार की कमी, LLMs की प्रकृति को दर्शाती है

    • LLMs predictive systems हैं, और अगर उन्हें किसी खास domain पर train किया जाए तो उस domain में उनका प्रदर्शन बेहतर होता है
    • यह उम्मीद नहीं की जाती कि advanced mathematics पर training देने से programming ability बेहतर हो जाएगी
  • मैंने वीकेंड पर gemini 2.5 इस्तेमाल किया, और वह बहुत शानदार था

    • यह इस्तेमाल के उद्देश्य पर निर्भर करता है, और अभी भी यह स्पष्ट नहीं है कि LLMs हमें कहाँ ले जाएँगे
  • अगर LLM development अभी रुक भी जाए, तब भी हम अगले 10 साल तक इसके नए उपयोग खोजते रहेंगे

    • तकनीक इतनी तेजी से आगे बढ़ रही है कि उसके परिणाम डर पैदा करते हैं
    • उम्मीद है कि diminishing returns का point आएगा, लेकिन इस पर भरोसा नहीं है
  • LLMs और coding assistant plugins इस्तेमाल करने वाले व्यक्ति के रूप में, मुझे लगता है कि पिछले 12 महीनों में GPT/Claude खराब हुए हैं

    • मुझे लगता है कि models अब "काफी अच्छे" हैं, और अब सुधार tools और applications में दिखना चाहिए
    • मुझे लगता है कि MCP सही दिशा में एक अच्छा कदम है, लेकिन कुल मिलाकर मैं संशय में हूँ