- दुनिया भर के 42 शोधकर्ताओं की भागीदारी वाले Oxford Internet Institute (OII) के नेतृत्व में किए गए एक बड़े अध्ययन ने पुष्टि की कि large language model (LLM) मूल्यांकन में उपयोग होने वाले benchmarks में वैज्ञानिक कठोरता की कमी है
- 445 AI benchmarks की समीक्षा में पाया गया कि आधे से अधिक में अवधारणाओं की परिभाषाएँ अस्पष्ट थीं या विश्लेषण के तरीके कमजोर थे, जिससे विश्वसनीय निष्कर्ष निकालना कठिन बनाने वाली संरचना सामने आई
- समीक्षा किए गए अध्ययनों में सिर्फ 16% ने सांख्यिकीय तरीकों का उपयोग किया, और ‘reasoning’ या ‘harmlessness’ जैसी अमूर्त अवधारणाओं को कई मामलों में स्पष्ट रूप से परिभाषित नहीं किया गया था
- शोधकर्ताओं ने परिभाषाओं की स्पष्टता, प्रतिनिधिक मूल्यांकन, सांख्यिकीय विश्लेषण को मजबूत करने सहित 8 सुधारात्मक सिफारिशें पेश कीं और इसके लिए Construct Validity Checklist टूल जारी किया
- AI benchmarks की वैज्ञानिक वैधता सुनिश्चित करना अब AI तकनीक के विकास और नियामकीय विश्वसनीयता का एक केंद्रीय प्रश्न बनकर उभरा है
अध्ययन का अवलोकन
- यह अध्ययन Oxford Internet Institute (OII) के नेतृत्व में किया गया, जिसमें EPFL, Stanford, TUM, UC Berkeley, Yale सहित प्रमुख संस्थानों ने भाग लिया
- पेपर का शीर्षक Measuring What Matters: Construct Validity in Large Language Model Benchmarks है, और इसे NeurIPS 2025 में प्रस्तुत किया जाना निर्धारित है
- अध्ययन ने 445 AI benchmarks की व्यवस्थित समीक्षा कर मूल्यांकन मानकों की वैज्ञानिक वैधता का विश्लेषण किया
प्रमुख निष्कर्ष
- सांख्यिकीय कठोरता की कमी: समीक्षा किए गए अध्ययनों में सिर्फ 16% ने सांख्यिकीय तुलना की विधियों का उपयोग किया
- मॉडलों के बीच प्रदर्शन अंतर या श्रेष्ठता के दावे संयोगवश मिले परिणाम होने की संभावना रखते हैं
- अस्पष्ट या विवादित परिभाषाएँ: लगभग आधे benchmarks ने ‘reasoning’, ‘harmlessness’ जैसी अमूर्त अवधारणाओं को स्पष्ट रूप से परिभाषित नहीं किया
- स्पष्ट अवधारणा-परिभाषा के अभाव में मूल्यांकन के उद्देश्य और वास्तविक मापन के बीच असंगति पैदा होती है
समस्या के उदाहरण
- फ़ॉर्मैट नियमों का भ्रम: यदि किसी सरल logic puzzle को हल करते समय उत्तर को जटिल फ़ॉर्मैट में जमा करना जरूरी हो, तो सही उत्तर देने पर भी फ़ॉर्मैट त्रुटि के कारण असफल माना जा सकता है
- नाज़ुक प्रदर्शन: सरल गणित प्रश्नों में अच्छा प्रदर्शन करने के बावजूद, संख्या या वाक्य संरचना में थोड़ा सा बदलाव होने पर विफल होने के मामले मौजूद हैं
- बिना आधार के दावे: medical exam के सवालों में ऊँचे अंक मिलने को डॉक्टर-स्तर की विशेषज्ञता समझ लेने की गलतफहमी हो सकती है
सुधार के लिए सिफारिशें
- शोधकर्ताओं का मानना है कि इन समस्याओं का समाधान संभव है, और उन्होंने psychometrics और medicine क्षेत्र की validation methodology का संदर्भ लेते हुए 8 सिफारिशें दीं
- परिभाषित करें और अलग करें (Define and isolate) : मापी जाने वाली अवधारणा को स्पष्ट रूप से परिभाषित करें और असंबंधित कारकों को नियंत्रित करें
- प्रतिनिधिक मूल्यांकन तैयार करें (Build representative evaluations) : वास्तविक वातावरण को प्रतिबिंबित करें और लक्षित कौशल के पूरे दायरे को शामिल करें
- विश्लेषण और औचित्य को मजबूत करें (Strengthen analysis and justification) : सांख्यिकीय अनिश्चितता की रिपोर्ट करें, error analysis करें, और benchmark की वैधता के समर्थन में तर्क प्रस्तुत करें
- Construct Validity Checklist के माध्यम से शोधकर्ता, डेवलपर और नियामक संस्थाएँ benchmark डिज़ाइन की वैधता को पहले से जाँच सकती हैं
अध्ययन का महत्व
- benchmarks AI अनुसंधान की दिशा, मॉडल प्रतिस्पर्धा, नीति और नियामकीय मानदंडों को तय करने वाले प्रमुख उपकरण की तरह काम करते हैं
- कमजोर वैज्ञानिक आधार वाले benchmarks से AI प्रदर्शन और सुरक्षा के बारे में गलतफहमियाँ पैदा होने का जोखिम है
- यह अध्ययन AI मूल्यांकन की विश्वसनीयता सुनिश्चित करने के लिए एक अंतरराष्ट्रीय सहयोग मॉडल के रूप में प्रस्तुत किया गया है
अतिरिक्त जानकारी
- पेपर को 2–7 दिसंबर 2025 के दौरान NeurIPS 2025 में प्रस्तुत किया जाना है
- अध्ययन को Clarendon Scholarship, ESRC, EPSRC, Meta LLM Evaluation Research Grant सहित कई संस्थानों का समर्थन मिला
- OII पिछले 25 वर्षों से artificial intelligence, digital platforms, autonomous systems जैसी नई तकनीकों के सामाजिक प्रभावों पर शोध करता आया है
1 टिप्पणियां
Hacker News राय
मैं एक रिसर्च लैब में LLM benchmark और human evaluation पर काम करता हूँ
सच कहूँ तो अभी यह क्षेत्र पूरी तरह वाइल्ड वेस्ट जैसा है। कोई ठोस समाधान नहीं है, और शोधकर्ता भी सिर्फ benchmarking में ही उलझे नहीं रहना चाहते
आखिरकार product स्तर पर पारंपरिक A/B testing ही सबसे व्यावहारिक तरीका है। क्योंकि इससे direct metrics को बड़े पैमाने पर मापा जा सकता है
बेशक ‘benchmarketing’ जैसी चीज़ें भी हैं, लेकिन ज़्यादातर लोग सच में अच्छे benchmark बनाना चाहते हैं। बस यह बहुत मुश्किल है, या शायद असंभव
जबकि measurable metrics साफ़ हैं, फिर भी statistical processing बेहद खराब है। ज़्यादातर लोग सिर्फ averages का फ़र्क देखते हैं, और p-value की गणना पर भी भरोसा नहीं किया जा सकता
ऊपर से, असली workload performance के साथ correlation भी लगभग नहीं के बराबर है। production experiments में noise इतना ज़्यादा होता है कि नुकसान छूट जाना आसान है
AI में हालत और भी बदतर है। क्या मापना है वही अस्पष्ट है, और stock price के लिए noise मापने का incentive भी मौजूद है। ऐसे में LLM benchmark का खराब होना स्वाभाविक है
B सिर्फ ‘लोगों को बेवकूफ़ बनाकर’ भी ज़्यादा score ले सकता है। OpenAI के 4o मामले में यही साफ़ दिखा
थोड़ा उदार नज़रिए से देखें तो बात यह है कि intelligence itself को benchmark करना मुश्किल है। इंसानों की job fit भी standardized questions से ठीक से नहीं आंकी जा सकती, तो AI के साथ यह और कठिन है
मैं TTS(Text-to-Speech) क्षेत्र में काम करता हूँ, और यहाँ की स्थिति LLM से भी ज़्यादा अराजक है
डेमो तो परफेक्ट लगते हैं, लेकिन सैकड़ों मिनट की generation में volume drift, speed variation, और pronunciation errors लगातार आते रहते हैं
सबसे बड़ी समस्या यह है कि long-form speech synthesis के लिए कोई standard benchmark नहीं है
मैंने ऐसे मानदंडों का प्रस्ताव Death of Demo में लिखा है
मैंने Humanity’s Last Exam प्रोजेक्ट पर लिखा है
इसमें दुनिया भर के experts AI models की परीक्षा लेने के लिए कठिन प्रश्न crowdsourcing के ज़रिए जुटाते हैं
यह दिलचस्प था कि जो सवाल इंसानों के लिए आसान हैं, वे भी AI के लिए अब तक कठिन बने हुए हैं
आखिरकार मुझे लगता है कि AI learning का भविष्य real world(meatspace) के अनुभव और reasoning annotations पर निर्भर करेगा
मुझे benchmark SAT score जैसा लगता है। यह perfect prediction नहीं है, लेकिन एक मोटे signal के तौर पर काम का है
LLM meaningful direction में आगे बढ़ रहे हैं, और benchmark भी कुछ हद तक इसे दिखाते हैं
मौजूदा LLM boom में सबसे कमज़ोर कड़ी benchmark है
models के बीच तुलना लगभग pseudo-scientific स्तर की अव्यवस्था है
मैं LMArena leaderboard इस्तेमाल करता हूँ, लेकिन models के बीच results में ऐसा फ़र्क आता है जिसे समझाना मुश्किल है
prompt model version से बहुत मज़बूती से बँधा होता है, इसलिए जो GPT-4 में अच्छा चलता था, वह GPT-5 में टूट जाता है
इसलिए आजकल मेरा झुकाव बस Gemini इस्तेमाल करने की तरफ़ हो गया है
ऐसी feedback-based tuning LLM की overconfidence समस्या को और बदतर बनाती है
लेकिन users खुद evaluate नहीं करना चाहते और leaderboard-style ranking चाहते हैं
LLM को judge की तरह इस्तेमाल करने का तरीका भी है, लेकिन उसमें कुछ गड़बड़-सा लगता है
आखिरकार expert reviewer-based evaluation की ज़रूरत है, लेकिन इसकी लागत बहुत ज़्यादा है
individual developer स्तर पर खुद benchmark बनाना ही समाधान है
जिन code problems को आपने खुद हल किया है, उन्हीं के आधार पर tests बनाइए, और tok/s या TTFT जैसे metrics देखिए
आखिरकार user का खुद इस्तेमाल करके देखना ही सबसे व्यावहारिक evaluation है
एक व्यक्ति ने calculator के बिना होने वाली परीक्षा(AIME) के सवालों का उदाहरण देते हुए कहा कि छोटे numbers तक सीमित benchmark वास्तविक क्षमता नहीं दिखाते
लेकिन मेरा मानना है कि model का इंसानों की तरह exam tricks सीखना भी एक तरह की प्रगति है। यह human-like reasoning के ज़्यादा क़रीब है
मैं non-gamified evaluation चाहता हूँ। अभी यह बस एक स्मार्ट autocomplete जैसा है
किसी ने सुझाव दिया कि हम परेशान करने वाले bugs का Git repo बनाकर LLM को उस पर test करें
उदाहरण के लिए Yjs/CRDT bug को Claude Code, GPT5-codex, और GLM-4.6 से हल कराने की कोशिश की गई, लेकिन आखिर में सिर्फ workaround ही निकल पाया
frontend logs को backend में भेजकर AI को real-time में दिखाने के बाद ही कुछ प्रगति हुई
क्योंकि उन्हें सार्वजनिक करते ही वे training data में समा जाते हैं और बेअसर हो जाते हैं
ऐसे निजी benchmark बनाए रखने से models की वास्तविक प्रगति की गति कहीं अधिक ठंडे दिमाग़ से देखी जा सकती है
benchmark आखिरकार किसी खास संदर्भ का spec भर है। यह सिर्फ दिखाता है कि किसी खास परिस्थिति में code ठीक चलता है, हर स्थिति में नहीं
इसे LLM पर लागू करें तो बात होगी, “benchmark सिर्फ यह दिखाते हैं कि क्या संभव है, यह साबित नहीं करते कि क्या असंभव है”
इस शोध में 445 benchmarks की समीक्षा की गई, और कहा गया कि उनमें से ज़्यादातर में construct validity की कमी है
असली intelligence को मापना है तो novelty को evaluate करना होगा
पहले से देखे गए सवालों जैसे patterns हल करना सिर्फ memorization है
लेकिन सैकड़ों petabytes के training data से बचते हुए पूरी तरह नए सवाल बनाना लगभग असंभव है
इसलिए intelligence का illusion पैदा होता है
वास्तव में इन दोनों के बीच अनगिनत grey areas मौजूद हैं।
पूरी तरह नया problem भी हल करने के लिए कुछ न कुछ समानता तो होनी ही चाहिए