- 53 प्रमुख AI मॉडल पर किए गए टेस्ट के नतीजों में पाया गया कि ज़्यादातर बुनियादी तर्क करने में विफल रहे
- सही जवाब ‘drive’ है, लेकिन 53 में से 42 मॉडलों ने ‘walk’ चुना
- Claude Opus 4.6, Gemini 3 सीरीज़, Grok-4 सहित केवल 5 मॉडलों ने 10 बार दोहराए गए टेस्ट में भी 100% एकसमान सही जवाब दिया
- GPT-5 ने 10 में से सिर्फ 7 बार सही जवाब दिया, इसलिए इसे औसत मानव सही उत्तर दर (71.5%) के समान स्तर का माना गया
- यह प्रयोग AI की एकसमान तर्क क्षमता की कमी और संदर्भ-आधारित निर्णय की सीमाओं को दिखाता है, और इसे सुधारने के लिए ‘context engineering’ के महत्व पर ज़ोर देता है
कार वॉश टेस्ट का अवलोकन
- टेस्ट एक सवाल पर आधारित था: “अगर कार वॉश 50m दूर है, तो पैदल जाएंगे या ड्राइव करेंगे?”
- सही जवाब ‘drive’ है, क्योंकि कार धोनी है तो कार का कार वॉश पर होना ज़रूरी है
- Opper के LLM Gateway के माध्यम से 53 मॉडलों का एक ही शर्तों पर मूल्यांकन किया गया
- बिना system prompt के, ‘walk’ या ‘drive’ में से एक को चुनना अनिवार्य किया गया
- हर मॉडल पर 1 बार टेस्ट के बाद, 10 बार दोहराकर एकरूपता की जाँच की गई
पहला सिंगल-रन परिणाम
- 53 में से सिर्फ 11 मॉडल सही (drive) थे, जबकि 42 मॉडल गलत (walk) थे
- सही जवाब देने वाले मॉडल: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral जैसी प्रमुख फैमिली के बीच प्रदर्शन का अंतर देखा गया
- Anthropic: 1/9 (सिर्फ Opus 4.6 सही)
- OpenAI: 1/12 (सिर्फ GPT-5 सही)
- Meta(Llama), Mistral, DeepSeek आदि सभी विफल रहे
- अधिकांश गलत जवाबों का कारण दूरी-केंद्रित heuristic error था: “50m छोटी दूरी है, इसलिए पैदल जाना अधिक कुशल है”
- कुछ मॉडलों ने सही जवाब दिया, लेकिन अतार्किक कारण दिए
- उदाहरण: Perplexity Sonar ने दावा किया कि “पैदल चलने में भोजन उत्पादन की ऊर्जा ज़्यादा लगती है, इसलिए प्रदूषण और बढ़ता है”
दूसरा 10-बार दोहराया गया टेस्ट
- कुल 530 कॉल के परिणाम में, एकसमान सही उत्तर दर और भी कम निकली
- 10/10 सही मॉडल (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- 8/10 सही मॉडल (2): GLM-5, Grok-4-1 Reasoning
- GPT-5 ने 7/10 सही दिए, बाकी 3 बार उसने ईंधन दक्षता और पर्यावरण तर्क के आधार पर गलत जवाब दिया
- 33 मॉडल 10 में 10 बार गलत रहे, जिनमें GPT-4.1, GPT-5.1, Llama, Mistral आदि शामिल हैं
- कुछ मॉडल पहली कोशिश में सही थे, लेकिन दोहराने पर नतीजे अस्थिर रहे
- Sonar: 1 बार सही → 10 बार सभी गलत
- Kimi K2.5: 5 बार सही, 5 बार गलत
- GLM-4.7: 1 बार गलत → 10 में 6 बार सही होकर सुधार
मानव तुलना प्रयोग
- Rapidata प्लेटफ़ॉर्म के ज़रिए 10,000 लोगों से वही सवाल पूछा गया
- 71.5% ने ‘drive’ चुना, जिसे औसत मानव सही उत्तर दर माना गया
- GPT-5 की 70% सही उत्तर दर मानव औसत के क़रीब है
- 53 मॉडलों में से सिर्फ 7 मॉडल मानव औसत से बेहतर रहे, जबकि बाकी 46 मॉडल इंसानों से कमजोर प्रदर्शन वाले थे
प्रमुख तर्क उदाहरण
- GLM-4.7 Flash: “अगर पैदल जाओगे, तो कार को धक्का देना या उठाकर ले जाना पड़ेगा, इसलिए यह संभव नहीं” — इस तरह स्पष्ट तर्क दिया
- Claude Sonnet 4.5: “अगर यह automated car wash है, तो drive करना ज़रूरी है” यह समझा, लेकिन अंतिम जवाब ‘walk’ चुना
- Gemini 2.5 Pro: सही होने पर “कार धोने के लिए कार का कार वॉश पर होना ज़रूरी है” ठीक से लिखा, और गलत होने पर “50m छोटी दूरी है” वाला तर्क इस्तेमाल किया
AI विश्वसनीयता की समस्या
- एक ही तर्क-चरण वाले सरल सवाल के बावजूद 53 में से सिर्फ 5 मॉडल पूरी तरह सही रहे
- विफलता के प्रकार तीन भागों में बाँटे गए
- हमेशा गलत (33): दूरी-केंद्रित heuristic में फँसे रहे
- कभी-कभी सही (15): तर्क क्षमता थी, लेकिन एकरूपता की कमी
- हमेशा सही (5): संदर्भात्मक तर्क ने heuristic को लगातार पार किया
- इतना सरल सवाल होने पर भी 90% मॉडल विफल रहे, यह वास्तविक business logic या multi-step reasoning में जोखिम का संकेत देता है
context engineering की भूमिका
- यह टेस्ट ‘zero context’ वातावरण में किया गया, ताकि मॉडल की शुद्ध तर्क क्षमता को परखा जा सके
- कई मॉडलों की विफलता का कारण था कि heuristic, संदर्भात्मक तर्क पर हावी हो गया
- context engineering उदाहरण, domain pattern और संबंधित जानकारी देकर ऐसी गलतियों को कम करता है
- Opper के अलग प्रयोग में, छोटे open model में context जोड़ने पर 98.6% लागत बचत के साथ बड़े मॉडल-स्तर की गुणवत्ता हासिल हुई
- कार वॉश समस्या सरल है, लेकिन वास्तविक काम में अस्पष्टता और domain knowledge की ज़रूरत होती है, इसलिए context design अनिवार्य है
प्रयोग पद्धति
- सभी मॉडलों को Opper LLM Gateway के माध्यम से एक ही prompt से टेस्ट किया गया
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- कोई system prompt नहीं, ‘drive’ या ‘walk’ में से एक का अनिवार्य चयन
- single run (1 बार) और 10 बार दोहराव (कुल 530 कॉल) किया गया, और सभी कॉल लॉग और reasoning text सहेजे गए
- मानव तुलना समूह के लिए Rapidata के माध्यम से 10,000 लोगों पर उसी फ़ॉर्मेट में सर्वे किया गया
- पूरा डेटा JSON फ़ॉर्मेट में सार्वजनिक किया गया
- single run result, 10-repeat result, और human result अलग-अलग डाउनलोड किए जा सकते हैं
अभी कोई टिप्पणी नहीं है.