- 53 प्रमुख AI मॉडल पर किए गए टेस्ट के नतीजों में पाया गया कि ज़्यादातर बुनियादी तर्क करने में विफल रहे
- सही जवाब ‘drive’ है, लेकिन 53 में से 42 मॉडलों ने ‘walk’ चुना
- Claude Opus 4.6, Gemini 3 सीरीज़, Grok-4 सहित केवल 5 मॉडलों ने 10 बार दोहराए गए टेस्ट में भी 100% एकसमान सही जवाब दिया
- GPT-5 ने 10 में से सिर्फ 7 बार सही जवाब दिया, इसलिए इसे औसत मानव सही उत्तर दर (71.5%) के समान स्तर का माना गया
- यह प्रयोग AI की एकसमान तर्क क्षमता की कमी और संदर्भ-आधारित निर्णय की सीमाओं को दिखाता है, और इसे सुधारने के लिए ‘context engineering’ के महत्व पर ज़ोर देता है
कार वॉश टेस्ट का अवलोकन
- टेस्ट एक सवाल पर आधारित था: “अगर कार वॉश 50m दूर है, तो पैदल जाएंगे या ड्राइव करेंगे?”
- सही जवाब ‘drive’ है, क्योंकि कार धोनी है तो कार का कार वॉश पर होना ज़रूरी है
- Opper के LLM Gateway के माध्यम से 53 मॉडलों का एक ही शर्तों पर मूल्यांकन किया गया
- बिना system prompt के, ‘walk’ या ‘drive’ में से एक को चुनना अनिवार्य किया गया
- हर मॉडल पर 1 बार टेस्ट के बाद, 10 बार दोहराकर एकरूपता की जाँच की गई
पहला सिंगल-रन परिणाम
- 53 में से सिर्फ 11 मॉडल सही (drive) थे, जबकि 42 मॉडल गलत (walk) थे
- सही जवाब देने वाले मॉडल: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral जैसी प्रमुख फैमिली के बीच प्रदर्शन का अंतर देखा गया
- Anthropic: 1/9 (सिर्फ Opus 4.6 सही)
- OpenAI: 1/12 (सिर्फ GPT-5 सही)
- Meta(Llama), Mistral, DeepSeek आदि सभी विफल रहे
- अधिकांश गलत जवाबों का कारण दूरी-केंद्रित heuristic error था: “50m छोटी दूरी है, इसलिए पैदल जाना अधिक कुशल है”
- कुछ मॉडलों ने सही जवाब दिया, लेकिन अतार्किक कारण दिए
- उदाहरण: Perplexity Sonar ने दावा किया कि “पैदल चलने में भोजन उत्पादन की ऊर्जा ज़्यादा लगती है, इसलिए प्रदूषण और बढ़ता है”
दूसरा 10-बार दोहराया गया टेस्ट
- कुल 530 कॉल के परिणाम में, एकसमान सही उत्तर दर और भी कम निकली
- 10/10 सही मॉडल (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- 8/10 सही मॉडल (2): GLM-5, Grok-4-1 Reasoning
- GPT-5 ने 7/10 सही दिए, बाकी 3 बार उसने ईंधन दक्षता और पर्यावरण तर्क के आधार पर गलत जवाब दिया
- 33 मॉडल 10 में 10 बार गलत रहे, जिनमें GPT-4.1, GPT-5.1, Llama, Mistral आदि शामिल हैं
- कुछ मॉडल पहली कोशिश में सही थे, लेकिन दोहराने पर नतीजे अस्थिर रहे
- Sonar: 1 बार सही → 10 बार सभी गलत
- Kimi K2.5: 5 बार सही, 5 बार गलत
- GLM-4.7: 1 बार गलत → 10 में 6 बार सही होकर सुधार
मानव तुलना प्रयोग
- Rapidata प्लेटफ़ॉर्म के ज़रिए 10,000 लोगों से वही सवाल पूछा गया
- 71.5% ने ‘drive’ चुना, जिसे औसत मानव सही उत्तर दर माना गया
- GPT-5 की 70% सही उत्तर दर मानव औसत के क़रीब है
- 53 मॉडलों में से सिर्फ 7 मॉडल मानव औसत से बेहतर रहे, जबकि बाकी 46 मॉडल इंसानों से कमजोर प्रदर्शन वाले थे
प्रमुख तर्क उदाहरण
- GLM-4.7 Flash: “अगर पैदल जाओगे, तो कार को धक्का देना या उठाकर ले जाना पड़ेगा, इसलिए यह संभव नहीं” — इस तरह स्पष्ट तर्क दिया
- Claude Sonnet 4.5: “अगर यह automated car wash है, तो drive करना ज़रूरी है” यह समझा, लेकिन अंतिम जवाब ‘walk’ चुना
- Gemini 2.5 Pro: सही होने पर “कार धोने के लिए कार का कार वॉश पर होना ज़रूरी है” ठीक से लिखा, और गलत होने पर “50m छोटी दूरी है” वाला तर्क इस्तेमाल किया
AI विश्वसनीयता की समस्या
- एक ही तर्क-चरण वाले सरल सवाल के बावजूद 53 में से सिर्फ 5 मॉडल पूरी तरह सही रहे
- विफलता के प्रकार तीन भागों में बाँटे गए
- हमेशा गलत (33): दूरी-केंद्रित heuristic में फँसे रहे
- कभी-कभी सही (15): तर्क क्षमता थी, लेकिन एकरूपता की कमी
- हमेशा सही (5): संदर्भात्मक तर्क ने heuristic को लगातार पार किया
- इतना सरल सवाल होने पर भी 90% मॉडल विफल रहे, यह वास्तविक business logic या multi-step reasoning में जोखिम का संकेत देता है
context engineering की भूमिका
- यह टेस्ट ‘zero context’ वातावरण में किया गया, ताकि मॉडल की शुद्ध तर्क क्षमता को परखा जा सके
- कई मॉडलों की विफलता का कारण था कि heuristic, संदर्भात्मक तर्क पर हावी हो गया
- context engineering उदाहरण, domain pattern और संबंधित जानकारी देकर ऐसी गलतियों को कम करता है
- Opper के अलग प्रयोग में, छोटे open model में context जोड़ने पर 98.6% लागत बचत के साथ बड़े मॉडल-स्तर की गुणवत्ता हासिल हुई
- कार वॉश समस्या सरल है, लेकिन वास्तविक काम में अस्पष्टता और domain knowledge की ज़रूरत होती है, इसलिए context design अनिवार्य है
प्रयोग पद्धति
- सभी मॉडलों को Opper LLM Gateway के माध्यम से एक ही prompt से टेस्ट किया गया
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- कोई system prompt नहीं, ‘drive’ या ‘walk’ में से एक का अनिवार्य चयन
- single run (1 बार) और 10 बार दोहराव (कुल 530 कॉल) किया गया, और सभी कॉल लॉग और reasoning text सहेजे गए
- मानव तुलना समूह के लिए Rapidata के माध्यम से 10,000 लोगों पर उसी फ़ॉर्मेट में सर्वे किया गया
- पूरा डेटा JSON फ़ॉर्मेट में सार्वजनिक किया गया
- single run result, 10-repeat result, और human result अलग-अलग डाउनलोड किए जा सकते हैं
3 टिप्पणियां
Gemini Pro ने जवाब दिया कि,
अगर तुम कार को वहाँ ले जा सकते हो तो पैदल भी जा सकते हो, यह सुनकर मैं बहुत हँसा।
काफ़ी मज़ेदार जवाब है lol
Hacker News की राय
यह दिलचस्प है कि इंसानी जवाबों का नतीजा ChatGPT से बिल्कुल मेल खाता है
व्यावहारिक तौर पर इसका मतलब यह लगता है कि “इंसानी जवाब सेवा” लगभग खत्म हो चुकी है। आखिरकार लोग गुणवत्ता की परवाह किए बिना काम AI पर डालने का तरीका ढूँढ ही लेंगे
Rapidata, Duolingo या गेम ऐप जैसी जगहों में विज्ञापनों की जगह भागीदारी के लिए माइक्रो सर्वे जोड़ता है। उपयोगकर्ता सत्यापित लोग होते हैं, और सही जवाब देने के लिए कोई प्रोत्साहन नहीं होता
ऊपर वाली टिप्पणी की तरह बिना आधार वाले आत्मविश्वास से निष्कर्ष निकालना एक दिलचस्प घटना है
मैं ‘misguided attention’ तरह के सवालों से बना एक निजी evaluation set बनाए रखता हूँ
इन समस्याओं का मूल तर्क की विफलता नहीं, बल्कि अस्पष्टता और context की कमी है। इंसान छिपी हुई पूर्वधारणाएँ भर देते हैं, लेकिन मॉडल ऐसा नहीं कर पाते
“AI साधारण सवाल भी गलत कर देता है” वाले ज़्यादातर उदाहरण ऐसे वाक्य होते हैं जिन्हें सांख्यिकीय पक्षपात पैदा करने के लिए डिज़ाइन किया गया है। context थोड़ा सा बदलते ही नतीजा उलट जाता है
यानी मॉडल की विफलता framing sensitivity की वजह से है, न कि तर्क क्षमता की कमी की वजह से
इंसानी baseline का 71.5% आँकड़ा इस समस्या की अस्पष्टता दिखाता है
“कार वॉश तक पैदल जाऊँ या ड्राइव करूँ” वाले सवाल को “क्या इतनी छोटी दूरी के लिए सच में ड्राइव करना चाहिए?” की तरह समझा जा सकता है। यानी यह सिर्फ़ साधारण logic का सवाल नहीं, बल्कि pragmatic interpretation का सवाल है
इंसान मानते हैं कि सवाल किसी वास्तविक स्थिति से आया है, और cooperative conversation के सिद्धांतों के अनुसार, Grice के cooperative principle के आधार पर उसकी व्याख्या करते हैं।
इसलिए “यह कोई trap question है” समझने से पहले वे सोचते हैं, “पैदल जाने की कोई वजह होगी”
अगर Sonnet 4.6 मॉडल को पहले बता दिया जाए कि “तुम एक intelligence test में हो”, तो वह 100% सही जवाब देता है
मॉडल इंसानी सवालों को वास्तविक स्थिति मान लेने की प्रवृत्ति रखते हैं, इसलिए यह टेस्ट है साफ़ बता देने से गलतियाँ कम हो जाती हैं
coding agent में भी ऐसा ही दिखता है। सवाल पहले बेतुका लगे, लेकिन code files लोड करने पर समझ में आ जाता है
वास्तविक समस्या-समाधान, जैसे software design, में भी यह बार-बार होता है।
LLM अब भी pattern matching पर निर्भर हैं, और नतीजे के अर्थ का विश्लेषण नहीं करते
मॉडल आम तौर पर मानते हैं कि सवाल किसी वास्तविक स्थिति से आया है, इसलिए ऐसे implicit signals सिखाने से accuracy बढ़ सकती है, लेकिन friendliness कम हो सकती है
अगर सवाल के अंत में “अपनी assumptions जाँचो” जैसी पंक्ति जोड़ दी जाए, तो ज़्यादातर मॉडल सही जवाब दे देते हैं
अगर सिर्फ़ एक साधारण पंक्ति से गलती गायब हो जाती है, तो अनुमान है कि AI provider इसे system prompt में इसलिए नहीं जोड़ते क्योंकि वे cost optimization कर रहे हैं
संबंधित चर्चा पिछली टिप्पणी में संकलित है
Google Search में देखा गया “Car Wash Test” संवाद काफ़ी मज़ेदार था
ज़्यादातर AI कहते हैं “50m है तो पैदल जाओ”, लेकिन सही जवाब है “कार को कार वॉश तक ले जाना है, इसलिए ड्राइव करना होगा”
यह टेस्ट pattern matching और वास्तविक reasoning के अंतर को दिखाने वाला उदाहरण है
Rapidata से मिले इंसानी baseline में 71.5% ने ‘ड्राइव’ चुना
सही जवाब तो “कार कहाँ है?” पूछने वाला clarifying question है।
लेकिन ChatGPT से “मेरी कार कार वॉश से 50m दूर है” कहने पर भी वह अब भी गलत जवाब देता है
यह सवाल इतना सरल नहीं है। बुद्धिमान व्यक्ति सोचेगा कि कोई ऐसा सवाल क्यों पूछ रहा है, क्या कहीं context छूटा हुआ तो नहीं है
इसलिए सही जवाब “ड्राइव” या “पैदल” नहीं, बल्कि “कृपया सवाल स्पष्ट करें” भी हो सकता है
संबंधित उदाहरण Rain‑x car wash liquid image
Sonnet 4.6 मॉडल का common sense score ऊँचा है, लेकिन Opus से छोटा है
Opus 4.6 Extended Reasoning mode में “पैदल जाओ” जवाब आया, जबकि लेखक कहता है कि उसे 10/10 सही मिले।
शायद ऐप की memory feature prompt में अपने-आप insert हो रही थी और reasoning में बाधा डाल रही थी। memory और bio जानकारी बंद करने पर जवाब “ड्राइव करो” में बदल गया
यानी छिपे हुए pre-prompt मॉडल की reasoning को बिगाड़ सकते हैं