10 पॉइंट द्वारा GN⁺ 2026-02-25 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • 53 प्रमुख AI मॉडल पर किए गए टेस्ट के नतीजों में पाया गया कि ज़्यादातर बुनियादी तर्क करने में विफल रहे
  • सही जवाब ‘drive’ है, लेकिन 53 में से 42 मॉडलों ने ‘walk’ चुना
  • Claude Opus 4.6, Gemini 3 सीरीज़, Grok-4 सहित केवल 5 मॉडलों ने 10 बार दोहराए गए टेस्ट में भी 100% एकसमान सही जवाब दिया
  • GPT-5 ने 10 में से सिर्फ 7 बार सही जवाब दिया, इसलिए इसे औसत मानव सही उत्तर दर (71.5%) के समान स्तर का माना गया
  • यह प्रयोग AI की एकसमान तर्क क्षमता की कमी और संदर्भ-आधारित निर्णय की सीमाओं को दिखाता है, और इसे सुधारने के लिए ‘context engineering’ के महत्व पर ज़ोर देता है

कार वॉश टेस्ट का अवलोकन

  • टेस्ट एक सवाल पर आधारित था: “अगर कार वॉश 50m दूर है, तो पैदल जाएंगे या ड्राइव करेंगे?”
    • सही जवाब ‘drive’ है, क्योंकि कार धोनी है तो कार का कार वॉश पर होना ज़रूरी है
  • Opper के LLM Gateway के माध्यम से 53 मॉडलों का एक ही शर्तों पर मूल्यांकन किया गया
    • बिना system prompt के, ‘walk’ या ‘drive’ में से एक को चुनना अनिवार्य किया गया
    • हर मॉडल पर 1 बार टेस्ट के बाद, 10 बार दोहराकर एकरूपता की जाँच की गई

पहला सिंगल-रन परिणाम

  • 53 में से सिर्फ 11 मॉडल सही (drive) थे, जबकि 42 मॉडल गलत (walk) थे
  • सही जवाब देने वाले मॉडल: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
  • Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral जैसी प्रमुख फैमिली के बीच प्रदर्शन का अंतर देखा गया
    • Anthropic: 1/9 (सिर्फ Opus 4.6 सही)
    • OpenAI: 1/12 (सिर्फ GPT-5 सही)
    • Meta(Llama), Mistral, DeepSeek आदि सभी विफल रहे
  • अधिकांश गलत जवाबों का कारण दूरी-केंद्रित heuristic error था: “50m छोटी दूरी है, इसलिए पैदल जाना अधिक कुशल है”
  • कुछ मॉडलों ने सही जवाब दिया, लेकिन अतार्किक कारण दिए
    • उदाहरण: Perplexity Sonar ने दावा किया कि “पैदल चलने में भोजन उत्पादन की ऊर्जा ज़्यादा लगती है, इसलिए प्रदूषण और बढ़ता है”

दूसरा 10-बार दोहराया गया टेस्ट

  • कुल 530 कॉल के परिणाम में, एकसमान सही उत्तर दर और भी कम निकली
  • 10/10 सही मॉडल (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
  • 8/10 सही मॉडल (2): GLM-5, Grok-4-1 Reasoning
  • GPT-5 ने 7/10 सही दिए, बाकी 3 बार उसने ईंधन दक्षता और पर्यावरण तर्क के आधार पर गलत जवाब दिया
  • 33 मॉडल 10 में 10 बार गलत रहे, जिनमें GPT-4.1, GPT-5.1, Llama, Mistral आदि शामिल हैं
  • कुछ मॉडल पहली कोशिश में सही थे, लेकिन दोहराने पर नतीजे अस्थिर रहे
    • Sonar: 1 बार सही → 10 बार सभी गलत
    • Kimi K2.5: 5 बार सही, 5 बार गलत
    • GLM-4.7: 1 बार गलत → 10 में 6 बार सही होकर सुधार

मानव तुलना प्रयोग

  • Rapidata प्लेटफ़ॉर्म के ज़रिए 10,000 लोगों से वही सवाल पूछा गया
    • 71.5% ने ‘drive’ चुना, जिसे औसत मानव सही उत्तर दर माना गया
  • GPT-5 की 70% सही उत्तर दर मानव औसत के क़रीब है
  • 53 मॉडलों में से सिर्फ 7 मॉडल मानव औसत से बेहतर रहे, जबकि बाकी 46 मॉडल इंसानों से कमजोर प्रदर्शन वाले थे

प्रमुख तर्क उदाहरण

  • GLM-4.7 Flash: “अगर पैदल जाओगे, तो कार को धक्का देना या उठाकर ले जाना पड़ेगा, इसलिए यह संभव नहीं” — इस तरह स्पष्ट तर्क दिया
  • Claude Sonnet 4.5: “अगर यह automated car wash है, तो drive करना ज़रूरी है” यह समझा, लेकिन अंतिम जवाब ‘walk’ चुना
  • Gemini 2.5 Pro: सही होने पर “कार धोने के लिए कार का कार वॉश पर होना ज़रूरी है” ठीक से लिखा, और गलत होने पर “50m छोटी दूरी है” वाला तर्क इस्तेमाल किया

AI विश्वसनीयता की समस्या

  • एक ही तर्क-चरण वाले सरल सवाल के बावजूद 53 में से सिर्फ 5 मॉडल पूरी तरह सही रहे
  • विफलता के प्रकार तीन भागों में बाँटे गए
    • हमेशा गलत (33): दूरी-केंद्रित heuristic में फँसे रहे
    • कभी-कभी सही (15): तर्क क्षमता थी, लेकिन एकरूपता की कमी
    • हमेशा सही (5): संदर्भात्मक तर्क ने heuristic को लगातार पार किया
  • इतना सरल सवाल होने पर भी 90% मॉडल विफल रहे, यह वास्तविक business logic या multi-step reasoning में जोखिम का संकेत देता है

context engineering की भूमिका

  • यह टेस्ट ‘zero context’ वातावरण में किया गया, ताकि मॉडल की शुद्ध तर्क क्षमता को परखा जा सके
  • कई मॉडलों की विफलता का कारण था कि heuristic, संदर्भात्मक तर्क पर हावी हो गया
  • context engineering उदाहरण, domain pattern और संबंधित जानकारी देकर ऐसी गलतियों को कम करता है
    • Opper के अलग प्रयोग में, छोटे open model में context जोड़ने पर 98.6% लागत बचत के साथ बड़े मॉडल-स्तर की गुणवत्ता हासिल हुई
  • कार वॉश समस्या सरल है, लेकिन वास्तविक काम में अस्पष्टता और domain knowledge की ज़रूरत होती है, इसलिए context design अनिवार्य है

प्रयोग पद्धति

  • सभी मॉडलों को Opper LLM Gateway के माध्यम से एक ही prompt से टेस्ट किया गया
    • “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
    • कोई system prompt नहीं, ‘drive’ या ‘walk’ में से एक का अनिवार्य चयन
    • single run (1 बार) और 10 बार दोहराव (कुल 530 कॉल) किया गया, और सभी कॉल लॉग और reasoning text सहेजे गए
  • मानव तुलना समूह के लिए Rapidata के माध्यम से 10,000 लोगों पर उसी फ़ॉर्मेट में सर्वे किया गया
  • पूरा डेटा JSON फ़ॉर्मेट में सार्वजनिक किया गया
    • single run result, 10-repeat result, और human result अलग-अलग डाउनलोड किए जा सकते हैं

3 टिप्पणियां

 
armila 2026-02-26

Gemini Pro ने जवाब दिया कि,
अगर तुम कार को वहाँ ले जा सकते हो तो पैदल भी जा सकते हो, यह सुनकर मैं बहुत हँसा।

 
grenade 2026-02-27

काफ़ी मज़ेदार जवाब है lol

 
GN⁺ 2026-02-25
Hacker News की राय
  • यह दिलचस्प है कि इंसानी जवाबों का नतीजा ChatGPT से बिल्कुल मेल खाता है
    व्यावहारिक तौर पर इसका मतलब यह लगता है कि “इंसानी जवाब सेवा” लगभग खत्म हो चुकी है। आखिरकार लोग गुणवत्ता की परवाह किए बिना काम AI पर डालने का तरीका ढूँढ ही लेंगे

    • यह संयोग जैसा दिखता है, लेकिन वास्तव में इंसानी जवाब इस तरह इकट्ठे नहीं किए गए थे
      Rapidata, Duolingo या गेम ऐप जैसी जगहों में विज्ञापनों की जगह भागीदारी के लिए माइक्रो सर्वे जोड़ता है। उपयोगकर्ता सत्यापित लोग होते हैं, और सही जवाब देने के लिए कोई प्रोत्साहन नहीं होता
    • ChatGPT का बेस मॉडल GPT‑5.2 Instant है। इंसानी नतीजों से मेल खाने वाला GPT‑5 मॉडल था
      ऊपर वाली टिप्पणी की तरह बिना आधार वाले आत्मविश्वास से निष्कर्ष निकालना एक दिलचस्प घटना है
    • ऐसा पहले भी 3rd-party मानव कार्य सेवा में अक्सर होता रहा है
  • मैं ‘misguided attention’ तरह के सवालों से बना एक निजी evaluation set बनाए रखता हूँ
    इन समस्याओं का मूल तर्क की विफलता नहीं, बल्कि अस्पष्टता और context की कमी है। इंसान छिपी हुई पूर्वधारणाएँ भर देते हैं, लेकिन मॉडल ऐसा नहीं कर पाते
    “AI साधारण सवाल भी गलत कर देता है” वाले ज़्यादातर उदाहरण ऐसे वाक्य होते हैं जिन्हें सांख्यिकीय पक्षपात पैदा करने के लिए डिज़ाइन किया गया है। context थोड़ा सा बदलते ही नतीजा उलट जाता है
    यानी मॉडल की विफलता framing sensitivity की वजह से है, न कि तर्क क्षमता की कमी की वजह से

    • इसका मतलब तो आखिर यही हुआ कि AI बेकार है। अगर इसे किसी खास सवाल पर train करो, तो दूसरी चीज़ें बिगड़ जाती हैं। यह सिलसिला ऐसे ही चलता रहेगा
    • कुछ लोगों का कहना है कि “framing और distributional bias के प्रति संवेदनशील” कहना दरअसल तर्क क्षमता की कमी को घुमा-फिराकर कहना है
    • यह एक दिलचस्प set लगता है। अगर संभव हो तो क्या आप सवालों को साझा कर सकते हैं?
    • अच्छा होगा अगर वह evaluation set सार्वजनिक किया जाए, खासकर यह जानने के लिए कि सबसे दिलचस्प सवाल कौन सा है
  • इंसानी baseline का 71.5% आँकड़ा इस समस्या की अस्पष्टता दिखाता है
    “कार वॉश तक पैदल जाऊँ या ड्राइव करूँ” वाले सवाल को “क्या इतनी छोटी दूरी के लिए सच में ड्राइव करना चाहिए?” की तरह समझा जा सकता है। यानी यह सिर्फ़ साधारण logic का सवाल नहीं, बल्कि pragmatic interpretation का सवाल है

    • सवाल शुरू से अस्पष्ट नहीं है, बल्कि बातचीत की स्थिति खुद जानकारी की तरह काम करती है
      इंसान मानते हैं कि सवाल किसी वास्तविक स्थिति से आया है, और cooperative conversation के सिद्धांतों के अनुसार, Grice के cooperative principle के आधार पर उसकी व्याख्या करते हैं।
      इसलिए “यह कोई trap question है” समझने से पहले वे सोचते हैं, “पैदल जाने की कोई वजह होगी”
    • ऐसा 70:30 अनुपात दूसरे सामाजिक आँकड़ों में भी अक्सर दिखता है। हो सकता है कि बस 30% लोगों में तर्क क्षमता कम हो
    • लेकिन सवाल में “मैं अपनी कार धुलवाना चाहता हूँ। कार वॉश 50m दूर है।” शामिल है। यानी जानकारी काफ़ी स्पष्ट है
    • अगर Rapidata जैसी सेवाएँ Mechanical Turk जैसी हैं, तो संभव है कि जवाब देने वालों ने सवाल ठीक से पढ़ा ही न हो
    • समस्या यह थी कि “मैं अपनी कार धुलवाना चाहता हूँ” वाला पहला वाक्य छूट गया था
  • अगर Sonnet 4.6 मॉडल को पहले बता दिया जाए कि “तुम एक intelligence test में हो”, तो वह 100% सही जवाब देता है
    मॉडल इंसानी सवालों को वास्तविक स्थिति मान लेने की प्रवृत्ति रखते हैं, इसलिए यह टेस्ट है साफ़ बता देने से गलतियाँ कम हो जाती हैं
    coding agent में भी ऐसा ही दिखता है। सवाल पहले बेतुका लगे, लेकिन code files लोड करने पर समझ में आ जाता है

    • इस समस्या का असली सार तर्क/योजना की विफलता है। यह नतीजे की समीक्षा किए बिना जवाब देने की प्रवृत्ति की वजह से है
      वास्तविक समस्या-समाधान, जैसे software design, में भी यह बार-बार होता है।
      LLM अब भी pattern matching पर निर्भर हैं, और नतीजे के अर्थ का विश्लेषण नहीं करते
    • मैंने एक दिलचस्प प्रयोग किया: hint को शुरुआत में रखने पर 3/3 सही, अंत में रखने पर 1.5/3, और hint न होने पर 0/3 मिला
    • यह relevance की समस्या है। “टेस्ट चल रहा है” जैसी पंक्ति “context पर भरोसा मत करो” के संकेत की तरह काम करती है
      मॉडल आम तौर पर मानते हैं कि सवाल किसी वास्तविक स्थिति से आया है, इसलिए ऐसे implicit signals सिखाने से accuracy बढ़ सकती है, लेकिन friendliness कम हो सकती है
    • सिर्फ़ “Exam Question: {prompt}” जोड़ देने से भी ChatGPT सही जवाब देता है। लेकिन Llama3.3 या gpt‑oss‑120b फिर भी असफल रहते हैं
  • अगर सवाल के अंत में “अपनी assumptions जाँचो” जैसी पंक्ति जोड़ दी जाए, तो ज़्यादातर मॉडल सही जवाब दे देते हैं
    अगर सिर्फ़ एक साधारण पंक्ति से गलती गायब हो जाती है, तो अनुमान है कि AI provider इसे system prompt में इसलिए नहीं जोड़ते क्योंकि वे cost optimization कर रहे हैं
    संबंधित चर्चा पिछली टिप्पणी में संकलित है

    • मैंने भी Claude या Codex से काम के बाद “हमसे क्या छूट गया?” पूछने पर कई बार अतिरिक्त सुधार देखे हैं
  • Google Search में देखा गया “Car Wash Test” संवाद काफ़ी मज़ेदार था
    ज़्यादातर AI कहते हैं “50m है तो पैदल जाओ”, लेकिन सही जवाब है “कार को कार वॉश तक ले जाना है, इसलिए ड्राइव करना होगा”
    यह टेस्ट pattern matching और वास्तविक reasoning के अंतर को दिखाने वाला उदाहरण है

    • LLM कभी-कभी शब्द संख्या पूरी करते किसी हाई स्कूल निबंध की तरह बेवजह लंबा बोलते हैं
    • सोचने वाली बात है कि Google Search का LLM सच में ज़्यादा स्मार्ट हुआ है, या बस नए ट्रेंड्स के प्रति ज़्यादा संवेदनशील हुआ है
    • Gemini का जवाब भी मज़ेदार था। उसने इसे “efficiency vs logic की dilemma” कहा, और समझाया कि “अगर पैदल जाओगे तो बाद में कार लेने वापस आना पड़ेगा, इसलिए ड्राइव करना सही है”
    • पहले LLM से तारीख पूछो तो वह training cutoff के समय की तारीख बता देता था, लेकिन अब वह वास्तविक तारीख बताता है। यानी वह web search का इस्तेमाल कर रहा है
  • Rapidata से मिले इंसानी baseline में 71.5% ने ‘ड्राइव’ चुना
    सही जवाब तो “कार कहाँ है?” पूछने वाला clarifying question है।
    लेकिन ChatGPT से “मेरी कार कार वॉश से 50m दूर है” कहने पर भी वह अब भी गलत जवाब देता है

    • “कार कहाँ है?” कोई clarifying question नहीं, बल्कि पहले से ही संभव विकल्पों में शामिल पूर्वधारणा है
    • Rapidata के जवाब देने वालों में 30% bot भी हो सकते हैं
    • Rapidata 3,000 से ज़्यादा ऐप्स में integrated है, और इसमें 1 करोड़ से अधिक उपयोगकर्ता भाग लेते हैं। यह दुनिया के 160 देशों से real-time जवाब लेता है
    • एक रचनात्मक विकल्प यह भी है: “हिलो मत, कार वॉश को ही बुला लो।” कम-से-कम कार छोड़कर पैदल जाने से तो यह ज़्यादा तर्कसंगत है
    • Claude, “क्या spark plug बदलवाने के लिए 200m दूर मैकेनिक के पास जाऊँ?” जैसे सवाल पर भी “पैदल जाओ” कहता है। यानी यह context collapse की समस्या है
  • यह सवाल इतना सरल नहीं है। बुद्धिमान व्यक्ति सोचेगा कि कोई ऐसा सवाल क्यों पूछ रहा है, क्या कहीं context छूटा हुआ तो नहीं है
    इसलिए सही जवाब “ड्राइव” या “पैदल” नहीं, बल्कि “कृपया सवाल स्पष्ट करें” भी हो सकता है

    • थोड़ा सा अतिरिक्त context जोड़ने भर से मॉडल का प्रदर्शन बहुत सुधर जाता है। उदाहरण के लिए, “कार वॉश वह इमारत है जिससे कार को होकर गुजरना होता है” जैसा स्पष्ट करना काफ़ी है
      संबंधित उदाहरण Rain‑x car wash liquid image
    • ऐसे सवाल इतने स्पष्ट होते हैं कि इंसान को trap होने का शक हो जाता है
    • LLM तुरंत जवाब देना चाहते हैं, लेकिन इंसान पहले clarifying question पूछते हैं
    • दरअसल यह शायद अंग्रेज़ी अभिव्यक्ति की परंपरा से जुड़ा मामला है। “आप कहाँ जाना चाहते हैं, यह बताएँ तभी मैं मदद कर सकता हूँ” जैसी प्रतिक्रिया स्वाभाविक लगती है
    • ज़्यादातर लोग “ड्राइव?” कहकर इसे मज़ाक समझकर टाल देंगे
  • Sonnet 4.6 मॉडल का common sense score ऊँचा है, लेकिन Opus से छोटा है
    Opus 4.6 Extended Reasoning mode में “पैदल जाओ” जवाब आया, जबकि लेखक कहता है कि उसे 10/10 सही मिले।
    शायद ऐप की memory feature prompt में अपने-आप insert हो रही थी और reasoning में बाधा डाल रही थी। memory और bio जानकारी बंद करने पर जवाब “ड्राइव करो” में बदल गया
    यानी छिपे हुए pre-prompt मॉडल की reasoning को बिगाड़ सकते हैं

    • मैंने भी Opus 4.6 रिलीज़ वाले दिन इसका टेस्ट किया था, और यह तब भी असफल रहा। paid subscriber होने पर भी मॉडल की गुणवत्ता में फ़र्क बना रहता है
    • Opus 4.6 के model card के अनुसार, कभी-कभी ज़रूरत से ज़्यादा reasoning effort गलत जवाब को सही ठहराने लगता है। लगता है RL training के दौरान यह ज़्यादा गरम हो गया
    • Sonnet 4.6 समेत 9 Claude models का टेस्ट किया गया था, और नतीजे लिंक गैलरी में देखे जा सकते हैं