हालिया LLM में reasoning collapse दिखाने वाला एक सरल task

(arxiv.org)

3 पॉइंट द्वारा GN⁺ 2024-06-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

छोटी AIW समस्या भर से GPT-4, Claude 3 Opus जैसे हालिया LLM की generalization और basic reasoning काफी डगमगा सकती है
समस्या “Alice has N brothers and M sisters. How many sisters does Alice’s brother have?” के रूप में है, और सही उत्तर Alice तथा Alice की बहनों को मिलाकर M+1 है
N, M ≤ 7 के natural variations structure और difficulty नहीं बदलते, लेकिन GPT-4 के उदाहरण में Variation 3 की accuracy 0 के करीब और Variation 4 की 1 के करीब जैसी performance variability दिखती है
chain-of-thought prompting, recheck, self-verification, multi-turn interaction failure को भरोसेमंद तरीके से ठीक नहीं कर पाए, और गलत उत्तरों के साथ अक्सर plausible explanations और overconfidence जुड़ी हुई थीं
AIW Light control problems के नतीजे बताते हैं कि failure को केवल language parsing, family relation understanding, gender attribute binding, basic arithmetic से समझाना कठिन है; इसलिए मौजूदा standard benchmarks की generalization flaws detect करने की क्षमता पर फिर से विचार करना चाहिए

AIW समस्या से सामने आई simple reasoning failure

LLM को MMLU, HellaSwag, ARC, MATH, GSM8k जैसे standard benchmarks पर high scores मिलते रहे हैं, और उनकी generalization तथा reasoning क्षमता मजबूत मानी जाती रही है
इस आकलन को इस तरीके से verify किया गया कि complex benchmarks के बजाय क्या वही क्षमता ऐसे छोटे common-sense problem में भी बनी रहती है जिसे इंसान आसानी से हल कर सकते हैं
AIW problem template इस प्रकार है
- “Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?”
- माना जाता है कि सभी siblings के माता-पिता समान हैं
- Alice के भाई के पास जितनी बहनें हैं, वह Alice खुद और Alice की बहनों को मिलाकर M+1 है
problem variations N, M ≤ 7 के natural numbers बदलकर बनाए जाते हैं, और structure व difficulty बनी रहती है
- Variation 1: Alice has 3 brothers and 6 sisters → सही उत्तर 7
- Variation 2: Alice has 2 sisters and 4 brothers → सही उत्तर 3
- Variation 3: Alice has 4 sisters and 1 brother → सही उत्तर 5
- Variation 4: Alice has 4 brothers and 1 sister → सही उत्तर 2

Variations के हिसाब से बहुत बदलती accuracy

test किए गए हालिया LLM ने AIW problem और structure-preserving variations में low average accuracy और बड़ी variability दिखाई
GPT-4(gpt-4-0613) में हर variation पर 60 trials करने पर problem numbers के अनुसार परिणाम बहुत बदल गए
- Variation 3 में accuracy 0 के करीब थी
- Variation 4 में accuracy 1 के करीब थी
- STANDARD, THINKING, RESTRICTED prompt types में व्यापक रूप से यही phenomenon दिखा
क्योंकि problem solving से असंबंधित numbers में बदलाव मात्र से performance डगमगा रही है, इसे lack of robustness और generalization flaw के रूप में समझा गया
हालिया reasoning models DeepSeek-R1, o1-mini ने भी AIW problem versions पर मजबूत performance variability दिखाई, जिससे वही कमजोरी सामने आई
GPT-4/4o, Claude 3 Opus/Claude 3.5 Sonnet, Qwen 2.5 72B, Llama 3.1 405B जैसे बड़े models की accuracy 0 से ऊपर रही, और सही output में अक्सर सही reasoning दिखी
- हालांकि सही reasoning की frequency natural structure-preserving variations के अनुसार बहुत बदलती रही
- मुख्य बात यह नहीं है कि reasoning बिल्कुल नहीं है, बल्कि यह है कि reasoning fragile और आसानी से disturb हो जाती है

Control problems से हटाए गए simple causes

failure की वजह natural language parsing, number processing, family relationship understanding, attribute binding, basic arithmetic जैसे low-level issues हैं या नहीं, यह जांचने के लिए AIW Light control problems बनाए गए
AIW Light Arithmetic Siblings “Alice has N brothers and M sisters. How many siblings does Alice have?” के रूप में है
- सही उत्तर N+M है
- इसमें family relationship समझकर दिए गए brothers और sisters की संख्या जोड़नी होती है
- original AIW के विपरीत Alice को sisters के set में शामिल करने वाला set operation या gender attribute binding आवश्यक नहीं है
AIW Light Family “How many brothers does Alice’s sister have?” पूछने वाला रूप है
- सही उत्तर N है
- केवल basic family relationship और “Alice’s sister” entity समझना आवश्यक है
- arithmetic या set operation आवश्यक नहीं है
AIW Light Arithmetic Total Girls “How many girls are there in total?” पूछने वाला रूप है
- सही उत्तर original AIW जैसा ही M+1 है
- Alice के female होने का attribute, sisters का gender, और कुल girls की संख्या जोड़ना आवश्यक है
- original AIW के विपरीत Alice को भाई की sisters के set में assign करने वाली set processing आवश्यक नहीं है
control problem results संकेत देते हैं कि original AIW failure को केवल tokenization, natural language parsing, basic family structure, attribute binding, elementary arithmetic issues से समझाना कठिन है

Prompts और evaluation procedure

experiments में prompt engineering के प्रभाव को जांचने के लिए तीन मुख्य prompt types इस्तेमाल किए गए
- STANDARD: final answer को natural number format में output करने का निर्देश
- THINKING: ध्यान से सोचने के लिए प्रेरित कर chain-of-thought style को encourage करना
- RESTRICTED: final answer natural number के अलावा कुछ भी output न करने की restriction
THINKING v2, THINKING का छोटा variation है जिसमें “step by step” phrase जोड़ा गया, और control experiments में इसका performance pattern THINKING जैसा ही रहा
हर input <problem variation> <prompt type> के रूप में है, और model response से final answer आसानी से parse करने के लिए ### Answer: format मांगा गया
- models इस format instruction का पालन कर सके
- format instruction के बिना भी control experiments किए गए, जिनसे पुष्टि हुई कि observed behavior उस format पर निर्भर नहीं है
हर model, problem variation, prompt type combination के लिए कम से कम 30 trials collect किए गए
- correct/incorrect को Bernoulli trial के रूप में interpret किया गया
- accuracy estimate success ratio X/n से calculate किया गया
- probability p का mean और variance estimate किया गया, और Beta distribution parameters इस्तेमाल करके performance distribution visualize किया गया
model selection उन SOTA LLM पर केंद्रित था जो strong generalization और reasoning क्षमता का दावा करते हैं और standard benchmarks व leaderboards में high rank दिखाते हैं
- जहां संभव था, एक ही model family में small scale से large scale तक शामिल किए गए
- API access या vLLM-based local deployment इस्तेमाल किया गया
- experiments में liteLLM और TogetherAI इस्तेमाल हुए
- raw response data, accuracy estimates, experimental routines reproducibility और community verification के लिए public किए गए

Wrong-answer overconfidence और benchmark reevaluation

जिन AIW variations में accuracy low थी, उनमें output natural number distribution की peak wrong answers पर जमा होने के cases थे, इसलिए simple majority vote से हल निकालना कठिन है
wrong answers के साथ अक्सर plausible explanations होती हैं
- model गलत final answer को support करने वाले convincing sentences generate करता है
- साथ में यह tone भी दिखती है कि वह correct answer को लेकर confident है
- जिन situations में user correct answer आसानी से verify नहीं कर सकता, ऐसी responses user को गलत answer की ओर ले जा सकती हैं
multi-turn interaction और self-verification experiments में भी models अपनी mistakes ठीक से detect करने या wrong answers सुधारने में fail रहे
chain-of-thought prompting, recheck requests, multi-step reevaluation जैसी standard interventions AIW problem की accuracy variability और failures को भरोसेमंद तरीके से ठीक नहीं कर पाईं
standard benchmarks में high scores पाने वाले models simple AIW variations में 0 के करीब accuracy वाली performance दिखा सकते हैं, इसलिए मौजूदा evaluation procedures generalization और reasoning flaws को ठीक से detect नहीं कर पा रहे
वर्तमान SOTA LLM की capabilities का reevaluation आवश्यक है, और ऐसे flaws पकड़ सकने वाले नए standard benchmarks की जरूरत है

1 टिप्पणियां

GN⁺ 2024-06-06

Hacker News की रायें

जो लोग पेपर पढ़ने को लेकर सोच रहे हैं: PDF लंबा दिखता है, लेकिन मुख्य बात पहले 10 पेजों में ही है, इसलिए इसे काफ़ी जल्दी पढ़ा जा सकता है
यहाँ इस्तेमाल किए गए उदाहरण इंसानों के लिए काफ़ी सरल हैं, लेकिन अगर थोड़ा रुककर न सोचें तो गलत निष्कर्ष पर कूदना आसान है
सच में खटकने वाली बात यह है कि मौजूदा टूल्स की बुनियादी प्रकृति को देखें तो समझ नहीं आता कि इसे व्यावहारिक रूप से ठीक भी किया जा सकता है या नहीं। ये किसी भी मायने में reasoning या thinking नहीं करते, फिर भी बहुत से लोग इन्हें general-purpose AI मान चुके हैं
कई परिस्थितियों में reasoning करने का काफ़ी विश्वसनीय दिखने वाला दिखावा कर लेना भी hype को बढ़ाता है। यह कहना मुश्किल है कि यह पेपर AI लॉन्च और बढ़ा-चढ़ाकर किए गए दावों पर सचमुच असर डालेगा, या फिर Google Search लॉन्च के समय की तरह जोखिम फिर से सामने आने तक दबा रहेगा
- कुछ हद तक जटिल reasoning के लिए inner monologue और iteration की ज़रूरत होती है। Type 2 thinking में दिमाग़ के भीतर संभावित हल, तर्क और reasoning paths बनाए और परखे जाते हैं, फिर जो उपयुक्त या सही लगे उसे चुना जाता है
  prompt के ज़रिए उस आंतरिक सोच प्रक्रिया को बाहर लाने पर उसका कुछ हद तक अनुकरण किया जा सकता है, लेकिन वास्तव में यह एक आंतरिक और स्वचालित प्रक्रिया होनी चाहिए
  हमें अब तक तरीका इसलिए नहीं पता, क्योंकि आंतरिक thought process को नियंत्रित करना ज़रूरी नहीं कि भाषा-आधारित ही हो, और जैविक मस्तिष्क की अंदरूनी सोच प्रक्रिया को सीधे देखा नहीं जा सकता, इसलिए उसे training data की तरह इस्तेमाल नहीं किया जा सकता
  आज के LLM कुछ मायनों में behaviorism जैसे लगते हैं, और वास्तव में ऐसा कुछ चाहिए जिसमें cognitive psychology लागू की जा सके: https://en.wikipedia.org/wiki/Behaviorism
- एक काफ़ी सरल समाधान हो सकता है। मॉडल से समस्या को Prolog जैसी logic language में दोबारा गढ़वाया जाए, और साधारण chain-of-thought training की बजाय उस program को चलाकर उत्तर निकलवाया जाए
  इंसान भी अचानक logic model बनाना नहीं सीखते; वे कई साल की शुरुआती शिक्षा के दौरान दुनिया को समझना और समस्याएँ हल करना सीखते हैं
  logic programming approach आशाजनक लगती है, लेकिन इसे सही तरह से काम कराने के लिए LLM को बेहद बड़ी संख्या में उदाहरण देने होंगे, और अभी यह भी साफ़ नहीं है कि ऐसा training data पर्याप्त मात्रा में मौजूद है या नहीं
- जो लोग इस सिस्टम को आलोचनात्मक समझ के साथ इस्तेमाल करते हैं, उनके लिए यह ज़्यादातर बहुत ही साफ़ बात है। सम्राट नंगा है यह कहने के लिए arxiv.org PDF तक की ज़रूरत पड़ना निराशाजनक है
  LLM इस्तेमाल करने वाले ज़्यादातर लोग चाहें तो अभी खुद यह बात जाँच सकते हैं
  लेकिन कॉरपोरेट टेक प्रचार की ताकत इतनी ज़्यादा है कि बहुत से लोग उल्टा यह दावा करेंगे कि इंसानों ने तो कभी कपड़े पहने ही नहीं थे
- अगर LLM क्या है, इस पर गंभीरता से सोचें, तो यह मानना मुश्किल है कि उससे general-purpose AI तक पहुँचा जा सकता है। साथ ही, यह पहले से ही हमारी अपेक्षा से कहीं ज़्यादा काम कर रहा है
  OpenAI ने जो किया है उससे लोग इतने चकित हुए हैं कि शायद अब वे प्रार्थना कर रहे हैं कि पर्याप्त compute और सही model मिलते ही AGI बस निकल आए
- सवाल यह है कि बिना prompt के इंसान इस प्रश्न को कितनी बार गलत करते हैं। अगर इसमें 100 median IQ वाले, बिना logic training वाले, या अलग-अलग शिक्षा स्तर के लोग शामिल हों, तो जैसा लेखक संकेत करते हैं वैसा मानव सही उत्तर का अनुपात 1.0 के करीब शायद नहीं होगा
  यह काफ़ी स्पष्ट है कि LLM वास्तव में reasoning नहीं करते, इसलिए उनका reasoning न कर पाना चौंकाने वाली बात नहीं है
  बल्कि reasoning क्षमता न होने के बावजूद reasoning tasks पर इस स्तर का प्रदर्शन करना ही हैरान करता है, और natural language क्षमता के साथ computing models में आम तौर पर कठिन मानी जाने वाली abductive reasoning जैसी क्षमता को जोड़ें, तो “GPT-4o कमाल का है” के अलावा कोई बहुत बड़ा निष्कर्ष निकालना मुश्किल है
सवाल यह है: “Alice के 60 भाई हैं और 212 बहनें हैं। Alice के भाइयों की कितनी बहनें हैं?” पेपर में संख्याओं की जगह X और N का इस्तेमाल किया गया है
सच कहूँ तो मैंने खुद हल करते समय गलती की थी, और GPT-4o में डालने के बाद ही सही जवाब की पुष्टि की: https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
प्रयोग के prompt में “सही उत्तर के format के अलावा कोई भी text आउटपुट मत करो” जैसी पाबंदी थी, इसलिए लगता है कि मॉडल को aloud सोचने नहीं दिया गया। वह पंक्ति जोड़ देने पर GPT-4o लगातार गलत करता है: https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
ज़्यादा जटिल उदाहरणों में GPT-4o टूटता हुआ लगता है, लेकिन ईमानदारी से यह कहना मुश्किल है कि वह समस्या वाकई इतनी सरल है या ज़्यादातर लोग उसे सही हल कर लेते हैं
- पेपर में सभी संख्याएँ 10 से कम थीं
  AIW Variation 1 में N=3, M=6, C=7 था, और Variation 2 में N=4, M=2, C=3, Variation 3 में N=1, M=4, C=5, Variation 4 में N=4, M=1, C=2 था
  restricted prompt पेपर में टेस्ट की गई कई prompt variations में से सिर्फ एक था। पेपर ने “सोच को aloud व्यक्त करना” सहित LLM performance बढ़ाने वाली आम तकनीकों पर भी प्रयोग किए, लेकिन उन तरीकों से भी मॉडल सही जवाब नहीं दे पाया
- LLM को बेवकूफ समझने वाले लोग अक्सर ठीक यही पाबंदी लगाते हैं
  LLM जितना ज़्यादा बोलता है, उतना ज़्यादा स्मार्ट होता है, क्योंकि output देना ही उसकी गणना करने का एकमात्र तरीका है
  यह वैसा ही है जैसे कहना कि Turing machine Church-Turing thesis को पूरा नहीं करती क्योंकि वह N variables वाले 3-SAT को N से कम moves में हल नहीं कर सकती। जब आप LLM से संक्षिप्त रहने को कहते हैं, तो आप उससे कुछ ऐसा ही करवा रहे होते हैं
- इस नए phenomenon के लिए कोई नाम चाहिए लगता है। जब कोई कहता है कि LLM कोई मामूली काम नहीं कर पाता, तो दूसरा व्यक्ति यह घोषित करके LLM की वैधता बचाने लगता है कि वह खुद भी वह काम नहीं कर सकता
  यह मानना मुश्किल है कि औसत व्यक्ति, जो पर्याप्त motivation होने पर ChatGPT input box तक पहुँच सकता है, इस सवाल का जवाब नहीं दे पाएगा
- मैंने “सोच को aloud व्यक्त करने” पर भी ऐसे systems को बुरी तरह fail होते और बिल्कुल गलत जवाब देते देखा है
  और अपेक्षित response format होने पर वे हमेशा aloud सोच भी नहीं सकते। असल में यह इस बात का सबूत ज़्यादा लगता है कि यहाँ वास्तविक reasoning नहीं हो रही, बल्कि यह self-reference के अधिक करीब है
  मैंने उसी prompt के साथ खुद इसे aloud सोचने को कहा, तो इसने जवाब दिया कि Alice की 212 बहनें हैं
- यह एक महत्वपूर्ण शर्त है, इसलिए अजीब लगता है कि पेपर में इसे स्पष्ट रूप से सामने नहीं रखा गया। मेरे test में ChatGPT 4o ने हर बार इसे हल किया
  “हाथ बँधे” prompt में भी यह ठीक-ठाक काम करता दिखता है। समझ नहीं आता कि पेपर गलत है या OpenAI ने मॉडल को tweak किया है, हालांकि दूसरा विकल्प कम संभावित लगता है
  फिर भी रिपोर्ट के मुताबिक 4o इस पहेली को 60% बार सही करता है। मैंने अभी तक लगभग 12 बार ही test किया है और हर बार सही उत्तर मिला, इसलिए और कोशिश करनी होगी
बड़े public LLMs को मापने वाले कई “benchmark” datasets साफ़ तौर पर training data में मौजूद हैं, इसलिए मॉडल reliability जाँचने में वे लगभग बेकार हैं
यह भी काफी स्पष्ट है कि बाद की पीढ़ी के मॉडलों के score में जो कुछ सुधार दिखता है, उसका एक हिस्सा इस वजह से है कि वही benchmark data training data में ज़्यादा शामिल हो गया
LLMs को बेहतर ढंग से evaluate करने के लिए, नया बनाया गया test सामने आने के कुछ हफ्ते बाद उसका इस्तेमाल करना चाहिए, ताकि वह पहले के training data में न हो
जैसा कि law exams और दूसरी परीक्षाओं में दिखा, जब असली भविष्य का out-of-sample data इस्तेमाल किया जाता है तो performance बुरी तरह गिर जाती है। यह आज के नकली out-of-sample benchmarks जैसा नहीं है
- MMLU reasoning benchmark नहीं है। यह ज़्यादा इस बात का पैमाना है कि training data कितना व्यापक और प्रतिनिधिक था, और training epochs के आधार पर मॉडल कितनी अच्छी recall कर सकता है
  GPQA वगैरह किसी न किसी रूप में reasoning test करते हैं, और सभी मॉडलों में इन दोनों scores के बीच बड़ा अंतर दिखता है
- जब भी MMLU को benchmark की तरह इस्तेमाल होते देखता हूँ, समझ नहीं आता कि उससे क्या साबित करना है। MMLU एक साधारण multiple-choice test है जिसके answers सार्वजनिक हैं
  random guess करने पर भी 25 अंक आ जाते हैं, और अगर answers के 50% पता हों और बाकी guess कर दिए जाएँ तो 62.5% बनता है, जो नवीनतम LLM scores के काफी करीब है
  जो benchmarks reasoning दिखाने का दावा करते हैं, वे भी अक्सर कमजोर हैं और reasoning से उनका संबंध कम है। कई सवाल याददाश्त से हल किए जा सकते हैं
  मैं सहमत हूँ कि benchmarks बिखरे हुए हैं। मैंने खुद भी एक बनाने के बारे में सोचा था, लेकिन पहले एक जटिल benchmarking framework बनाना पड़ेगा, और उस तैयारी पर समय देना मुश्किल है
इस तरह की word problems और वे समस्याएँ जिन पर LLM अटकते हैं, उनके बारे में यह मानने के लिए कि वे “इंसानों के लिए आसान” हैं, empirical data चाहिए
कंप्यूटर वाले लोग puzzles पसंद करते हैं, और ऐसे सवाल उन्हें सहज लगते हैं
LLM को दिए गए जैसे time constraints में आम जनता इस puzzle को कितनी बार सही हल करती है, यह लेखकों की अपेक्षा से काफी कम हो सकता है; और अगर ऐसा है, तो LLMs मानव-स्तर reasoning के काफ़ी करीब हो सकते हैं
बेशक मेरे पास भी quote करने के लिए कोई स्रोत नहीं है, लेकिन पेपर लिखने वाला मैं नहीं हूँ
- शिक्षा पृष्ठभूमि वाले व्यक्ति के रूप में मुझे लगता है कि GPT-4 इस समस्या में आम लोगों के प्रदर्शन के काफी करीब होगा। बहुत से लोग AIW चूक जाएँगे, और लगभग सभी AIW+ चूकेंगे
  मैं इस तरह के सवाल काफ़ी अच्छी तरह हल कर लेता हूँ, फिर भी AIW+ के लिए मुझे कागज़ और पेंसिल के साथ लगभग 1 मिनट चाहिए। यह GRE जैसी परीक्षा के सबसे कठिन सवालों के स्तर के करीब है
  मुझे लगता है कि पूरे इंटरनेट डेटा पर trained models शायद औसत व्यक्ति के cognitive approach को किसी धुँधले तरीके से पकड़ रहे हों। अगर औसत व्यक्ति इस तरह की symbolic manipulation शैली में न सोचता है और न ही ऐसे लिखता है, तो उस लेखन पर trained मॉडल भी शायद वैसा नहीं होगा
“Alice के N भाई हैं और M बहनें हैं। Alice के भाई के लिए बहनों की संख्या कितनी होगी?” इसका सही जवाब Gemini ने बिना किसी अतिरिक्त prompt के दे दिया: https://g.co/gemini/share/6946d20c0a4d
लेकिन जब संख्याएँ डाली गईं, तो Gemini उलझ गया: “Alice के 4 भाई हैं और 3 बहनें हैं। Alice के भाई के लिए बहनों की संख्या कितनी होगी?” https://g.co/gemini/share/14d34dcdc5df
लेकिन जब उसे बताया गया कि यह एक trick question हो सकता है, तो उसने फिर सही जवाब दिया: https://g.co/gemini/share/e1f1ce8f32a8
60/212 siblings वाला version मैंने आज़माया नहीं। अगर मानें कि Alice इंसान जैसी कोई जीव है, तो यह मानना उचित है कि उसके सैकड़ों भाई-बहन नहीं होंगे, इसलिए उत्तर देने वाले से “सही जवाब” की अपेक्षा करना मुझे अनुचित लगता है
- मैं Gemini को भूल गया था। मैंने अभी अपना boat test फिर से चलाया, जिसमें पहले हर LLM फेल हुआ था, और Gemini भी फेल हुआ: https://news.ycombinator.com/item?id=40455392
  मैंने पूछा: “नदी किनारे एक बकरी और एक नाव है। दूसरी तरफ कैसे जाओगे? ध्यान से सोचो और यह भी मानो कि यह एक trick question हो सकता है”, और Gemini ने इसे किसान-भेड़िया-बकरी-पत्तागोभी वाली पहेली के एक variant की तरह हल करते हुए बेकार में बकरी को ले जाने की प्रक्रिया बना दी
  अपेक्षित जवाब इतना ही काफ़ी है: “नाव में बैठकर नदी पार कर लो।” “नाव और बकरी को लेकर पार करो” भी स्वीकार किया जा सकता है, लेकिन सवाल में बकरी को पार ले जाने को कहा ही नहीं गया था, इसलिए सख्ती से देखें तो यह गलत है
- यह प्रतिक्रिया कि किसी के सैकड़ों siblings हो ही नहीं सकते, उसी बात की समस्या दिखाती है जिसमें दावा किया जाता है कि इंसान “general intelligence” रखते हैं। out-of-distribution स्थिति मिलने पर वे भी उलझ जाते हैं
  अगर सचमुच general intelligence होती, तो surrogate pregnancy की लागत लगभग 50,000 डॉलर होने की जानकारी और IVF के ऐतिहासिक संदर्भ को लागू करके यह मान लिया जाता कि कोई billionaire दंपति सैकड़ों बच्चे करने का फैसला कर चुका है, और फिर उसी आधार पर गणना की जाती
  बुद्धिमान जीवन की खोज जारी है
- GPT-4o ने abstract puzzle का सही उत्तर दिया। जब मैंने कोशिश की, तब Gemini गलत निकला
पेपर दिलचस्प है, लेकिन चिंता है कि यह कहीं surprising negative results को चुनकर दिखाने वाली cherry-picking तो नहीं। ऐसा नहीं लगता कि पेपर बताता है कि इस उदाहरण तक पहुँचने से पहले कितने evaluations देखे गए थे
सामान्य तौर पर AI की कुछ failure patterns उन कामों में दिख सकती हैं जो इंसानों को साफ़-साफ़ आसान लगती हैं। वजह यह है कि architecture अलग है और strengths भी अलग हैं
अहम सवाल यह है कि क्या यह सिर्फ family formalization में दिखने वाला कोई एक अजीब cognitive bug है, या फिर यह किसी बड़े cognitive error वर्ग का प्रतिनिधि है। सिर्फ इस पेपर से यह कहना कठिन है
यह अच्छी तरह जाना जाता है कि logic problems की framing, भले उनकी underlying comparative structure isomorphic हो, इंसानों के लिए कठिनाई को बहुत बदल सकती है
रिसर्च की यह दिशा महत्वपूर्ण है, लेकिन evaluations के बड़े bundle की ज़रूरत है, और evaluation data के training में चले जाने की समस्या हमेशा एक confounder बनी रहेगी
यहाँ व्यापक reasoning category, जैसा पेपर कहता है, relational reasoning है, इसलिए follow-up research में isomorphic problem sets के पूरे दायरे में reasoning performance देखना दिलचस्प होगा। LLM अभी relational reasoning में बहुत मज़बूत नहीं हैं, इसलिए कुछ हद तक generalization की उम्मीद है, लेकिन ख़ास तौर पर family relationship formalization में ऐसा कुछ भी दिखता है जो LLM को उलझा देता है
- मुझे लगता है कि anti-gender-bias training अच्छी बात है, लेकिन यह भी संभव है कि “sister” और “brother” वाले इस तरह के formalization में यह cognitive damage पहुँचा रही हो
  क्योंकि ऐसे सवाल उस training data से जुड़े हो सकते हैं जहाँ सही उत्तर वही था जो generalization को अस्वीकार करता था। यह बस अटकल है
जब मैंने GPT-4o से सीधे पूछा, तो नतीजा उम्मीद से भी ज़्यादा दिलचस्प निकला
prompt था: “Alice के 3 भाई हैं और 6 बहनें हैं। Alice के भाई के लिए बहनों की संख्या कितनी होगी? इसे step by step हल करो”
जवाब में उसने सही तरह कहा कि Alice को शामिल करके कुल 7 बहनें होंगी, लेकिन अंत में निष्कर्ष दिया: “हर भाई खुद को बहन नहीं गिनता, इसलिए बहनों की संख्या 6 है”
यह बीच की गणना और अंतिम निष्कर्ष के टकराने वाला एक विशिष्ट step-by-step reasoning failure लगता है
AIW+ समस्या, जैसी लिखी गई है, वैसी की वैसी हल करने पर कुछ जानकारी अज्ञात रहती है
संभव है कि लेखकों ने सैकड़ों family-relationship problems बना लेने के बाद उत्तर को स्पष्ट मान लिया हो, लेकिन सिर्फ वाक्य देखें तो यह अस्पष्ट है कि Alice के भाई हैं भी या नहीं, पिता की बहनें हैं या नहीं, और मौसी-चाचा के भतीजे-भांजों में विवाह संबंध शामिल हैं या नहीं
मुझे लगता है कि LLM इन उत्तरों को स्पष्ट कर देने पर भी फेल कर सकते हैं, लेकिन यही समस्या “अगर Alice के सिर्फ 4 cousins हों, तो यह कैसे संभव है?” जैसे अंत के साथ भी ख़त्म हो सकती है
इस समस्या पर एक अच्छा talk है: https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
मुख्य बात यह है कि LLM planning और reasoning में बहुत कमजोर हैं। आप planning task के rules दे सकते हैं और result माँग सकते हैं, लेकिन जब logic सही भी हो, तब भी उसकी accuracy केवल abstract rules पर नहीं, बल्कि अतिरिक्त semantic information पर बहुत निर्भर करती है
talk में यह दिखाया गया कि task के rules और input description में nouns को पूरी तरह किसी दूसरे domain में map कर दिया गया, और सिर्फ इस simple substitution से performance ढह गई
मौजूदा LLM ज़्यादातर limited generalization ability वाले pattern matchers हैं
- domain बदलने पर इंसान भी statistical reasoning जैसी चीज़ों में ढह जाते हैं। मुझे याद है कि Leda Cosmides की evolutionary psychology research में ऐसा कुछ था, हालांकि शायद कोई और ज़्यादा मशहूर experiment हो
पेपर प्यारा है, लेकिन यह थोड़ा अजीब है कि लेखक ऐसे बात करते हैं मानो “Alice के N भाई हैं और M बहनें हैं...” वाला problem template उन्होंने खुद invent किया हो
यह LLM से अक्सर पूछी जाने वाली एक आम पहेली का बहुत बुनियादी variant है: https://news.ycombinator.com/item?id=39786666#39794890
74 दिन पहले भी मैंने उस पहेली का ज़िक्र किया था, और तब भी वह पहले से काफ़ी समय से जानी-पहचानी थी

हालिया LLM में reasoning collapse दिखाने वाला एक सरल task

AIW समस्या से सामने आई simple reasoning failure

Variations के हिसाब से बहुत बदलती accuracy

Control problems से हटाए गए simple causes

Prompts और evaluation procedure

Wrong-answer overconfidence और benchmark reevaluation

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें