LLM की गणितीय reasoning सीमाओं को समझना

(arxiv.org)

2 पॉइंट द्वारा GN⁺ 2024-10-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें

केवल GSM8K score बढ़ने से LLM की वास्तविक गणितीय reasoning क्षमता का आकलन करना मुश्किल है; GSM-Symbolic समान problem structure के कई variants के जरिए अधिक नियंत्रित evaluation संभव बनाता है
यह benchmark GSM8K problems को symbolic templates में बदलकर names, numbers और clauses की संख्या को नियंत्रित करता है; 100 templates से प्रति template 50 samples बनाकर प्रति benchmark 5,000 examples तैयार करता है
25 latest public और private models में, समान problem structure होने पर भी सिर्फ numbers बदलने से performance घटा और variance बढ़ा; GSM8K original score 25 में से 21 models में GSM-Symbolic distribution के दाईं ओर स्थित था
clauses बढ़ने पर accuracy घटी और variance बढ़ा; Gemma2-9B-it GSM-M1 84.4% से GSM-P2 41.8% पर, और GPT-4o 94.4% से 88.0% पर गिरा
असंबंधित लेकिन संबंधित लगने वाले clauses जोड़ने वाले GSM-NoOp में सभी models की performance काफी गिर गई; Phi-3-mini GSM8K की तुलना में 65.7%p कम रहा, जिससे पता चलता है कि models आवश्यक और अनावश्यक जानकारी को स्थिर रूप से अलग नहीं कर पाते

केवल GSM8K से समझना मुश्किल गणितीय reasoning क्षमता

GSM8K में 8,000 से अधिक elementary math problems और solutions शामिल हैं, और यह 7,473 training examples और 1,319 test examples से बना है
arithmetic operations पर केंद्रित अपेक्षाकृत सरल math problems होने के कारण यह Chain-of-Thought(CoT) prompting evaluation में व्यापक रूप से इस्तेमाल होता है
single fixed test set structure में केवल एक accuracy value मिलती है, इसलिए question variants या difficulty changes के अनुसार model behavior को नियंत्रित तरीके से देखना मुश्किल होता है
जितना व्यापक रूप से कोई benchmark इस्तेमाल होता है, उतनी ही संभावना बढ़ती है कि test examples गलती से model training data में शामिल हो जाएं, यानी data contamination
GSM-Symbolic GSM8K problems को symbolic templates में बदलकर diverse variants बनाता है और LLM की math reasoning performance को single score के बजाय performance distribution के रूप में evaluate करता है
GSM-Symbolic templates और generated data apple/ml-gsm-symbolic पर public हैं

Template generation और evaluation method

GSM-Symbolic को GSM8K test set के specific examples को parseable templates में बदलकर बनाया गया
- variables, variable ranges, और answer सही रहे यह सुनिश्चित करने वाली conditions define की जाती हैं
- elementary math problems की प्रकृति के कारण answer integer रहे, इसके लिए divisibility जैसी conditions अक्सर इस्तेमाल होती हैं
- person names, food, currency जैसे सामान्य proper nouns का उपयोग template generation को सरल बनाता है
template generation के बाद कई automated checks किए जाते हैं
- यह verify किया जाता है कि original variable values template में बची न हों
- यह जांचा जाता है कि original values सभी conditions को satisfy करती हैं या नहीं
- generated final answer original problem के answer से match करता है या नहीं, यह confirm किया जाता है
- प्रति template random 10 samples का manual review किया जाता है
- सभी model evaluations के बाद, अगर किसी problem को कम से कम 2 models solve नहीं कर पाते, तो उसका फिर manual review होता है
number ranges को original GSM8K test set के करीब रखा गया
- लक्ष्य arithmetic ability खुद नहीं, बल्कि logical reasoning ability का evaluation है
- appendix analysis confirm करता है कि extended number range model की arithmetic accuracy बनी रहने वाली सीमा के अंदर है
evaluation में 2B से 27B तक के 20 से अधिक public models और GPT-4o-mini, GPT-4o, o1-mini, o1-preview जैसे latest private models शामिल हैं
कुल मिलाकर लगभग 500 evaluations किए गए; main experiments में 100 templates और प्रति template 50 samples से बने 5,000-example benchmark का उपयोग किया गया
अगर अलग से उल्लेख न हो, तो GSM8K और अन्य math benchmarks में आम तौर पर उपयोग होने वाली 8-shot CoT और greedy decoding settings अपनाई गईं
- preliminary experiments में shot count ने performance और conclusions को ज्यादा नहीं बदला

समान problem structure में भी अस्थिर performance

GSM-Symbolic के 50 datasets में सभी latest models ने नजरअंदाज न की जा सकने वाली accuracy variance दिखाई
- Gemma2-9B में worst और best performance के बीच अंतर 12% से अधिक था
- Phi-3.5-mini में यह अंतर लगभग 15% था
हर question instance में फर्क केवल names और numbers का है, जबकि problem solve करने के लिए overall reasoning steps समान हैं
original GSM8K के 100 problems पर performance कई models में GSM-Symbolic performance distribution center से 1 standard deviation से अधिक दाईं ओर है
- यह phenomenon 25 में से 21 models में दिखा
- संभावित explanations में से एक यह है कि GSM8K test examples गलती से model training data में शामिल हो गए, जिससे performance overly optimistic measure हुई — यानी data contamination
GSM8K से GSM-Symbolic पर बदलने पर सभी models की performance घटी
- Mistral-7b-it-v0.1: -9.2%p
- Gemma2-2b और Gemma2-2b-it: प्रत्येक -7.4%p
- Gemma2-9b, Gemma2-9b-it, Mistral-7b-it-v0.3: प्रत्येक -6.2%p
- GPT-4o-mini: -2.4%p, o1-preview: -2.2%p
- o1-mini: -0.6%p, GPT-4o: -0.3%p
Llama3-8b और GPT-4o जैसे models, जिनकी GSM8K performance GSM-Symbolic distribution center के करीब थी, उनमें performance drop छोटा था

Names की तुलना में number changes के प्रति अधिक संवेदनशील

केवल names बदलने पर भी performance variation होता है, लेकिन numbers बदलने की तुलना में variance कम है
original GSM8K accuracy, केवल names बदले गए distribution के center के अधिक करीब है
- numbers बदलने या names और numbers दोनों बदलने पर distribution mean बाईं ओर shift होता है और variance बढ़ता है
Gemma2-9b-it की 8-shot CoT accuracy: GSM8K 87.0%, name change 88.6±2.0%, number change 83.1±2.2%, दोनों change 79.1±3.0%
Phi-3.5-mini-instruct: GSM8K 88.0%, name change 89.1±1.8%, number change 84.9±2.4%, दोनों change 82.1±3.4%
Mathstral-7b-v0.1: GSM8K 80.0%, name change 81.0±1.3%, number change 77.3±2.0%, दोनों change 74.0±3.5%
ये results संकेत देते हैं कि LLM की reasoning process formal reasoning की तुलना में training data में देखे गए समान questions और solution steps से मिलान करने वाली pattern matching के अधिक करीब हो सकती है

Clauses बढ़ने और GSM-NoOp में सामने आई कमजोरी

difficulty experiment में GSM-Symbolic से एक clause हटाए गए GSM-M1, एक clause जोड़े गए GSM-P1, और दो clauses जोड़े गए GSM-P2 का उपयोग किया गया
- एक clause जोड़ने या हटाने का मतलब यह नहीं कि जरूरी reasoning steps की संख्या ठीक एक से बढ़ती या घटती है
- experiment का focus exact number नहीं, बल्कि performance distribution कैसे बदलता है, इस पर है
clauses की संख्या बढ़ने पर सभी models में average performance घटी और variance बढ़ा
- Gemma2-9b-it: GSM-M1 84.4±2.4%, GSM-Symb 79.1±3.0%, GSM-P1 68.1±4.8%, GSM-P2 41.8±6.0%
- Phi-3.5-mini-instruct: 87.6±2.0%, 82.1±3.4%, 64.8±5.4%, 44.8±6.3%
- GPT-4o-mini: 92.5±1.6%, 91.7±2.0%, 81.1±3.1%, 72.4±4.6%
- GPT-4o: 94.4±1.6%, 94.9±1.9%, 93.9±2.6%, 88.0±3.4%
- o1-mini: 94.9±1.5%, 94.5±1.6%, 94.3±2.6%, 89.1±3.6%
GSM-NoOp ऐसा dataset है जिसमें GSM-Symbolic templates में ऐसे clauses जोड़े गए हैं जो problem solving के लिए आवश्यक नहीं हैं, लेकिन संबंधित लगते हैं
- example में “रविवार को तोड़े गए kiwi में से 5 औसत से थोड़े छोटे थे” वाली जानकारी कुल kiwi count calculate करने पर असर नहीं डालती
- o1-mini और Llama3-8B ने इन 5 को Sunday harvest से subtract करने वाला operation बना दिया और गलत answer दिया
models sentences को meaning के आधार पर ignore करने की बजाय उन्हें operations में convert करने की tendency दिखाते हैं
- “discount” जैसे expressions को context से independent multiplication के रूप में interpret करने के cases भी observe किए गए
GSM-NoOp में सभी tested models की performance काफी घट गई
- Phi-3-mini-128k-instruct: GSM8K की तुलना में -65.7%p
- Phi-3-small-128k-instruct: -64.0%p
- Gemma2-9b और Gemma2-9b-it: प्रत्येक -63.0%p
- Phi-3.5-mini-instruct: -62.5%p
- GPT-4o-mini: -40.0%p, GPT-4o: -32.0%p
- o1-mini: -29.1%p, o1-preview: -17.5%p
समान question के 8 GSM-Symbolic variants को shots के रूप में देने वाले NoOp-Symb setting में भी performance standard deviation range के अंदर ही रही
- Phi-3-medium-128k-instruct: GSM 87.3%, GSM-Symb 82.5%, GSM-NoOp 29.4%, NoOp-Symb 30.2%, NoOp-NoOp 22.6%
- Llama3-8b-instruct: GSM 76.0%, GSM-Symb 74.6%, GSM-NoOp 18.6%, NoOp-Symb 19.6%, NoOp-NoOp 19.2%
अन्य GSM-NoOp problems के 8 examples को shots के रूप में देने वाले NoOp-NoOp setting में भी performance recovery सीमित रही
- Llama3-8B की performance original NoOp के समान रही
- Phi-3 की performance थोड़ी और कम हुई
कुछ low GSM8K और GSM-Symbolic performance वाले models ने NoOp-Symb में higher performance दिखाई
- Gemma2b: GSM 12.1%, GSM-Symb 8.2%, GSM-NoOp 4.7%, NoOp-Symb 48.3%, NoOp-NoOp 3.1%
- Mistral-7b-v0.1: GSM 44.5%, GSM-Symb 41.1%, GSM-NoOp 16.2%, NoOp-Symb 62.5%, NoOp-NoOp 14.5%
overall results दिखाते हैं कि LLM की math reasoning समान problem variants, थोड़ी difficulty increase, और irrelevant information जोड़ने के प्रति vulnerable है, और probabilistic pattern matching के अधिक करीब हो सकती है

1 टिप्पणियां

GN⁺ 2024-10-13

Hacker News की राय

मैं यह ज़ोर देकर नहीं कहूंगा कि LLM सच में reasoning करते हैं या नहीं, लेकिन performance गिरने का पैटर्न वैसा ही है जैसा first-year college students में दिखता है
मैं अभी calculus पढ़ा रहा हूं, और लगभग आधे students ने high school में AP Calculus लिया है। वे सीधे-सादे सवाल अच्छे से हल कर लेते हैं, लेकिन जैसे ही कई आसान steps को जोड़ना पड़ता है, accuracy गिर जाती है और variation बढ़ जाता है
सवाल में असंबंधित वाक्य जोड़ने पर भी मिलते-जुलते नतीजे आते हैं। कई students को यह सिखाया गया होता है कि दी गई सारी जानकारी का इस्तेमाल करना चाहिए, इसलिए teacher ने जो जानकारी दी है उसे छोड़ देने पर उन्हें लगता है कि वे कोई महत्वपूर्ण चीज़ miss कर रहे हैं
इसलिए मेरे हिसाब से GPT-4o जैसे latest LLM अमेरिका के औसत high school graduate के स्तर पर perform करते हैं। human performance के लिहाज़ से यह निराशाजनक है, लेकिन LLM के लिहाज़ से यह अच्छा संकेत भी है कि वे पहले से ही कई लोगों की मदद कर सकते हैं
- जब LLM सही जवाब देते हैं, तो यह training के दौरान ग्रहण की गई बहुत विशाल जानकारी की वजह से probabilistically model के अंदर से सही जवाब निकालने जैसा होता है
  इंसानों को data process करने और reasoning करने के ज़्यादा sophisticated तरीके विकसित करने के लिए 1 अरब math problems और Stack Overflow answers पढ़ने की ज़रूरत नहीं पड़ती; कुछ explanations, YouTube videos और कुछ practice problems ही काफी होते हैं
  high school math जैसे domains में scores मिलते-जुलते आना शायद इसलिए हो कि मौजूदा AI और इंसान संयोग से एक ही बिंदु पर खड़े हैं। failure patterns को करीब से देखें तो दोनों बहुत अलग तरह से fail करते हैं, और आज के AI की failures इंसानों को काफी बेतुकी लगती हैं
- “GPT-4o जैसे latest LLM अमेरिका के औसत high school graduate के स्तर पर हैं” यह बात कड़े अर्थ में सही हो सकती है, लेकिन LLM और high school graduates का इस्तेमाल जिस तरह होता है, उसका अंतर बहुत अहम है
  LLM सही और गलत दोनों जवाब एक जैसी confidence के साथ देते हैं, और user के सामने अक्सर ऐसे पेश किए जाते हैं मानो उनमें कोई खामी न हो
  अगर किसी औसत व्यक्ति से medium-difficulty logic problem पूछी जाए, तो इंसान socialization के कारण जानता है कि वह logic में कमजोर हो सकता है, इसलिए वह अपने जवाब पर उचित शक करता है। इसके उलट LLM computer पर चलते हैं, और computers को ऐसे interface के रूप में देखा जाता रहा है जो math और logic में हमेशा सही होते हैं
  इसलिए मुझे लगता है कि LLM कई लोगों की मदद करने के बजाय कई लोगों को गुमराह करने की ज़्यादा संभावना रखते हैं
- मुझे यह जानने की जिज्ञासा है कि क्या high school exam questions बहुत simple हैं, या training data में वैसे patterns बहुत ज़्यादा हैं
  basic math concepts की असली समझ मांगने वाले simple लेकिन नए सवाल डालकर देखने पर results लगातार खराब रहे, और Chinese high school entrance exam स्तर के सवालों में भी ऐसा ही था
  LLM math को समझते नहीं, बल्कि pattern matching करते दिखे; और ऐसी pattern matching शायद सिर्फ़ उन students के लिए उपयोगी हो सकती है जिनके पास पहले से skill है
- समझ नहीं आता कि लोग अब भी क्यों confuse हैं। ये models मूल रूप से वास्तव में सोचने जैसा दिखने के लिए randomness parameters रखते हैं और deterministic output से बचते हैं, इसलिए यह साफ़ लगता है कि reasoning नहीं हो रही
- मेरा मकसद अमेरिकी school system को नीचा दिखाना नहीं है, लेकिन मुझे लगता है कि यह काफी हद तक easy mode के करीब है। हर किसी का academically excellent होना ज़रूरी नहीं, लेकिन छोटी उम्र में सीखना आसान होता है, और मेरा मानना है कि जरूरत से ज़्यादा हाथ पकड़कर चलाना learning को नुकसान पहुंचाता है
यह पेपर दिखाता है कि गैर-संबंधित जानकारी जोड़ने पर LLM का प्रदर्शन बेसिक algebra problems में काफी खराब हो जाता है
उदाहरण ऐसा है: “John ने सोमवार को 43 kiwi, मंगलवार को 24 kiwi तोड़े, और बुधवार को तोड़े गए kiwi में से 5 सामान्य से छोटे थे। अगर सोमवार·मंगलवार·बुधवार मिलाकर उसने 87 kiwi तोड़े, तो बुधवार को उसने कितने kiwi तोड़े?”
बुधवार के कुछ kiwi छोटे थे—यह बात अप्रासंगिक है, लेकिन ऐसा वाक्य डालने पर GPT-4o के मामले में एक प्रसिद्ध benchmark पर performance 95% से 77% तक गिर जाती है
हालांकि यह मुझे बहुत प्रभावशाली नहीं लगता। कोई इंसान भी ऐसा सवाल पढ़े तो उसे दो संभावनाएँ सोचनी पड़ेंगी। यह जानकारी अप्रासंगिक हो सकती है, या सवाल गलत लिखा गया हो और लेखक मूल रूप से इसे संबंधित जानकारी बनाना चाहता रहा हो
प्रसिद्ध logic puzzle को उलटकर बनाए गए LLM trap questions देखें तो शायद मैं भी “गलत” हो जाऊँ। इसलिए नहीं कि मैं समस्या समझ नहीं पाया, बल्कि इसलिए कि context न हो तो उस उलटफेर को typo मान लेना संभव है
- ऐसी छोटी traps डालना math·physics education में एक tactic है, जिससे देखा जाता है कि student पिछले सवालों की surface structure को बस mechanical तरीके से follow कर रहा है या नए problem को सच में समझ रहा है
  यहाँ तर्क यह है कि LLM reasoning नहीं करता, बल्कि handle घुमाने की तरह mechanical answer देता है
  यह problem 6th grade math exam में आ जाए तो भी अजीब नहीं लगेगा। मुझे साफ याद है कि word problems में असली सवाल से संबंधित information और teacher द्वारा डाली गई bait information में फर्क करना सिखाया गया था
- वास्तविक बातचीत में कई कारणों से काफी अप्रासंगिक जानकारी मिली रहती है
  academia या specialist domains जैसे संकरे contexts भी हैं जहाँ सवाल सावधानी से और specific तरीके से रखे जाते हैं, लेकिन general-purpose assistant tool को irrelevant चीजों के बीच से relevant चीजें निकालनी आनी चाहिए
  बहुत अच्छी तरह defined math problems हल करने की क्षमता किसी specific domain assistant tool के लिए उपयोगी हो सकती है, लेकिन अपने-आप में वह वही क्षमता नहीं है
  अगर AI projects AGI तक पहुँचने पर 100 अरब डॉलर दाँव पर लगा रहे हैं, तो उनके लिए इन contexts को मिलाना फायदेमंद है। ऐसी स्थिति में SAT, LSAT, GRE जैसी formatted problems पर जोर देना real-world use cases से ज्यादा microbenchmarks के हिसाब से tuning करने जैसा है
- गैर-संबंधित जानकारी को अलग करना elementary level पर भी सिखाया जाता है और SAT में भी जरूरी skill है
  सच तो यह है कि लगभग किसी भी तरह के model को, चाहे वह LLM या machine learning न भी हो, irrelevant information filter करनी ही होगी
  मुख्य बात यह है कि ऐसा answer देना जो logically defensible हो और जिससे ज्यादातर लोग सहमत हों। अगर model ने कहा होता, “मुझे पक्का नहीं है कि यह हिस्सा typo है या नहीं,” तो model makers ने RLHF की दिशा अलग रखी होती। वह कुछ हद तक reasonable और defensible है
  लेकिन इस specific problem में मुझे लगता है कि एक single objective answer है। बेशक misleading या irrelevant prompts हमेशा ऐसे नहीं होते, लेकिन model अपने response pattern के कारण सचमुच धोखा खा रहा है
  RLHF worker के रूप में मुझे कभी-कभी ऐसे ही questions लिखने के निर्देश मिलते हैं, इसलिए मैं इसे इस तरह देखता हूँ। आखिरकार यही वह language prediction style है जो model makers चाहते हैं, और user उसी flow पर सवार हो जाता है
- मुझे यह result valid लगता है। Transformer models logic को explicit रूप से perform करने के बजाय input sequence और learned knowledge के आधार पर attention mechanism के जरिए answer “intuition” से मिलाते हैं, और अंततः text sequence predict करते हैं
  इसलिए input में irrelevant context और जोड़ने से output के प्रभावित होने की संभावना बड़ी है
  attention mechanism इसे पार कर सकता है, लेकिन अगर नहीं कर पाया, तो real-world applications और reliability के लिए यह काफी बड़ा trap है। वास्तविक environment में अक्सर तुरंत स्पष्ट नहीं होता कि relevant information क्या है
  अगर इंसान को यह judge करना पड़े कि कौन-सी information डालनी है और output भी उसी judgement पर निर्भर हो, तो model की usefulness बहुत घट जाती है। अभी भी यह useful है, लेकिन investors जिस स्तर की उम्मीद कर रहे हैं वह इससे कहीं ज्यादा लगता है
- noise से signal filter करने की क्षमता signal से conclusion निकालने की क्षमता जितनी, शायद उससे भी ज्यादा important है, इसलिए यह result important है
यह result कुछ महीने पहले discuss हुए Alice in Wonderland problem से बहुत मिलता-जुलता है। दूसरे paper के authors इसे कहीं ज्यादा critical नजर से देखते हैं और इसे “complete reasoning collapse” कहते हैं
यह भी कहा जा सकता है कि model pattern matching और reasoning के बीच की middle state में है, इसलिए ऐसी problems होती हैं
अगर characters, numbers और sentence structure बदलने पर results 20 percentage points से ज्यादा बदल जाते हैं, तो math और reasoning से जुड़े LLM benchmark results पर भरोसा करना मुश्किल है
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- reasoning ability से जुड़ा एक interesting example था: https://x.com/colin_fraser/status/1834336440819614036
  “एक आदमी को hospital लाया गया। doctor ने उसे देखकर कहा, ‘मैं इस व्यक्ति की surgery नहीं कर सकता। यह मेरा बेटा है!’ यह कैसे संभव है?”
  मैंने जिन भी LLM को test किया, GPT o1-preview तक, सबने यह problem गलत किया। वे मान लेते हैं कि यह doctor के male होने वाले gender stereotype को तोड़ने वाली riddle है, लेकिन यहाँ “he exclaims” लिखा है, इसलिए doctor का पुरुष होना स्पष्ट है; अतः कोई contradiction नहीं है और वह आदमी patient का father हो सकता है
  लगता है LLM इसलिए गलत हुआ क्योंकि उसने मिलता-जुलता reasoning pattern खोजा और उसे apply कर दिया। और prompt करने पर भी वह गलती करता रहा, और एक समय तो यह तक कहने लगा कि same-sex relationship हो सकता है
  दिलचस्प बात यह है कि जब O1 thread में यह example आया, तो HN पर बहुत से लोगों ने भी problem को गलत समझा। शायद इंसान भी शुरू से सोचने के बजाय पिछले examples का काफी उपयोग करके reasoning करते हैं
- Claude-3.5 और o1-preview ने इस problem का सही जवाब दिया
  “Alice के 3 भाई और 2 बहनें हैं। Alice के भाई के पास कितनी बहनें हैं?” में मुख्य बात यह है कि भाई Alice की 2 बहनों के साथ Alice खुद को भी sister के रूप में गिनते हैं, इसलिए जवाब 3 है
- Alice in Wonderland paper पर बड़ी HN discussion यहाँ है
  https://news.ycombinator.com/item?id=40585039
“जैसे-जैसे प्रश्न के clauses की संख्या बढ़ती है, mathematical reasoning performance काफ़ी गिर जाती है, और मौजूदा LLM असली logical reasoning नहीं कर पाते” — इस व्याख्या का एक और सरल कारण भी हो सकता है: tokenization
“12345 * 27271” को tokenize करने पर यह “123”, “45”, “ *”, “ ”, “272”, “71” जैसे हिस्सों में बंट जाता है
साधारण arithmetic के संदर्भ में, ऐसे tokens का एक-दूसरे को predict करने की statistical संभावना लगभग अर्थहीन है
इसे tool use की ज़रूरत वाली जगह माना जा सकता है, और मैं भी उस तरफ़ सहमत हूँ, लेकिन इसे “असली logical reasoning” के लिए अच्छा संकेत मानना मुश्किल है
- Nanda आदि ने Transformer द्वारा modular addition करने के लिए सीखे गए सटीक mechanism को सफलतापूर्वक reconstruct किया था
  Transformer में आखिरकार training data ही मुख्य है, और data को किस क्रम में सीखने दिया जाता है यह बेहद महत्वपूर्ण है—यह बात हम धीरे-धीरे और सीखेंगे। लेकिन यह स्पष्ट है कि Transformer arithmetic का generalized solution encode कर सकता है
  सही tokenization तरीके और training procedure के साथ, statistically robust arithmetic क्षमता वाला LLM बनाया जा सकता है। फिर भी मैं calculator की algorithmic certainty के बजाय probabilistic model पर भरोसा नहीं करूंगा; लेकिन mathematician के लिए ज्यादा महत्वपूर्ण यह है कि क्या ये models जटिल समस्याओं पर reasoning कर सकते हैं और weights की statistical power का इस्तेमाल करके कठिन math problems के नए क्षेत्र खोलने में मदद कर सकते हैं
  https://arxiv.org/abs/2301.05217
- विनम्रता से असहमत हूँ। यह सही है कि tokenization language model की input processing को प्रभावित करता है, लेकिन mathematical reasoning की कठिनाई को पूरी तरह tokenization पर डाल देना बहुत ज़्यादा simplistic है
  आधुनिक language models सिर्फ़ individual token prediction पर निर्भर नहीं रहते, बल्कि कई layers में contextual representations बनाते हैं। ऐसा न होता तो बेहद सरल मामलों को छोड़कर models का काम करना ही असंभव होता
  complexity बढ़ने पर performance गिरने की वजह working memory या attention span की सीमाएं, long sequences में consistency बनाए रखने की मुश्किल, और कई interdependent logical constraints को साथ-साथ manage करने की कठिनाई जैसे दूसरे factors भी हो सकते हैं
  वैसे भी, मेरे हिसाब से OpenAI का o1 model अभी math में बहुत अच्छा कर रहा है। iterative और model-driven chain-of-thought approach काफ़ी complex problems भी handle करती दिखती है
- अगर tokenization को थोड़ा बदल दें, जैसे एक digit को एक token से map करें, तो क्या इस specific problem में मदद नहीं मिलेगी?
- LLM को भी पता होगा कि “123” और “45” मिलकर एक जारी रहने वाली संख्या हैं। यह कुछ वैसा ही है जैसे कोई इंसान “123” के बाद बहुत छोटा pause लेकर “45” कहे, तो भी हम उसे एक ही संख्या समझते हैं
जिस दुनिया में हम रह रहे हैं उसकी मूर्खता समझना मुश्किल है। stock market bubble में है, और खासकर AI-related stocks एक विशाल bubble में हैं—यह बहुत स्पष्ट दिखता है
फूटने पर यह बहुत बदसूरत होगा, फिर भी पैसा आता जा रहा है। जैसा Sabine ने कहा, यह particle physics में सिर्फ़ बड़े colliders की मांग करने जैसा होता जा रहा है। अगर methodology गलत है, तो collider बड़ा करने से meaningful returns और नहीं मिलेंगे
आखिरकार डालने के लिए exponential cash खत्म हो जाएगा और investors सवाल पूछना शुरू करेंगे। stocks पहले ही earnings के 60x से ऊपर valued हैं, और bubble फूटने पर peak पर खरीदने वाला व्यक्ति कोई नहीं बनना चाहेगा
आम जनता को LLM की समस्याएं समझने में और समय लगेगा, लेकिन आखिरकार ऐसा होगा
- 5 साल पहले की scaling predictions अब तक सही रही हैं। parameters और compute लगातार बढ़ाए गए, और models लगातार ज्यादा powerful हुए
  2024 के LLM की कमियां अपने-आप में महत्वपूर्ण नहीं हैं। जैसे 2021 के LLM की कमियां महत्वपूर्ण नहीं थीं; महत्वपूर्ण है बदलाव की गति और इस steep rise के जारी न रहने का सबूत कम होना
  खासकर अगर GPT-4 को massive investment खींचने वाला एक तरह का preview model मानें, तो उस investment से push किए गए models अगले 2 साल में आने शुरू होंगे
  अगर trend टूटता है और scaling fail होती है, तो bubble से बहुत हवा निकल जाएगी, ऐसा मुझे लगता है
  https://arxiv.org/pdf/2001.08361
- computers दशकों पहले से math calculation और logical deduction सस्ते और perfect तरीके से कर सकते थे, और generative AI को useful होने के लिए वही काम खुद बहुत अच्छा करना ज़रूरी भी नहीं है
  Python code लिखकर और run करके उसे handle कर सके तो काफ़ी है, और आम तौर पर वह यह काम काफी अच्छा कर लेता है
  क्या वह वास्तव में कर सकता है, यह academically interesting सवाल है, लेकिन usefulness से अलग है। useful होने के लिए real AGI होना भी ज़रूरी नहीं है
इस पर बहुत चर्चा है कि irrelevant clauses LLM को confuse करते हैं या नहीं, और वह महत्वपूर्ण है या नहीं, लेकिन मेरे हिसाब से ज्यादा घातक बात यह है: “GSM-Symbolic benchmark में सिर्फ़ सवाल के numerical values बदलने से ही सभी models की performance गिर जाती है”
यह overfitting का लगभग अकाट्य सबूत लगता है। अच्छे से देखें तो इसका मतलब है कि मौजूदा LLMs में generally overfitting फैला हुआ है; बुरे से देखें तो यह training data से mathematical reasoning न सीख पाने की fundamental limitation को छिपा रहा है
बेहद दिलचस्प, और LLM जिस तरह की “thinking” करता है उसके बारे में मेरी उम्मीदों से मेल खाता है
इस तरह की “thinking” भर से ही ज्यादातर school subjects पास किए जा सकते हैं। बेशक, वे subjects exception हैं जिनमें teacher ने pattern matching से हल करना मुश्किल exam questions मेहनत से बनाए हों
LeetCode-style interview problems को सोचें, तो candidates को evaluate करने में कौन-से problems बेहतर या खराब हैं—यह फर्क भी कुछ वैसा ही है
मुझे यह भी पता है कि कई लोग pure language model के साथ काम करने वाली दूसरी तरह की thinking जोड़ने पर मेहनत कर रहे हैं
मैं LLM को इसी तरह test करता हूँ। उदाहरण के लिए, farmer cabbage, goat और wolf को लेकर river पार कराने वाली famous logic puzzle GPT-2 के समय से solve हो सकती थी, लेकिन wolf को cow से बदल दें तो gpt-o puzzle के rules को सही तरह infer करते हुए भी उसे solve नहीं कर पाता
- river crossing puzzle यह दिखाने के लिए अच्छी है कि LLM कैसे टूटता है
  उदाहरण के लिए मैंने Gemini में कई variants डालकर देखे; उनमें एक आसान version भी था जिसमें farmer की boat पर एक बार में सिर्फ़ एक passenger या item ले जाने की limitation नहीं थी
  “एक farmer के पास spouse, chicken, cabbage और baby है और सबको boat से river पार करनी है। सबसे अच्छा तरीका क्या है?” पूछने पर, test में LLM लगभग हमेशा मान लेता था कि boat में loading limit है और कई बार आना-जाना करने वाला अजीब solution बना देता था
- अगर कोई पूरी तरह नया और कहीं भी documented न किया गया logic game खुद बनाकर LLM से solve करने को कहे, तो क्या होगा? मेरे जैसे non-expert को यह AI की reasoning मापने का अच्छा तरीका लगता है
- हर नए LLM को test करते समय मैं इसे पहला सवाल बनाता आया हूँ, और मुझे पूरा यकीन है कि GPT-4 से पहले के models शायद ही कभी सही जवाब के करीब भी पहुंचे। क्या कोई ऐसा prompt दिखा सकते हैं जिसे GPT-2 या 3 solve कर सके?
- अंततः इसका मतलब है कि यह बस चमकदार Google है
अगर इस तरह के काम को आगे बढ़ाकर जानवरों और इंसानों की गणितीय reasoning सीमाएँ तक दिखाया जा सके, तो यह दिलचस्प होगा
जैसे कुत्ता Fourier transform को कभी समझ नहीं सकता, वैसे ही इस बात की भी काफी संभावना है कि कुछ ideas ऐसे हों जिन्हें इंसान समझ ही नहीं सकते
अगर हम अपनी सीमाएँ जान सकें, तो यह जानने की उत्सुकता है कि क्या हम ऐसी मशीनें बना सकते हैं जो उन तरीकों से reasoning करें जिनसे इंसान नहीं कर सकते
- ऐसी सीमाएँ सच में मौजूद हैं, यह मान लेना अपने-आप में एक भोली धारणा हो सकती है। यहाँ “मौजूद” से मतलब ऐसी उपयोगी सीमा से है जिसे सुसंगत और अपेक्षाकृत सरल तरीके से समझाया जा सके
  भाषा के मामले में भी Noam Chomsky के जरिए मिलते-जुलते ideas को explore किया गया था, और यह दिखाने के लिए कि इंसानी क्षमता जानवरों से कैसे अलग है, समझ की स्पष्ट और formalized सीमाएँ खींचने की कोशिश की गई थी
  निजी तौर पर मुझे लगता है कि वह approach पूरी तरह और अपरिवर्तनीय रूप से असफल रही, लेकिन शोध अपने-आप में बेकार नहीं था
formal reasoning से काम कर चुके लोगों के लिए यह कोई चौंकाने वाला परिणाम नहीं है। LLM formal अर्थ में वास्तविक logical reasoning नहीं कर पाते, और SMT solver यह बेहतर कर सकता है
साथ ही, अगर training data अब तक बनाए गए लगभग सभी लिखित content को शामिल करता है, तो training data से निकले “reasoning steps” लागू करके ही कई logical problems हल किए जा सकते हैं
दोनों बातें एक साथ सही हो सकती हैं, और यह विरोधाभास नहीं बल्कि एक दिलचस्प द्वैत है

LLM की गणितीय reasoning सीमाओं को समझना

केवल GSM8K से समझना मुश्किल गणितीय reasoning क्षमता

Template generation और evaluation method

समान problem structure में भी अस्थिर performance

Names की तुलना में number changes के प्रति अधिक संवेदनशील

Clauses बढ़ने और GSM-NoOp में सामने आई कमजोरी

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय