LIMO: रीज़निंग में कम ही बेहतर है (Less is More for Reasoning)

(arxiv.org)

3 पॉइंट द्वारा GN⁺ 2025-02-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LIMO यह दिखाता है कि जटिल गणितीय रीज़निंग के लिए बड़े पैमाने के supervised data की ज़रूरत होती है, इस आम धारणा के विपरीत, सिर्फ 800 samples से उन्नत रीज़निंग क्षमता निकाली जा सकती है
Qwen2.5-32B-Instruct पर साधारण supervised fine-tuning (SFT) लागू करके AIME24 में 63.3% और MATH500 में 95.6% accuracy हासिल की गई, जो मौजूदा fine-tuned models के 6.5% और 59.2% से काफी आगे है
training data पहले के approaches के 1% स्तर का है, लेकिन इसने विभिन्न benchmarks और पहले कभी न देखे गए scenarios में 100 गुना अधिक data पर train किए गए models से बेहतर generalization performance दिखाई
मुख्य विचार यह है कि base model में पहले से encoded domain knowledge और solution process को guide करने वाले कुछ high-quality examples, cognitive templates की तरह काम करते हैं
रीज़निंग training में bottleneck, task complexity से अधिक, pretraining knowledge की परिपक्वता और उन post-training examples की quality पर निर्भर है जो model को reasoning chain का उपयोग करने के लिए प्रेरित करते हैं

LIMO hypothesis किस मौजूदा धारणा को चुनौती देता है

मौजूदा रीज़निंग training में यह धारणा मजबूत रही है कि गणित और programming problems हल करने के लिए दसियों हज़ार से लेकर लाखों examples चाहिए होते हैं
इस तरह के approaches multi-step logic, domain knowledge application, और structured solution paths मॉडल को दिखाने के लिए बड़े supervised datasets का उपयोग करते हैं
सफल उदाहरण रहे हैं, लेकिन बड़े पैमाने पर data collection और training के साथ काफी computational cost भी जुड़ी रहती है
LIMO hypothesis का कहना है कि जटिल रीज़निंग निकालने की threshold, task difficulty की तुलना में, दो शर्तों से अधिक प्रभावित होती है
- क्या model parameters में आवश्यक knowledge latent form में मौजूद है
- क्या कुछ examples problem-solving process को प्रभावी ढंग से दिखाते हैं और test-time compute space का उपयोग संभव बनाते हैं

कम data में भी यह कैसे संभव है

हाल के base models में pretraining चरण के दौरान कहीं अधिक गणितीय content शामिल है
- Llama 2 का कुल training data 1.8T tokens है
- Llama 3 ने mathematical reasoning के लिए 3.7T tokens का उपयोग किया
इस बदलाव के कारण रीज़निंग training का फोकस नए गणितीय knowledge को जोड़ने से हटकर, पहले से encoded knowledge को निकालने पर आ गया है
test-time compute scaling भी एक महत्वपूर्ण शर्त है
- लंबे reasoning chains को expand करने वाली techniques, reasoning ability को काफी बढ़ाती हैं
- test-time compute, model के लिए pretraining knowledge को खोलने और लागू करने वाले cognitive workspace की तरह काम करता है
LIMO का मानना है कि जब भरपूर pretraining knowledge और पर्याप्त test-time compute resources साथ मिलते हैं, तब बड़े data की जगह थोड़े लेकिन high-quality samples से reasoning ability को सक्रिय किया जा सकता है

800 samples चुनने का तरीका

LIMO approach बहुत सारा data इकट्ठा करने के बजाय, high-quality samples खोजने के लिए कड़े selection से शुरू होता है
बड़े QA pair pool पर multi-layer filtering लागू की जाती है
- पहले आसान problems हटाने के लिए एक मोटा difficulty filtering किया जाता है
- फिर अधिक सूक्ष्म difficulty evaluation से चुनौतीपूर्ण problems पहचानी जाती हैं
- knowledge points में विविधता रखकर व्यापक coverage सुनिश्चित की जाती है
reasoning chains की अलग से समीक्षा की जाती है
- logical consistency
- step-by-step clarity
- solution correctness
इस प्रक्रिया से अंत में सिर्फ 800 training samples वाला छोटा लेकिन मजबूत dataset बनाया गया

benchmark performance

LIMO ने Qwen2.5-32B-Instruct को आधार बनाकर, चुने गए केवल 800 samples से साधारण SFT किया
मुख्य performance इस प्रकार है
- AIME24 accuracy 63.3%
- MATH500 accuracy 95.6%
मौजूदा fine-tuned models ने AIME24 में 6.5% और MATH500 में 59.2% दर्ज किया, जिससे LIMO का अंतर काफी बड़ा दिखता है
आवश्यक training data, पहले के approaches के सिर्फ 1% स्तर तक सीमित रहा
विभिन्न गणितीय और multidisciplinary benchmarks पर इसने मजबूत out-of-distribution generalization दिखाई और कुल मिलाकर 45.8% का absolute improvement हासिल किया
कई पहले कभी न देखे गए scenarios में भी इसने 100 गुना अधिक data पर train किए गए models से बेहतर performance दी

योगदान और सार्वजनिक सामग्री

LIMO का मुख्य योगदान यह है कि इसने कुछ examples से जटिल reasoning ability निकालने वाली Less-Is-More Reasoning Hypothesis को औपचारिक रूप दिया
LIMO principles के अनुसार dataset बनाया गया और Qwen2.5-32B-Instruct को साधारण SFT से fine-tune किया गया
प्रयोगों के नतीजे कठिन mathematical reasoning benchmarks पर competitive performance और बेहतरीन out-of-distribution performance दिखाते हैं
analysis और ablation study, data selection principles की प्रभावशीलता की पुष्टि करते हैं और base model knowledge level, model size, तथा architecture differences के अनुसार इसकी applicability की जाँच करते हैं
competitive performance पाने के लिए आवश्यक minimum data requirement की भी जाँच की गई
model, code, और curated dataset GitHub repository के माध्यम से सार्वजनिक किए गए हैं

1 टिप्पणियां

GN⁺ 2025-02-10

Hacker News की राय

नतीजा शानदार है, लेकिन दो बातें ध्यान देने लायक हैं: मॉडल को Qwen-2.5 Instruct पर fine-tune किया गया है, जिसमें pretraining और supervised fine-tuning में पहले से ही लाखों curated गणित examples शामिल थे
साथ ही LIMO के लिए 817 बिल्कुल सटीक गणित examples बनाने के लिए R1 जैसे latest model से 1 करोड़ गणित problems के pool को filter किया गया था
यानी, अधिकतम information-rich और distilled fine-tuning data बनाने में पहले ही काफी intelligence लगाई जा चुकी थी, इसलिए यह कहना मुश्किल है कि यह सीधे 1 करोड़ वाले initial pool पर fine-tune करके वही नतीजा पाने से ज़्यादा impressive है या कम
हालांकि दूसरा तरीका headline के तौर पर शायद कम आकर्षक लगता
- लेखकों ने भी abstract में इन दोनों points को complex reasoning निकालने की critical conditions के रूप में साफ बताया है: बेहद polished pretrained base model और post-training के लिए बहुत high-quality examples का set
  1 करोड़ initial pool पर fine-tune करने की समस्या intuitively यह है कि performance को move करने के लिए fine-tuning data की बहुत बड़ी मात्रा चाहिए होगी, और सिर्फ 817 examples से gradient को बहुत बदलना मुश्किल है
  वह initial pool असल में काफी strong regularization enforce करने का काम करता है
  आजकल यह दिखाने में रुचि बढ़ रही है कि small data और inference-time scaling से बड़े gains मिलते हैं
  हाल के examples में TinyZero: https://github.com/Jiayi-Pan/TinyZero, s1 Simple Test Time Scaling: https://arxiv.org/abs/2501.19393 शामिल हैं
- मुझे समझ नहीं आता कि पुराने models की जानकारी इस्तेमाल करके ज्यादा efficient model बनाने की इतनी आलोचना क्यों की जा रही है
  prior work का फायदा उठाकर आगे बढ़ना गलत नहीं है, और efficiency improvement भी progress ही है
  Kombucha बनाते समय SCOBY को एक-एक microbe जोड़कर assemble नहीं किया गया, इसलिए उसकी आलोचना तो नहीं करते न
- 1 करोड़ में से 817 samples चुनने में 12,290 bits की information मानी जा सकती है
- कल्पना कीजिए कि math olympiad में high score पाने के लिए जरूरी समझ देने वाली एक textbook हो, और उसमें समझाए गए problems 1,000 से भी कम हों
  यह अपने आप में metacognition में बड़ी खोज है
- paper और यह explanation काफी हद तक ऐसे cognitive examples की textbook बनाने जैसा है, जो foundational learning पूरी कर चुके student को next-level reasoning सिखाने के लिए “जितना हो सके information-rich और distilled” हो
  पिछले कुछ वर्षों में LLM की प्रगति ने दिखाया है कि इंसानों के “reasoning” responses को LLM-generated जैसे दिखने वाले plausible human reactions के रूप में model करके predict किया जा सकता है
  दूसरे शब्दों में, कई responses कोई खास सोची-समझी reasoning नहीं, बल्कि token generation chain के ज्यादा करीब होते हैं
  problem solve करते हुए अपने-आप से “बात” करने वाले किसी व्यक्ति के पास बैठें तो यह और साफ दिखता है
  tokgen की definition restaurant की बातचीत सुनकर समझ आ जाती है
  कई conversations गहरे विचार के बजाय prompt के लगभग पूरी तरह predictable continuation के रूप में responses होती हैं
  थोड़ा रुककर सोचने के बाद निकले शब्दों से फर्क बताने के लिए thought और token generation, यानी tokgen, जैसे label इस्तेमाल किए जा सकते हैं
मैं इस field का expert नहीं हूं, लेकिन मुझे लगता है कि internet पर pretrained model mathematical reasoning के लिए जरूरी अधिकांश abilities पहले ही हासिल कर लेता है
बस लक्ष्य पूरे internet के next-word distribution को predict करना है, और internet text का अधिकतर हिस्सा ऐसी reasoning text नहीं होता, इसलिए आम तौर पर model उस ability का ज्यादा इस्तेमाल नहीं करता
यह कुछ साल पहले image generation models में prompt में “unreal engine” जोड़ने पर result quality बहुत सुधर जाने जैसा है
model internet images का distribution generate करने के लिए trained था, जिनमें से अधिकांश खास impressive नहीं होते, लेकिन “unreal engine” वाली images आमतौर पर high-quality screenshots होती थीं, इसलिए generation distribution भी high-quality की तरफ shift हो गया
इसलिए model के पास पहले से ही ज्यादातर latent ability मौजूद है, और उसे वास्तव में वह ability इस्तेमाल करने के लिए बस कुछ connections adjust करने होते हैं; इसी वजह से कम training examples से भी mathematical reasoning ability बढ़ना समझ में आता है
- यह काफी हद तक Anthropic द्वारा activations के concepts को analyze और manipulate करके golden gate Claude बनाने, या “buggy code” जैसे features को maximize/minimize करने जैसा है[0]
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- इसमें थोड़ा और जोड़ें तो, pattern identification और continuation symbolic reasoning evaluations पर भी लागू हो सकते हैं
  उदाहरण के लिए, अगर किसी functional programming language की semantics को rewrite rules से define करें, तो यह रूप दिखता है
  अगर model problem को पर्याप्त precise language में बदलकर LLM में encoded generation program के साथ pattern matching शुरू कर सके और logical implications evaluate कर सके, तो हम बहुत interesting क्षेत्र में प्रवेश करते हैं
  autoregressive prediction symbolic incremental evaluation और computation में बदल सकता है, और background का LLM फिर भी evaluation choices और goal search को guide करता रहेगा
  अगर base model में इतनी content पहले से है कि उसके साथ ज्यादा precise language को साफ-सुथरे ढंग से जोड़ा जा सके, तो ऐसे evaluation rules को मजबूत करने के लिए बहुत विशाल corpus जरूरी नहीं लगता
- R1 में दिखने वाली reasoning का ज्यादातर हिस्सा मुझे 5वीं क्लास के expression जैसा लगता है, जो ऊपर की explanation को support करता है
  फिर भी अगर mathematical reasoning के लिए जरूरी knowledge को compress करते रहें, तो आखिरकार शायद category theory और Prolog जैसे rule-based किसी चीज़ का combination निकले
- इसका मतलब यह हो सकता है कि base model को supervised learning या reinforcement learning से fine-tune करने पर भी model आमतौर पर fundamentally ज्यादा smart नहीं बनता; केवल pretraining के दौरान शुरुआती self-supervised learning ही ऐसा करती है
  हालांकि अगर किसी भी मात्रा की reinforcement learning से LLM सचमुच ज्यादा smart नहीं बन सकता, तो वह भी अजीब ही होगा
मेरा अनुमान है कि गणित जैसे कुछ क्षेत्रों में, जो सामान्य तो हैं, लेकिन सभी संभावित संख्याओं की तरह उनका effective vocabulary size असामान्य रूप से बड़ा होता है, इसलिए अगर उन्हें सामान्य आकार की vocabulary वाले क्षेत्रों में कारगर तरीकों से train किया जाए तो लागत ज्यादा हो जाती है
ऐसे problem domains में reasoning steps को train करने से “जोड़ना”, “inverse”, “solve करना” जैसी अपेक्षाकृत कम general vocabulary को मजबूत किया जा सकता है
इससे number combinations की arithmetic अलग-अलग problems से अलग हो जाती है, और one-shot सही जवाब पर जोर नहीं रहता
N reasoning examples और M arithmetic examples पर train करना काफी है; N*M पूरी math problems पर train करने की जरूरत नहीं
इसलिए reasoning resources ज्यादा लगाने पड़ते हैं, लेकिन कम training से बेहतर जवाब मिल सकते हैं
theory को छोड़ दें तो application side में ऐसा तरीका अच्छा लगता है जिसमें इस general reasoning process से final formula को structure करके फिर traditional evaluator को दे दिया जाए
तब reasoning और उसकी training को सिर्फ symbolic manipulation तक जाना होगा
यह कुछ-कुछ Wolfram Alpha जैसा तरीका है, जहां natural language processing काफी बाद में evaluator को सौंपी जाती है
- इससे जुड़ा सवाल है: क्या कभी कोई LLM perfect calculator रहा है?
  यानी अगर standard operations +/- और integers वाली expression दी जाए तो वह हमेशा सही result लौटाए
  मुझे इससे जुड़ा paper देखने की याद नहीं है, लेकिन मैं expert नहीं हूं
हाल में मैंने दो बातें पढ़ीं जो एक-दूसरे से विरोधाभासी लगती हैं: एक कि LLM theorem proving को कभी generalize नहीं कर सकते, और दूसरी इस paper की बात कि “modern LLMs के parameter space में पहले से ही rich mathematical knowledge हो सकता है, और task अब knowledge acquisition से knowledge elicitation में बदल जाता है”
अब समझ नहीं आ रहा कि क्या सही है
- यह कड़वी गोली निगलनी हो तो शायद मानना पड़ेगा कि सारी human knowledge असल में अपेक्षाकृत “small” finite distribution है, और models अब इतने बड़े हो गए हैं कि वे उस पर pattern matching कर सकें; इसलिए LLM “generalize” कर सकते हैं
- LLM समस्या के लिए सही search space बना सकते हैं, लेकिन क्या उस space में solution identify करने की प्रक्रिया inefficient है?
  दूसरे शब्दों में, high-school math lecture notes पढ़ चुके ज्यादातर students के भीतर Olympiad gold medal जीतने की संभावना होती है
  क्योंकि math खुद high-school content से बहुत आगे नहीं जाती
  लेकिन किसी actual high-school student को Olympiad gold-medal level तक ले जाना मुश्किल है, और यह P vs NP जैसा कुछ हो सकता है
- चाहे hype करने वाले हों या skeptics, आपको बहुत लोग मिलेंगे जो ऐसी बातें कहते रहेंगे जिन्हें verify किया जा सकता है
  कभी-कभी उनके दावों के उलट screenshots होने पर भी वे वही दावा दोहराते रहते हैं
  खासकर skeptics के बारे में, आप top-tier LLM खुद इस्तेमाल करके देख सकते हैं कि “जिस काम के बारे में कोई कहता है कि यह नहीं हो सकता, क्या यह सच में कर रहा है?”
  अक्सर सच में कर देता है
  हाल में skeptics द्वारा submit किए गए papers देखें तो वे latest LLMs पर दावे करते हैं लेकिन test सिर्फ एक साल से ज्यादा पुराने versions पर करते हैं
  सच में हाल में ऐसा हुआ था^
  क्या सही है, इसका भरोसा करने के लिए बस खुद इस्तेमाल करके देखना और तय करना पड़ेगा कि सच क्या है
  ^ https://x.com/tylercowen/status/1881051976102035880
- rich mathematical knowledge होने के बावजूद theorem proving में कमजोर हो सकता है
  इसके उलट, rich mathematical knowledge न होते हुए भी contest math problems के proofs में अच्छा हो सकता है
  यह भी संभव है कि rich mathematical knowledge हो और theorem proving भी अच्छी हो, लेकिन मुख्यतः अपने specialization में ही
- “LLM कभी X नहीं कर सकते” वाली बात मुझे बस हमेशा गलत लगती है
जैसे image diffusion models ने दिखाया कि पूरे visual world का plausible approximation 5GB model में summarize किया जा सकता है, क्या reasoning patterns को भी इसी तरह compress किया जा सकता है?
क्या सभी domains में इस्तेमाल होने वाले reasoning patterns सच में गिनने लायक कम हैं, जिन्हें अपेक्षाकृत छोटे training set से capture किया जा सके?
- मुझे लगता है कि सच में general “reasoning patterns”, यानी strategies या approaches, बहुत ज्यादा नहीं हैं
  लेकिन applied reasoning के लिए सिर्फ reasoning patterns ही नहीं, बल्कि उस approach के तहत लागू किए जा सकने वाले domain-specific valid reasoning steps का repertoire भी चाहिए
  साथ ही knowledge और learned reasoning steps सब इस्तेमाल करने के बाद भी solution तक न पहुंचने पर अटकाव पार करने की abilities का combination भी चाहिए
  गणित जैसे domains में math-specific reasoning steps की छोटी संख्या भी काफी दूर तक ले जा सकती है, लेकिन math के भीतर भी algebra, geometry, calculus, topology जैसे कई subdomains हैं
  मेरी जानकारी में, किसी field की techniques दूसरी field में तभी उपयोगी होती हैं जब problem को उस दूसरे domain में map किया जा सके
सोच रहा हूं कि curated 817 math problems का set क्या diverse problems के जरिए math students को train करने वाली textbook के रूप में भी useful होगा
अगर LIMO hypothesis की तरह छोटे dataset से fine-tuning करके छोटे model के भीतर efficient reasoning potential निकाला जा सकता है, तो बड़े models से छोटे models की ओर power shift काफी बड़ा हो सकता है
अगर यह process repeatedly संभव हो तो यह लगभग unlimited power देने जैसा लगता है
हालांकि उस cycle को चलाने के लिए dataset में कुछ properties होनी चाहिए
model size के हिसाब से reasoning adjust करना सिखाना होगा, और search space में छोटे branching factor के साथ reasoning chains की depth बढ़ाकर deep patterns detect करने वाले minimal cover जैसे तरीके से validate किया जाना होगा
यह देखना दिलचस्प है कि field धीरे-धीरे LLM pedagogy बनती जा रही है
reasoning prediction की कला है
reality के बहुत सारे observations को reality के ऐसे छोटे model में distill करना, जो नए observations को काफी अच्छी तरह predict करे
“मैं जो कुछ देख रहा हूं, उसके अधिकांश को explain करने वाला सबसे simple model क्या है?” यही core question है जिसका जवाब mind देने की कोशिश करता है
जब हम ऐसा model बनाने की कला सीख लेते हैं, तो नई problems को अपने model से pattern-match करते हैं और उसी model से results predict करवाते हैं

LIMO: रीज़निंग में कम ही बेहतर है (Less is More for Reasoning)

LIMO hypothesis किस मौजूदा धारणा को चुनौती देता है

कम data में भी यह कैसे संभव है

800 samples चुनने का तरीका

benchmark performance

योगदान और सार्वजनिक सामग्री

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय