LADDER: recursive problem decomposition के ज़रिए खुद को बेहतर बनाने वाला LLM

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 2025-03-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LADDER एक ऐसा framework है जो कठिन समस्याओं को आसान रूपों में नीचे ले जाकर फिर वापस ऊपर बनाता है, और इस तरह human feedback या curated data के बिना LLM की problem-solving क्षमता बढ़ाता है
इसका मुख्य विचार यह है कि मॉडल जिस स्तर तक हल कर सके, वहाँ तक एक difficulty gradient बनाया जाए, और सत्यापित किए जा सकने वाले sub-problems के उत्तरों को अधिक कठिन समस्याओं के समाधान के लिए stepping stone की तरह इस्तेमाल किया जाए
गणितीय integration tasks में Llama 3.2 3B की undergraduate स्तर की समस्याओं पर accuracy 1% से 82% तक बढ़ी, हालांकि contribution section में शुरुआती मान 2% भी दिया गया है
Qwen2.5 7B Deepseek-R1 Distilled ने MIT Integration Bee prelims में केवल LADDER के साथ 73% स्कोर किया, जो GPT-4o के 42% और सामान्य मानव प्रदर्शन 15~30% से अधिक है
TTRL ने test time पर भी problem transformation और reinforcement learning लागू करके उसी परीक्षा में accuracy को 73% से 90% तक बढ़ाया, और OpenAI o1 से बेहतर state-of-the-art प्रदर्शन हासिल किया

LADDER जिन learning bottlenecks को target करता है

reinforcement learning, LLM training में प्रभावी है, लेकिन इसके लिए ऐसे verifiable tasks चाहिए जो मॉडल की मौजूदा क्षमता के अनुकूल हों और जिनके परिणाम की पुष्टि की जा सके
अगर समस्या मॉडल की क्षमता से बहुत कठिन हो, तो learning रुक सकती है या performance degradation जैसी collapse स्थिति आ सकती है
complex reasoning domains में आसान tasks और advanced tasks के बीच का अंतर बड़ा होता है, इसलिए धीरे-धीरे सीखने योग्य difficulty structure महत्वपूर्ण है
LADDER जटिल समस्याओं से शुरू करके मॉडल से कई आसान transformed problems बनवाता है, और हर transformation आगे sub-transformations बनाती है; यह recursive problem decomposition का उपयोग करता है
जब यह उस स्तर तक नीचे पहुँच जाता है जहाँ मॉडल समस्याएँ स्थिर रूप से हल कर सकता है, तब उन उत्तरों को अधिक कठिन transformations को हल करने के लिए stepping stone की तरह इस्तेमाल किया जाता है

self-directed learning और verification conditions

मानव-निर्मित dataset या feedback की जगह, मॉडल की मौजूदा क्षमता से स्वाभाविक difficulty gradient पैदा किया जाता है
training के लिए verifiable reward चाहिए, और इस शोध में उत्तरों की जाँच के लिए numerical integration का उपयोग किया गया है
यह framework मॉडल को अपनी प्रगति का मूल्यांकन करने और learning path को समायोजित करने देता है, जिससे बिना मानवीय हस्तक्षेप के reinforcement learning लागू किया जा सकता है
recursive problem decomposition और self-directed learning को GRPO-based reinforcement learning के साथ जोड़ा गया है
problem transformation generation और verification तभी काम करते हैं जब कोई भरोसेमंद verification mechanism मौजूद हो

integration benchmark और TTRL के परिणाम

गणितीय integration benchmark में LADDER ने मानक pass@k sampling से संभव स्तर से आगे का performance improvement दिखाया
Llama 3.2 3B की undergraduate स्तर की integration समस्याओं पर accuracy 82% तक पहुँची
- abstract में शुरुआती accuracy 1% दी गई है
- contribution section में शुरुआती accuracy 2% दी गई है
Qwen2.5 7B Deepseek-R1 Distilled ने 2025 MIT Integration Bee prelims में LADDER लागू करने के बाद 73% accuracy हासिल की
- GPT-4o: 42%
- सामान्य मानव प्रदर्शन: 15~30%
TTRL(Test-Time Reinforcement Learning) एक micro-learning प्रक्रिया है, जो test time पर dynamically problem transformations बनाती है और हर test instance पर reinforcement learning लागू करती है
TTRL training में इस्तेमाल किए गए verification mechanism को inference के समय भी उपयोग करती है ताकि उत्तरों को और refine किया जा सके
MIT Integration Bee में TTRL ने केवल LADDER वाले 73% को बढ़ाकर 90% कर दिया और OpenAI o1 से बेहतर state-of-the-art प्रदर्शन हासिल किया
ये नतीजे दिखाते हैं कि architecture scaling या human supervision के बिना भी strategic problem decomposition और verification-based self-learning से बड़ा performance gain संभव है

1 टिप्पणियां

GN⁺ 2025-03-08

Hacker News की रायें

हैरानी होती है कि इस हफ्ते इतने सारे ML breakthroughs क्यों दिख रहे हैं
सिर्फ पिछले दो दिनों में ही मैंने कम से कम 3 दिलचस्प और संभावनाशील नतीजे देखे, और Google की research team ने दिखाया कि neural networks और CLA को digital logic gates के जरिए जोड़ा जा सकता है
इससे कई nonlinear समस्याओं को सरल और असरदार digital circuits में घटाने की संभावना भी बनी, और यह आज HN के front page पर भी था: https://news.ycombinator.com/item?id=43286161
neural networks, logic और intelligence के बारे में लगातार ऐसे दिमाग घुमा देने वाले नतीजे आ रहे हैं कि सोचने पर मजबूर होना पड़ता है—first principles से intelligence कैसे काम करती है, इसे सच में समझने के हम कितने करीब हैं
- इस तरह की चीजें पिछले करीब 1 साल से लोगों द्वारा छिपाए रखे गए trade secrets जैसी थीं
  DeepSeek के open source release के बाद इनकी value काफी घट गई, और लगता है कंपनियां किसी और के पहले कर देने से पहले reputation boost के रूप में इन्हें cash in करना चाहती हैं
  सितंबर 2023 में Llama 2 fine-tuning के साथ मैंने बिल्कुल यही किया था, लेकिन इसे किसी से share करने की approval नहीं मिली
- यह दिलचस्प है कि industry ने आखिरकार समझ लिया कि भोली-भाली scaling alone AGI तक नहीं पहुंचा सकती, और इसके बाद AI/ML में कई नए approaches दिख रहे हैं
  इसका फायदा यह है कि छोटे players भी वास्तविक innovation से compete और contribute कर सकते हैं, और यह उस माहौल के उलट है जहां OpenAI/MS जैसे बड़े players कई सालों तक लोगों को यह मानने पर मजबूर करना चाहते थे कि open source कभी catch up नहीं कर पाएगा
  पिछले कुछ सालों में pure GPU compute scaling पर बहुत ज्यादा resources, time और money बर्बाद हुए
  Gary Marcus कई सालों से यह बात बताते रहे हैं, और करीब 2 साल train किए गए GPT-4.5 के निराशाजनक नतीजे इसका evidence लगते हैं
- अभी हालत ऐसी है जैसे नए बाग में नीचे लटके फलों की भरमार हो
  अंतिम उपयोगिता चाहे जो हो, चमक-दमक बहुत है, hype भी बहुत है, surprises भी बड़े हैं, और बहते पैसे की रफ्तार पकड़ना मुश्किल है
  इसलिए सबसे capable लोगों में से काफी लोग इसमें interest ले रहे हैं, और naturally breakthroughs निकालने की कोशिशें उमड़ रही हैं
- LLM breakthroughs अब नए battery breakthroughs जैसे बनते जा रहे हैं
  फिलहाल बस trade-offs को quantify करने की क्षमता की कमी है
- लगता है यह इस बात से जुड़ा है कि बड़े conferences जल्द ही paper submissions शुरू करने वाले हैं
  कुछ conferences submission से पहले कुछ हफ्तों तक preprint release को रोकते हैं, इसलिए संभव है लोग जल्दी-जल्दी upload कर रहे हों
मशहूर number theory mathematician Hendrik Lenstra की बात याद आती है: “हर unsolvable problem के लिए, एक और simpler problem होती है जो भी unsolvable होती है”
- सोच रहा हूं कि यह quote सच में है या नहीं
  George Pólya की बात—“अगर आप दी गई problem solve नहीं कर सकते, तो पहले उससे जुड़ी एक simpler problem solve करने की कोशिश करें”—तो जानी-पहचानी है, लेकिन Lenstra quote का source नहीं मिला
- इसमें induction खूबसूरती से नहीं बैठती
  जब तक कि यह बात insult के तौर पर न कही गई हो
इनका test-time reinforcement learning approach थोड़ा suspicious लगता है
मेरी समझ में TTRL का तरीका यह है कि language model से test case के आसान versions generate कराए जाते हैं, फिर उन simplified problems पर reinforcement learning चलाई जाती है और उम्मीद की जाती है कि original problem पर performance भी बेहतर होगी
समस्या यह है कि simplified problem को verify करते समय वे numerical integrator का इस्तेमाल करते हैं
कल्पना की जा सकती है कि ऐसी problems generate हों जो original problem से लगभग अलग न हों, और model सही जवाब जानते हुए test case के काफी करीब train हो रहा हो
यह test set पर train करने जैसा लगता है, हालांकि paper का बाकी हिस्सा ठीक है
- लगता है model जिस task को solve कर रहा है वह symbolic integration है
  यह ऐसी problem है जिसे solve करना मुश्किल है, भले ही model original problem पर ही numerical integrator tool इस्तेमाल कर सके
कहा गया है कि LADDER math integration में effective है, और undergraduate-level problems पर Llama 3.2 3B की accuracy 1% से 82% तक बढ़ा दी
- यह भी ध्यान रखना चाहिए कि modern term rewriting systems symbolic integration में बहुत अच्छा perform करते हैं: https://rulebasedintegration.org/
Frank Herbert को यह पहले से पता था
यह मूल रूप से Dune में आने वाले Mentat recursive self-checking को implement करने जैसा है
test-time learning/reinforcement learning भविष्य के math AI के लिए निश्चित रूप से सही approach लगता है
यह उन कुछ तरीकों में से है जिनसे किसी specific problem पर बेहिसाब compute resources—मिसाल के लिए कई दिनों तक 10^5 GPUs—झोंके जा सकते हैं, और जब test-time inference scaling शुरुआत में अच्छा काम न करे तब भी progress की उम्मीद की जा सकती है
उदाहरण के लिए, खराब value/policy network के साथ Go position पर MCTS चलाने की स्थिति सोचिए
AlphaProof ने पहले ही ऐसा किया था, लेकिन अच्छे results के साथ इसे फिर देखना अच्छा है
- दिलचस्प बात यह है कि improved performance को छोटे size के LLM में कितना distill किया जा सकता है
  तब आपके पास policy improver होगा, यानी similar problems पर test-time reinforcement learning, जिससे AlphaZero के काम करने के तरीके की बेहतर नकल की जा सकेगी
  और यह भी देखा जा सकेगा कि 32B जैसी छोटी neural network theoretically कितनी powerful हो सकती है
संदर्भ के लिए, Tufa Labs team में MindsAI team शामिल है, जो ARC-AGI के लिए जानी जाती है
https://tufalabs.ai/team.html
कुछ नाम बेहद tempting होते हैं: https://arxiv.org/abs/1507.02672
paper के अंत में दो 2025 MIT Integration Bee preliminary problems का जिक्र है जिन्हें system लगातार गलत कर रहा था
कहा गया कि वे exam की सबसे complex तरफ की problems थीं, लेकिन पहली बस ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx है, और आखिरकार 1/3 + 1/(34) + 1/(34*5) + ... calculate करना होता है
इसलिए इसे बहुत advanced math कहना मुश्किल है
- फिर भी यह 7B model है
  problem advanced नहीं है, लेकिन model भी कोई बहुत advanced नहीं है
यह अपने-आप में काफी दिलचस्प है कि यह थोड़ा भी काम करता है, और खासकर यह कि math में यह बहुत अच्छा काम करता दिखता है
हालांकि यह paper इस समय चल रहे training और inference की boundary blur होने वाले trend का हिस्सा है
method का एक हिस्सा यह है कि जिन questions के जवाब नहीं पता, उन्हें आसान questions में decompose किया जाए, और numerical checker वाले GRPO से उन questions पर reinforcement learning की जाए
इस तरह reinforced model और अधिक questions का जवाब दे पाता है
मुझे यह approach पसंद है
इंसान भी अक्सर किसी चीज़ को मन में घुमाते रहते हैं, दिमाग में उलट-पलट कर देखते हैं, और analogies बनाते हैं
test-time learning जोड़ने से fixed inference में context में और tokens जोड़ने की तुलना में कहीं ज्यादा thinking की जा सकती है
जैसे DeepSeek और o1/o3 ने दिखाया कि inference-time token generation और evaluation से capability बढ़ाई जा सकती है, वैसे ही inference-time automatic fine-tuning से भी capability बढ़ती दिखती है
उम्मीद है कि जब ये techniques mature होंगी, तो इनके बारे में बोलने और सोचने के नए तरीके भी बनेंगे
किसी स्तर पर ये सब एक ही fundamental process का हिस्सा लगते हैं, और खैर, यह सच में बहुत शानदार है

LADDER: recursive problem decomposition के ज़रिए खुद को बेहतर बनाने वाला LLM

LADDER जिन learning bottlenecks को target करता है

self-directed learning और verification conditions

integration benchmark और TTRL के परिणाम

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें