सेल्फ-इम्प्रूविंग reasoners को संभव बनाने वाले cognitive behaviors

(arxiv.org)

2 पॉइंट द्वारा GN⁺ 2025-03-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

जब verifiable problems पर reinforcement learning के जरिए language models को self-improve कराया जाता है, तो समान conditions में भी Qwen-2.5-3B Countdown पर काफी बेहतर होता है, जबकि Llama-3.2-3B जल्दी plateau पर पहुंच जाता है
performance का अंतर उन reasoning behaviors से जुड़ा है जो initial model में पहले से मौजूद थे, जैसे verification, backtracking, subgoal setting और backward chaining
Qwen शुरुआत से ही verification और backtracking को ज्यादा स्वाभाविक रूप से दिखाता था, जबकि Llama में ये behaviors कम थे, इसलिए वह बढ़े हुए test-time compute का कुशलता से उपयोग करने में कठिनाई महसूस करता था
अगर Llama को सही उत्तर होने/न होने की बजाय reasoning patterns वाले synthetic reasoning traces से prime किया जाए, तो reinforcement learning के दौरान वह Qwen जैसी improvement trajectory दिखाता है
OpenWebMath को filter करके continued pretraining करने से Llama में भी जरूरी behavior distribution induced होता है, जिससे initial reasoning habits को design करना self-improvement performance पर सीधे असर डालता है

समान reinforcement learning में भी अलग-अलग self-improvement क्षमता

test-time inference का उपयोग language model को जटिल समस्याओं पर ज्यादा देर और ज्यादा सावधानी से “सोचने” के लिए कराया जाता है
verifiable problems पर reinforcement learning (RL) लागू करके model को self-improve कराने का approach नया नहीं है, लेकिन पहले के तरीके कुछ iterations के बाद plateau हो गए थे और test-time compute को प्रभावी ढंग से इस्तेमाल करने के तरीकों को पर्याप्त रूप से explore नहीं कर पाए थे
Countdown game पर समान reinforcement learning procedure लागू करने पर दो 3B models के बीच बड़ा अंतर दिखा
- Qwen-2.5-3B की problem-solving क्षमता काफी बढ़ी
- Llama-3.2-3B में सुधार सीमित रहा
मुख्य सवाल यह है कि initial language model की कौन-सी properties आगे की improvement क्षमता तय करती हैं
code GitHub repository पर उपलब्ध है

self-improvement में मदद करने वाले चार reasoning behaviors

analysis का focus model output में साफ पहचान में आने वाले चार cognitive behaviors पर है
- verification: answer या intermediate steps को व्यवस्थित रूप से check करना
- backtracking: failed approach को छोड़कर दूसरे approach पर लौटना
- subgoal setting: problem को manageable steps में बांटना
- backward chaining: desired result से शुरू करके initial input तक पीछे की ओर reason करना
ये behaviors कुशल human problem-solving से मिलते-जुलते हैं
- mathematician proof के हर step को verify करता है
- contradiction मिलने पर backtrack करता है
- complex theorem को simpler lemmas में बांटता है
ये चार behaviors language model की सामान्य linear reasoning से आगे जाकर कई paths explore करने और उन्हें revise करने वाली reasoning को capture कर सकते हैं
अन्य cognitive behaviors भी मौजूद हैं, लेकिन इन चारों की definitions साफ हैं और इन्हें model output में अपेक्षाकृत आसानी से पहचाना जा सकता है

Qwen और Llama के initial behavior में अंतर

initial analysis में Qwen ने जरूरी reasoning behaviors ज्यादा स्वाभाविक रूप से दिखाए
- खासकर verification और backtracking प्रमुख रहे
Llama में initial state में ये behaviors कम थे
यह hypothesis रखा गया कि long reasoning sequences और बढ़े हुए test-time compute का efficient उपयोग करने के लिए specific reasoning behaviors का initial policy में होना जरूरी है
Figure 1 Countdown पर दोनों models की performance, reinforcement learning के दौरान response length में बदलाव, और specific reasoning characteristics के उभरने के pattern की तुलना करता है

behavior priming: सही जवाब से ज्यादा reasoning pattern

पहला intervention Llama को desired reasoning behaviors वाले synthetic reasoning traces से prime करने का था
ऐसे examples देखने के बाद Llama reinforcement learning में काफी improve हुआ और Qwen की performance trajectory के बराबर स्तर तक पहुंच गया
खास तौर पर backtracking वाले reasoning traces ने महत्वपूर्ण भूमिका निभाई
बिना correct answer वाले solutions से prime करने पर भी, अगर उनमें सही reasoning pattern मौजूद हो, तो performance में समान improvement दिखता है
इस experiment में performance तय करने वाला factor correct answer खुद नहीं, बल्कि reasoning behavior की मौजूदगी था

continued pretraining से behavior distribution बदलना

OpenWebMath data का उपयोग करके continued pretraining भी experiment का हिस्सा बना
data को इस तरह filter किया गया कि reasoning behaviors अधिक स्पष्ट रूप से दिखें
filtered data को Query, Thought, Answer format में restructure किया गया
इस तरीके से Llama को train करने पर जरूरी behavior patterns induced होते हैं और वह test-time compute का अधिक efficient उपयोग कर सकता है
परिणामस्वरूप Llama की improvement trajectory Qwen के बराबर स्तर तक बदल जाती है

initial reasoning habits improvement क्षमता तय करती हैं

model के initial reasoning behaviors और self-improvement क्षमता के बीच मजबूत संबंध है
Qwen और Llama का अंतर दिखाता है कि समान reinforcement learning procedure में भी initial behavior patterns के आधार पर outcomes बदल सकते हैं
सही reasoning behaviors वाला model extra compute का उपयोग करके longer reasoning को प्रभावी ढंग से कर सकता है
जिन models में ये behaviors कम हैं, वे समान training conditions में भी जल्दी plateau हो सकते हैं
initial reasoning behaviors को समझना और induce करना, problem-solving क्षमता को वास्तव में improve करने वाले AI systems के development से जुड़ा है

1 टिप्पणियां

GN⁺ 2025-03-08

Hacker News की राय

“विशेषज्ञ मानव problem solvers और सफल language models, दोनों द्वारा इस्तेमाल किए जाने वाले चार मुख्य cognitive behaviors — verification, वापस लौटना, sub-goal setting, backward reasoning” वाला हिस्सा दिलचस्प है
AI को बेहतर बनाते-बनाते शायद हम अनजाने में मानव intelligence को भी बेहतर बनाने के तरीके खोज लें
हाल में exam की तैयारी करते समय मुझे ऐसा ही एक निजी अनुभव हुआ; practice problems पढ़ते हुए मैंने Deepseek R1 के reasoning के तरीके और अंदाज़ की नकल करते हुए ज़ोर से बोलकर सोचा
लंबे और विस्तृत R1 outputs बहुत पढ़ने से मेरा brain मानो reasoning tasks के लिए fine-tune हो गया था, और मुझे लगता है कि उस तरीके ने exam में अच्छे marks लाने में मदद की
- यह एक जाना-माना तरीका है। सोच की प्रक्रिया को शब्दों में खोलकर बताना, चाहे ज़ोर से बोलकर हो या लिखकर, यह जांचने की पुरानी strategy है कि आप सच में सोच रहे हैं या बस ऊपर-ऊपर से आगे बढ़ रहे हैं
  विडंबना यह है कि मैंने ऐसे लोगों को भी देखा है जिन्हें चिंता है कि AI का इस्तेमाल लोगों से यही ability छीन लेगा
  फिर भी इसमें संभावना है, और मैं सच में उम्मीद करता हूँ कि AI research करते हुए हमें human intelligence सुधारने के तरीके भी मिलें
  निराशावादी नजरिए से भी देखें तो यह कम से कम उन approaches को उजागर कर सकता है जिन्हें लोग अनजाने में इस्तेमाल करते हैं; और जब आपको पता हो कि आप क्या कर रहे हैं, तो उसे बेहतर train करना कहीं आसान हो जाता है
- मैं भी इस तरीके का इस्तेमाल programming problems पर करता हूँ, जिन्हें आम तौर पर टालकर अवचेतन पर छोड़ देता
  thinking steps को सचमुच लिख डालने से सीमित working memory के कारण होने वाले गलत reasoning steps या उसी जगह अटके रहने को व्यवस्थित करने में मदद मिलती है
  reasoning-based AI को सोचते हुए देखने के बाद मैंने इसे ज्यादा rigor से करना शुरू किया, और यह काफी उपयोगी thinking technique लगी
  ऐसे reasoning AI models मुझे अपनी सोच को ही meta level पर देखने देते हैं, और सुधार के लिए इस्तेमाल किए जा सकने वाले tools दिखाते हैं
  अच्छा लगा कि ऐसा महसूस करने वाला मैं अकेला नहीं हूँ
- ज़ोर से सोचना एक पुरानी practice है, और यह अपने-आप से की जाने वाली “rubber duck debugging” जैसा है
  समस्या हल करते समय खुद से बड़बड़ाने वाली पुरखों की परंपरा से आने वाले व्यक्ति के तौर पर, invigilated exams में यह कभी-कभी छोटा-सा disadvantage भी बन गया। inner monologue और actual speech काफी अलग हैं
- लगता है computer scientists cognitive scientists का cosplay कर रहे हैं, जबकि उन्होंने psychology की एक भी class नहीं ली
- वे चारों चीजें एक integrated cognitive algorithm जैसी लगती हैं। समस्या को sub-goals में तोड़कर ontology बनाना, काम को ठीक से verify करना, गलतियों को debug करने के लिए उल्टा सोचते हुए दोबारा कोशिश करना, और result से पीछे की ओर reasoning करना
  आखिरकार यह मुश्किल problems हल करने का एक algorithm है, practice की जा सकने वाली skill है, और जितना सीखते जाते हैं उतना खुद ही और build होती जाती है
अब तो सिर्फ title देखकर समझ नहीं आता कि यह self-help psychology trend है या LLM paper
- जल्द ही The Subtle Art of Not Giving a Fuck के first principles भर से reasoning करने वाला LLM भी आ जाएगा लगता है
AI training techniques की जानकारी ने लोगों को बेहतर सोचने के लिए train करने के तरीके खोजने में कितनी मदद की होगी?
- extreme cases जैसे obesity से बचने के लिए कैसे खाना चाहिए, इसका ज्ञान पहले से था, लेकिन उसके असर को देखकर समझ आ जाता है
  जब तक सोच को बेहतर बनाने वाली गोली नहीं आती, तब तक सिर्फ motivated लोग ही इसे अपनाएँगे, और इस case में motivated लोग शायद पहले से ही कर सकते थे
- मेरी background education में है, इसलिए मैं अक्सर उल्टा सवाल पूछता हूँ। AI techniques human learning के बारे में हमारी जानकारी का बहुत कम इस्तेमाल करके better AI train करने की कोशिश क्यों नहीं करतीं?
- अभी तक लगता है कि कुछ खास दिलचस्प नहीं मिला
“सही reasoning patterns वाले गलत जवाबों से तैयार किया गया model, सही जवाबों से trained model जैसा performance देता है” वाला हिस्सा replication study करने लायक सबसे अहम बातों में से एक है
Reddit पर कभी-कभी लोग inner monologue के अपने अनुभवों के बारे में लिखते हैं, लेकिन मेरे पास ऐसा monologue नहीं है। कम से कम उस रूप में नहीं, जिस तक mind का वह हिस्सा पहुँच सके जो खुद को ‘मैं’ कहता है
मैं अक्सर सोचता था कि क्या वह monologue किसी तरह की ‘chain of thought’ जैसा है
मुझे लगता है कि शायद ऐसे ‘idea feed’ तक access न होने से मेरी planning या executive function दूसरों की तुलना में कम effective हो सकती है
फिर भी ऐसे tasks में छोटा-सा ‘chain of thought’ notepad इस्तेमाल करने से मैं कहीं ज्यादा effective हो जाता हूँ
दूसरी ओर, अगर पूरे दिन कान में किसी के बोलते रहने जैसा हाल हो, तो उसके साथ आने वाली rumination, self-doubt, anxiety behaviors शायद मुझमें कम हैं; हालांकि यह topic से भटकना होगा
- मन में language-based तरीके से thoughts बिल्कुल बनते ही नहीं? जिज्ञासा है कि क्या आप कोई sentence पढ़कर उसे मन में sentence की तरह पहचान सकते हैं, या वह भी संभव नहीं है
  शक नहीं कर रहा, सच में जानना चाहता हूँ। बहुत strong inner monologue वाले व्यक्ति के लिए उसके बिना state की कल्पना करना मुश्किल है
- सच में जिज्ञासा से पूछ रहा हूँ, तो multi-step reasoning कैसे काम करता है?
  उदाहरण के लिए 16 * 3 + 5 जैसी math problem हो, जिसमें हर step आसान है लेकिन कई steps चाहिए, तो 16 * 3 = 48 वाला value brain के किस ‘register’, यानी short-term memory, में कैसे जाता है, और उसमें 5 जोड़कर 53 तक कैसे पहुँचते हैं?
  16 * 3 + 5 इतना आसान है कि शायद बस ‘दिख’ जाए, इसलिए कोई ज्यादा complex problem चुन लें, तब भी सवाल वही है
  ज्यादा ambiguous topics पर सोचते समय भी क्या वही meta process काम नहीं करता?
- मेरे पास inner monologue है। साथ ही मैं pictures में भी सोच सकता हूँ, और दोनों नहीं बल्कि pure thought के रूप में भी सोच सकता हूँ
  मुझे लगता है ज्यादातर लोग मेरे जैसे हैं। सोचने के तीन modes होते हैं, और कोई preferred main mode होता होगा
  मेरी कोई खास preference नहीं है; reading, writing और दूसरे tasks के हिसाब से मैं तीनों modes के बीच आता-जाता हूँ
  दूसरा बड़ा group वे लोग हैं जिनका main thinking mode सिर्फ एक है, यानी inner monologue
  ये लोग सिर्फ inner voice से सोच सकते हैं, और वह voice इतनी strong होती है कि कई लोग inner voice को ही thinking की definition मान लेते हैं। वे मानते हैं कि thinking यानी chain of thought
  ज्यादा दुर्लभ cases में कुछ लोग numbers को colors देते हैं, या कुछ लोगों में pictures में सोचने का एहसास ही नहीं होता
  मैंने पहली बार किसी को कहते देखा है कि वह inner monologue रख ही नहीं सकता
- मन में किसी भी चीज की image न बना पाने वाली aphantasia नाम की एक दिलचस्प phenomenon है। ऐसे लोग सामान्य रूप से जीवन जीते हैं, और उन्हें पूरी जिंदगी पता भी नहीं चल सकता कि वे अलग हैं
  यह मन में speech sounds की image बनाने की ability के लिए वैसी ही कोई concept लगती है
  https://en.m.wikipedia.org/wiki/Aphantasia
  हालांकि मेरी ज्यादातर सोच linear monologue के रूप में नहीं होती, जिसमें मैं steps खुद को “बोलकर समझाता” चलूँ
- क्या मतलब है कि आप language में सोच नहीं सकते? सच कहूँ तो यह थोड़ा डरावना लगता है
बात सही है, लेकिन self-improving AI के साथ सोचने का एक थोड़ा बेचैन करने वाला तरीका भी आता है
AI अंदरूनी तौर पर किसी बेतुकी बड़बड़ाहट जैसी भाषा में शिफ्ट हो जाता है, लेकिन AIs आपस में साफ तौर पर अर्थ पहुंचाते हैं, उसी भाषा में सोचते हैं और फिर सही जवाब निकालते हैं
इससे भी खराब बात यह है कि अगर कई agents इस्तेमाल करके AI LLMs को आपस में बातचीत कराई जाए, तो सभी AI agents इस internal language में शिफ्ट हो जाते हैं, और इंसान को बिल्कुल समझ नहीं आता कि क्या हो रहा है, फिर भी वे प्रगति कर लेते हैं। यह बहुत खराब लगता है
उदाहरण: अगर पूछा जाए, “strawberry में कितने r हैं?”, तो वह शब्द को spelling के हिसाब से देखते हुए a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j जैसे तरीके से process करने के बाद जवाब दे कि “strawberry में 3 r हैं”
- मैंने सुना है इसे “Neuralese” कहा जाता है। यह बात plausible लगती है कि model के internal dialogue के लिए यह सबसे dense language बन सकती है। अगर वे वही weights share करते हों, तो LLMs के बीच बातचीत में भी यही होगा
  Alignment strategy जितनी Deliberative Alignment पर निर्भर करती है, उतना ही वह ऐसी घटना को penalty देगी, लेकिन मुझे लगता है किसी point पर Neuralese conceptually ज्यादा compact होने के कारण वास्तविक performance cost पैदा होगी
- Models खुद कोई नई भाषा invent नहीं करेंगे। परिभाषा के हिसाब से वे ऐसी भाषा में “सोच” भी नहीं सकते जिसे उन्होंने कभी देखा ही न हो
  उन्हें यह विचार भी नहीं आएगा कि वे जो भाषा इस्तेमाल कर रहे हैं वह optimal नहीं हो सकती
  और अगर सोचने का कोई बेहतर तरीका हो भी, तो आखिरकार उसे English में explain किया जा सकेगा
  ज्यादा plausible flow यह है कि हम LLM को reasoning methods सिखाने वाले चरण से धीरे-धीरे उस चरण में जाएंगे जहां LLM पर्याप्त data सचमुच खाकर और process करके ज्यादा effective reasoning methods सीखता है और फिर उन्हें हमें “सिखाता” है
  फिर भी वह सिर्फ इस बात को reflect करेगा कि LLM को कैसे train और align किया गया है
कहा गया है, “चार core cognitive behaviors जिन्हें expert human problem solvers और सफल language models दोनों इस्तेमाल करते हैं — verification, backtracking, subgoal setting, backward chaining”, लेकिन expert human problem solvers ऐसे तरीके इस्तेमाल करते हैं, इसका आधार क्या है?
- AI को लेकर अविश्वास को थोड़ी देर के लिए अलग रख दें, तो इस तरह का pseudoscience भी सब plausible लगने लगता है
क्या इसका मतलब है कि इन behaviors को induce करने वाला बेहतर system prompt देने से performance भी काफी बेहतर हो जाएगी?
- मेरे अनुभव में models ऐसे prompts को ठीक से follow नहीं कर पाते
  Claude 3.5 जैसा smart “non-reasoning” model यह कर पाता था, लेकिन सोचते समय इतना ज्यादा text generate करता था कि context window पूरी खर्च हो जाती थी
Abstract में ``think'' लिखा है, और यहां आम double quotes से अलग characters इस्तेमाल किए गए हैं
- वह opening quote और closing quote दिखाने वाला LaTeX syntax है
  हालांकि rendered paper में अजीब तरह से वह उस तरह render नहीं होता

सेल्फ-इम्प्रूविंग reasoners को संभव बनाने वाले cognitive behaviors

समान reinforcement learning में भी अलग-अलग self-improvement क्षमता

self-improvement में मदद करने वाले चार reasoning behaviors

Qwen और Llama के initial behavior में अंतर

behavior priming: सही जवाब से ज्यादा reasoning pattern

continued pretraining से behavior distribution बदलना

initial reasoning habits improvement क्षमता तय करती हैं

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय