Meta Chain-of-Thought से सोचने का तरीका सीखना

(arxiv.org)

2 पॉइंट द्वारा GN⁺ 2025-01-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Meta Chain-of-Thought(Meta-CoT) एक ऐसा framework है जो केवल अंतिम समाधान चरणों का उपयोग करने वाले CoT से आगे बढ़कर, उत्तर तक पहुँचने से पहले की अंतर्निहित सोच प्रक्रिया को भी मॉडल करने की कोशिश करता है
कठिन गणित समस्याओं में पाठ्यपुस्तक-शैली का अंतिम समाधान वास्तविक सोच के अन्वेषण·सत्यापन·प्रयोग को छोड़ देता है, जिससे मॉडल के लिए समाधान-निर्माण प्रक्रिया सीखना कठिन हो जाता है
GPT-4o और Claude भी कुछ algebraic expression evaluation में विफल हो सकते हैं, लेकिन “step by step” CoT मध्यवर्ती गणनाएँ बढ़ाकर सही उत्तर की संभावना बढ़ाता है और reasoning compute के अंतर को उजागर करता है
OpenAI o1 परिवार HARP जैसे कठिन गणित benchmark में अधिक लंबे outputs बनाता है और प्रदर्शन अंतर को बढ़ाता है, जिससे inference-time search से मिलते-जुलते व्यवहार दिखाई देते हैं
Meta-CoT को लागू करने का मार्ग process supervision, synthetic data, MCTS·A* search, linearized search trace-आधारित instruction tuning, और reinforcement learning post-training को जोड़ने वाली एक training pipeline के रूप में प्रस्तावित है

Meta-CoT किस समस्या को लक्ष्य बनाता है

वर्तमान large language models की नींव next token prediction है, जिसमें text या continuous modalities को discrete token sequences में बाँटकर अगले token की संभावना को अधिकतम करने के लिए train किया जाता है
इस दृष्टिकोण के पीछे “compression is intelligence” जैसी सोच है
- अगले token का अनुमान लगाने के लिए मॉडल को data distribution का approximation करना होता है और activations के भीतर implicit reasoning करना होता है
मुख्य प्रश्न data stream की complexity और मॉडल की data-generating algorithm सीखने की क्षमता के बीच संबंध का है
गणितीय reasoning इस प्रश्न का मूल्यांकन करने के लिए एक अच्छा क्षेत्र है
- “1+2” जैसे प्रश्नों का उत्तर ज़्यादातर मॉडल तुरंत “3” देते हैं
- अधिक जटिल algebraic expression evaluation समस्याएँ वास्तव में 1 तक सरल हो सकती हैं, लेकिन GPT-4o और Claude जैसे शक्तिशाली LLM भी कभी-कभी एक बार भी सही उत्तर नहीं दे पाते
“think step by step” निर्देश और CoT मॉडल को मध्यवर्ती चरण उत्पन्न करने के लिए प्रेरित करते हैं, जिससे प्रदर्शन में बड़ा सुधार होता है
- उदाहरण algebraic expression में factorization, cancellation, और common denominator calculation के बाद मान 1 निकलता है

मौजूदा CoT की सीमाएँ

CoT विस्तार सैद्धांतिक रूप से सही token prediction पर मनमानी मात्रा में computation लगाने की अनुमति देता है
मौजूदा सैद्धांतिक साहित्य का मानना है कि CoT LLMs को अभिव्यक्ति-जटिलता का एक नया स्तर देता है, और infinite memory जैसी मान्यताओं के तहत यह Turing-completeness तक भी पहुँच सकता है
वास्तविक LLM अब भी केवल सीमित complexity वाली समस्याएँ ही स्थिर रूप से हल कर पाते हैं
जटिल reasoning की वास्तविक data-generation process सामान्य CoT data में पर्याप्त रूप से मौजूद नहीं होती
- सरल समस्याओं की पाठ्यपुस्तक-शैली समाधान प्रक्रिया वास्तविक समाधान-निर्माण प्रक्रिया से अपेक्षाकृत अच्छी तरह मेल खाती है
- जटिल समस्याओं के अंतिम समाधान चरण उस समाधान तक पहुँचने से पहले की non-linear search process को छोड़ देते हैं

Meta Chain-of-Thought की परिभाषा

Meta-CoT प्रश्न से सीधे अंतिम समाधान चरणों और उत्तर तक जाने के बजाय, उससे पहले मौजूद latent thoughts z1 ... zK को मॉडल करता है
पारंपरिक CoT में उत्तर a, समाधान चरणों s1 ... sn पर condition किया गया माना जा सकता है
Meta-CoT में समाधान चरण और उत्तर (a, s1 ... sn) latent thought process z1 ... zK पर condition किए गए माने जाते हैं
यह मौजूदा CoT तर्क का एक-स्तर-ऊपर generalization है, जो अंतिम समाधान के बाहर की सोच प्रक्रिया को भी learning target में शामिल करता है
जटिल समस्याओं में अंतिम समाधान छोटा हो सकता है, लेकिन उस समाधान को खोजने की प्रक्रिया लंबी और non-linear हो सकती है

IMO 2011 “windmill” समस्या का उदाहरण

International Mathematics Olympiad 2011 की प्रसिद्ध windmill समस्या को जटिल reasoning के उदाहरण के रूप में उपयोग किया गया है
इस समस्या का सार्वजनिक समाधान कुछ वाक्यों में व्यक्त किया जा सकता है और इसके लिए किसी विशेष पूर्व-ज्ञान की आवश्यकता भी नहीं होती
वास्तविक कठिनाई इस बात में है कि समाधान की संरचना बहुत non-linear है
- कई प्रतिभागियों ने convex hull निर्माण या Hamiltonian graph theory tools आज़माए, लेकिन वे समाधान तक नहीं पहुँचे
- जिन्होंने समस्या हल की, उन्होंने geometry-based exploration और inductive reasoning से भरपूर अधिक प्रयोगात्मक दृष्टिकोण अपनाया
अंतिम समाधान की शुरुआती रचना तभी उपयोगी लगती है जब पूरी approach पहले से ज्ञात हो
इसलिए वास्तविक समाधान-निर्माण प्रक्रिया बाएँ से दाएँ चलने वाली autoregressive पद्धति से अच्छी तरह मेल नहीं खाती

HARP परिणाम और o1 परिवार का token उपयोग

चर्चा यह है that OpenAI o1 model family inference-time पर autoregressive तरीके से Meta-CoT reasoning करती है
HARP math benchmark में o1 परिवार ने मौजूदा standard reasoning models की तुलना में समग्र रूप से बेहतर प्रदर्शन दिखाया
जैसे-जैसे कठिनाई बढ़ती है, o1 और अन्य मॉडलों के बीच प्रदर्शन अंतर भी बढ़ता है
- हालांकि LLaMa 3.1 model में एक रोचक अपवाद देखा गया
token generation मात्रा में भी o1 परिवार मौजूदा मॉडलों से अलग व्यवहार दिखाता है
- Level 1 समस्याओं में यह मनुष्यों द्वारा लिखे गए समाधान के समान संख्या में tokens उत्पन्न करता है
- अधिक कठिन स्तरों पर यह प्रति समस्या कहीं अधिक tokens उत्पन्न करता है, और साथ ही मौजूदा मॉडलों की तुलना में प्रदर्शन अंतर भी बढ़ता है
कठिन समस्याओं के सार्वजनिक समाधान वास्तविक generation process का प्रतिनिधित्व नहीं करते, और यह मान्यता बनती है कि o1 परिवार का लंबा Meta-CoT उस प्रक्रिया का बेहतर approximation हो सकता है

खोज और सत्यापन की भूमिका

जटिल goal-directed समस्याओं में generation और verification के बीच अर्थपूर्ण difficulty gap हो सकता है
यह अंतर सैद्धांतिक computer science की एक मूल open problem से जुड़ा है, लेकिन इसे सिद्ध करना इस शोध के दायरे से बाहर है
text corpus में मौजूद कठिन समस्याओं के उत्तरों को एक लंबी search process का परिणाम माना जा सकता है
लेकिन वह search process स्वयं आमतौर पर data में व्यक्त नहीं होती
यदि Meta-CoT data अनुपस्थित हो या बहुत सीमित हो, तो मॉडल के लिए कठिन reasoning की वास्तविक generation process को सीधे सीखना मुश्किल हो जाता है

LLaMa 3.1 8B प्रयोग

LLaMa 3.1 8B base model पर Numina MATH dataset का उपयोग करके बड़े पैमाने पर supervised fine-tuning किया गया
प्रत्येक intermediate checkpoint का मूल्यांकन Hendrycks MATH के 500-प्रश्न evaluation dataset पर किया गया
oracle verifier का उपयोग करने वाले pass@k evaluation में यह देखा गया कि k बढ़ने पर प्रदर्शन काफ़ी बढ़ता है
Figure 2 दिखाता है कि filtered dataset, original dataset की तुलना में बेहतर scaling दिखाता है और अभी plateau तक नहीं पहुँचा है
pass@2 से pass@64 तक k बढ़ाने पर छोटे मॉडल में भी कम-से-कम एक सही समाधान मिलने की संभावना काफ़ी बढ़ जाती है

training path और खुले प्रश्न

Meta-CoT बनाने के लिए process supervision और search-based synthetic data generation जैसे तरीकों पर चर्चा की गई है
synthetic Meta-CoT generation में Monte Carlo Tree Search(MCTS) और A* search जैसे search algorithms शामिल हैं
एक single end-to-end system को लक्ष्य बनाने वाली pipeline, linearized search traces का उपयोग करने वाले instruction tuning और reinforcement learning post-training को जोड़ती है
“Big MATH” project, 1,000,000 से अधिक उच्च-गुणवत्ता वाले verifiable math problems एकत्र करके इस शोध को समर्थन देने का प्रयास है
खुले शोध प्रश्नों में reasoning और search के scaling laws, verifier की भूमिका, और meta-RL के माध्यम से नए reasoning algorithms खोजने की संभावना शामिल है

1 टिप्पणियां

GN⁺ 2025-01-12

Hacker News की रायें

CoT की आलोचना भरोसेमंद लगती है। खासकर algorithmic imitation और असली cognitive exploration के बीच के disconnect को पकड़ने वाला हिस्सा अहम है
लेखक International Mathematical Olympiad के “windmill problem” जैसे उन्नत गणितीय उदाहरणों से दिखाते हैं कि brute-force क्रमिक सोच से कुछ समस्याएं हल करना मुश्किल है। static dataset और rigid generation process पर निर्भर framework की सीमाएं सामने आती हैं। CoT इसलिए fail नहीं होता कि वह answer generate नहीं कर पाता, बल्कि इसलिए कि उसमें इंसानी creativity की तरह answer सूझने का तरीका नहीं होता
“Superintelligence नई चीज़ें खोजना नहीं है, बल्कि खोजने के नए तरीके खोजना है” वाली पंक्ति प्रभावशाली है
- तो आगे चलकर “खोजने के नए तरीके खोजने के नए तरीके” की जरूरत वाली समस्याएं भी आएंगी, और यह सिलसिला ऐसे ही चलता रह सकता है
- इसे meta-reasoning से train कर सकते हैं। लोग discovery के तरीकों को कैसे discover करते हैं, उस process को train कराना होगा; इसलिए यह बहुत बड़ी समस्या नहीं लगती, dataset बनाकर train कर दें वाली बात है
- अंत में quote की गई पंक्ति अच्छी है। उत्सुकता है कि किसी को उसका original source याद है या नहीं
- windmill problem के बारे में https://www.3blue1brown.com/lessons/windmills है
पेपर का बड़ा विचार यह है कि CoT कुछ complex problems में सीमित है। कुछ समस्याएं ऐसी होती हैं जिनमें solution खोजने का कोई “textbook” तरीका नहीं होता, और ऐसी समस्याओं के लिए अपनी अलग methodology चाहिए
“मूल रूप से answer generation शुरू करने के लिए आपको पहले से पूरा approach पता होना चाहिए। answer के आधार में मौजूद generation process बाएं से दाएं चलने वाली autoregressive process नहीं है” — यह हिस्सा मुख्य है
गणितीय रूप से इसे reasoning को latent variable process मानने वाली व्याख्या के रूप में formalize किया जा सकता है। classic CoT final answer की probability को latent reasoning chain पर marginalization के रूप में देखता है, जबकि complex problem का असली answer-generation process ऐसा माना जाना चाहिए जिसमें answer की joint probability distribution latent generation process पर conditional हो। इसलिए q → z1 → … → z को Meta-CoT कहा जाता है
यह काफी महत्वपूर्ण starting point लगता है। उदाहरण के लिए, अगर o1-pro से पूछा जाए कि 1550nm laser diode को 1GHz पर चलाते हुए महंगे collimator के बिना generic materials या नए manufacturing approach, और first-principles physics से geometric loss कैसे घटाया जाए, तो o1-pro के बहुत शानदार होने का भ्रम टूट जाता है। “नई” engineering अभी भी पहुंच से दूर है, और ऐसी engineering कैसे की जाए इसकी कोई textbook नहीं है, इसलिए ऐसी समस्याएं बाएं से दाएं autoregressively हल नहीं होतीं
- हैरानी होती है कि goalpost कितना खिसक गया है
  अब लगता है कि किसी AI model को “शानदार” कहलाने के लिए किसी भी मुश्किल field में इंसानों द्वारा अभी तक न सुलझाई गई समस्या देने पर अच्छा solution निकालना चाहिए। ऐसी AI बेशक शानदार और दुनिया बदलने लायक होगी, लेकिन उससे कम होने पर अब “शानदार नहीं” मानने का standard काफी चौंकाने वाला है
- शक है कि इंसान भी इस समस्या का सही solution physical reality से query किए बिना, यानी experiment किए बिना, दे पाएंगे या नहीं
  reality का कुछ हिस्सा non-computable है, इसलिए आखिरकार universe को खुद simulation करने देना ही पड़ेगा, तभी वहां तक पहुंचा जा सकता है
- “solution खोजने का textbook तरीका न होने वाली समस्या” वाली बात LLM के साथ मेरे अनुभव से अलग है
  जब मैंने ऐसे तरीके से सवाल पूछा जिसे ज्यादातर लोग समझ नहीं पाएंगे, तब भी जवाब देखकर लगा कि उसने सवाल को सही तरह interpret किया है। जवाब सही है या नहीं, यह अलग बात है, लेकिन textbook example से अलग interpretation भी कुछ हद तक दिखा
- “नई engineering करने का कोई textbook नहीं है” सही, लेकिन scientific method पर किताबें तो हैं न
  दूसरे comments जैसा कहते हैं, जिन कामों में experiment और observation चाहिए, उन्हें किसी box में बंद superintelligence से पता लगाने की उम्मीद करना physically लगभग असंभव है। बात pure math जैसे क्षेत्रों तक सीमित रह जाएगी, जहां कागज पर लिखकर सिर्फ axioms के बारे में सोचना होता है, और ऐसे ही क्षेत्र progress के लिहाज से सबसे कठिन में आते हैं। इंसानियत भी हजारों साल में कई polymaths के बहुत छोटे-छोटे योगदानों से यहां तक पहुंची है
क्या research community इस बात पर सहमत है कि “language model क्रमिक शब्दों के बीच correlation को सिर्फ मिलाता नहीं, बल्कि text का implicit meaning सीखता है”? उत्सुकता है कि क्या इस विषय पर कोई paper है
- research community इस पर बिल्कुल सहमत नहीं है; कई खेमे हैं। Natural language processing में मोटे तौर पर दो दृष्टिकोण हैं
  2020 के Bender और Koller paper[1] में दलील दी गई कि meaning सिर्फ form से नहीं सीखा जा सकता, और LLM form से trained होते हैं। Paper के “The Octopus Test” thought experiment में एक octopus आता है जो दो इंसानों की बातचीत intercept कर सकता है, लेकिन समझाया गया है कि “training data में सिर्फ form होने की स्थिति में उसने meaning नहीं सीखा”
  इसके विपरीत, Yoav Goldberg का लेख[2] groundedness और LLM क्या सीखते हैं, इसे ज़्यादा informal तरीके से देखता है। कुल मिलाकर तर्क यह है कि instruction tuning और post-training “summarize” जैसे terms को meaningful तरीके से ground कर सकते हैं
  [1] https://aclanthology.org/2020.acl-main.463/
  [2] https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8...
- मुझे हमेशा लगता है कि “text का implicit meaning” और “क्रमिक शब्दों के बीच correlation” के बीच शायद असल में कोई फर्क नहीं है
  LLM का इंसानों से प्रभावी ढंग से communicate कर पाना neural network की intelligence के बारे में खोज से ज़्यादा, मानवीय communication semantics की नियमितता के बारे में खोज जैसा है
- यह निश्चित रूप से agreed बात नहीं है। Computer science में theory of meaning मूलतः discipline का हिस्सा नहीं है, और संबंधित prior research background वाले लोग भी बहुत कम हैं, इसलिए ऐसे bold claims जगह-जगह दिखते हैं
  Natural language semantics को चाहे जैसे भी assign करें, यह मानना मुश्किल है कि machine learning model उस semantics का उपयोग करता है
  ज़्यादा से ज़्यादा इतना कहा जा सकता है कि Transformer-style supervised learning, यानी “next word prediction” objective के तहत शब्दों की correlation structure natural language semantics की बेहद rough approximate distribution बनाती है। यह अपने-आप में कभी विवादित नहीं रहा; मुद्दा यह है कि यह किस तरह का extreme approximation है
  उदाहरण के लिए, “मेरे हाथ में pen है” की truth conditions यह हैं कि सचमुच मेरे हाथ में pen हो। उस context में इस बात का meaning रखने के लिए इन truth conditions तक direct access होना बहुत plausibly ज़रूरी है। Machine के पास ऐसे utterance की truth conditions तक access नहीं हो सकता, इसलिए वह उस बात का meaning नहीं रख सकती
  अगर machine उपयुक्त स्थिति में “मेरे हाथ में pen है” कहती है, तो “natural language semantics का extreme approximation” उस स्थिति और “उपयुक्तता” क्या है, इस बारे में है
  LLM और computer science-style thinking की आलोचना करने वाले दृष्टिकोण से, जिन “स्थितियों” में ऐसा response उचित दिखता है, यानी prompt conditions का दायरा, बहुत संकरा माना जाता है। User को response उचित दिखना tool के अच्छे से काम करने की engineering condition है, इसका मतलब यह नहीं कि model natural language semantics समझता है
  इसलिए कहा जा सकता है कि LLM सीमित स्थितियों में semantics समझने वाले agents के बीच conversation को approximate करते हैं, और उचित language use को model करते हैं। इसे “average answer appropriateness” model कहा जा सकता है, लेकिन यह “मेरे हाथ में pen है” को सचमुच mean नहीं कर सकता
“compression is intelligence” वाले principle या Solomonoff induction को आधार बनाने वाली भाषा से सावधान रहना चाहिए
ऊपर उद्धृत “A Formal Theory of Inductive Inference” के दोनों parts में “intelligence” शब्द 0 बार, “Compression” भी 0 बार, और “reasoning” सिर्फ “using similar reasoning” phrase में 1 बार आता है
स्वाभाविक रूप से Solomonoff की रुचि inductive inference में थी। उन्होंने कभी “compression is intelligence” कहा था या नहीं, मुझे नहीं पता, और यह idea और slogan काफी बाद में विकसित हुए लगते हैं। Original source भी स्पष्ट नहीं है
Solomonoff induction का symbol sequence में next symbol predict करने की problem से गहरा संबंध है, यह सही है, लेकिन वह language token ही हो, यह ज़रूरी नहीं। LLM को “early stage” कहना जैसा common expression गलत है। Language modeling computer science standards से लगभग प्राचीन technology है, और technical maturity stage में बहुत पहले ही प्रवेश कर चुकी है
[1] https://raysolomonoff.com/publications/1964pt1.pdf
[2] https://raysolomonoff.com/publications/1964pt2.pdf
- यह कहना काफी reasonable है कि intelligence compression का एक रूप है। Inductive model छोटा होता है, लेकिन संभावित रूप से मनमानी मात्रा की information generate कर सकता है
विचारशील काम है। कुछ महीनों से संबंधित ideas पर सोच और काम कर रहा था, लेकिन अभी तक similar scale के compute resources इस्तेमाल नहीं कर पाया, और direction भी कुछ अलग रही हो सकती है
यह research decoder Transformer architecture का बेहतर उपयोग करने के लिए baseline बनाने में निश्चित रूप से मदद करती है
यहाँ Meta से मतलब company Meta है, या “meta” शब्द का इस्तेमाल है? या दोनों?
- यह शब्द के रूप में इस्तेमाल हुआ है
  https://chatgpt.com/share/67813a3f-c7e8-8001-ab0c-7f024bc41a...
सोच रहा हूँ कि यह जानने का कोई तरीका है क्या कि कितनी बार researchers खुद के सोचे हुए ideas पर research करते हैं, और कितनी बार online independent developer द्वारा किए जा रहे काम पर ध्यान जाता है, फिर उस पर research होती है और paper निकलता है
Paper में simple substitution-style algebraic equations और उनके step-by-step solutions को example के तौर पर देना, इस धारणा को मजबूत करता है कि LLM सिर्फ पहले देखी गई solution recipes ही reproduce कर सकते हैं
असल में यह उससे बहुत अलग नहीं है जिस तरह हम school में math सीखते हैं। Teacher starting point दिखाता है, और step by step अंत तक ले जाता है। इसे “Meta Chain-of-Thought” कहना basic curriculum को बढ़ा-चढ़ाकर पेश करने जैसा लगता है
अगली बार शायद basic cutlery उठाने की क्रिया को “hierarchical physical kinetics” जैसा कोई जबरदस्ती का नाम दे दिया जाएगा। School में इस “Meta Chain-of-Thought” को बस “solution steps दिखाओ” कहा जाता था। क्या यह सचमुच ऐसा “phenomenon” है जिसे explain करने की जरूरत है? Logical induction, यानी हम reasoning steps कैसे हासिल करते हैं, इसके बारे में शायद हम और सीख सकते हैं, लेकिन अभी हम soup में इतने गहरे हैं कि pot का shape ठीक से describe नहीं कर सकते
- “सिर्फ पहले देखी गई recipes reproduce कर सकते हैं” यह LLM की बात है या आपकी अपनी, समझ नहीं आया

Meta Chain-of-Thought से सोचने का तरीका सीखना

Meta-CoT किस समस्या को लक्ष्य बनाता है

मौजूदा CoT की सीमाएँ

Meta Chain-of-Thought की परिभाषा

IMO 2011 “windmill” समस्या का उदाहरण

HARP परिणाम और o1 परिवार का token उपयोग

खोज और सत्यापन की भूमिका

LLaMa 3.1 8B प्रयोग

training path और खुले प्रश्न

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें