Meta AI का Coconut – निरंतर thought chain के साथ LLM reasoning को बेहतर बनाना

(aipapersacademy.com)

6 पॉइंट द्वारा GN⁺ 2025-01-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े language models (LLM) मानव भाषा के विशाल डेटा पर pre-train होकर मजबूत reasoning क्षमता दिखाते हैं
"Chain-of-Thought (CoT)" तरीका मॉडल को step-by-step thought process generate करने में मदद करता है ताकि वह उत्तर तक पहुँच सके
लेकिन LLM की reasoning को शब्दों के रूप में generate होना पड़ता है, और यह मॉडल पर एक बुनियादी सीमा लगाता है
इंसान हमेशा अपने विचारों को भाषा में व्यक्त नहीं करते। क्या AI को भी ऐसा करना ज़रूरी है?
Meta का research paper "Training Large Language Models to Reason in a Continuous Latent Space" इस सीमा को दूर करने के लिए एक नया तरीका COCONUT (Chain of Continuous Thought) प्रस्तावित करता है

Chain-of-Thought (CoT) तरीका

CoT में एक प्रश्न input के रूप में लिया जाता है, और step-by-step reasoning के जरिए अंतिम उत्तर generate किया जाता है
मॉडल input tokens को process करके पहला response token generate करता है, जो reasoning process की शुरुआत होता है
फिर प्रश्न और पहले के reasoning tokens को बार-बार मॉडल में वापस input किया जाता है ताकि पूरी reasoning process पूरी हो सके, और अंत में उत्तर generate होता है

Chain of Continuous Thought (COCONUT) तरीका

COCONUT language mode और latent thought mode का बारी-बारी से उपयोग करता है
- language mode: standard language model की तरह काम करता है और अगला token generate करता है
- latent thought mode: अगले step की गणना के लिए last hidden state का उपयोग करता है
latent thought mode में last hidden state को अगले input के रूप में इस्तेमाल करके अधिक efficient reasoning संभव होती है
<bot> token से latent thought mode शुरू होता है, <eot> token पर खत्म होता है, और फिर language mode में वापसी होती है

training प्रक्रिया

मौजूदा CoT डेटा (प्रश्न, reasoning steps, अंतिम उत्तर) के आधार पर मॉडल को train किया जाता है
training को चरणों में किया जाता है:
- शुरुआती चरण में मॉडल को language-based reasoning steps और उत्तर generate करना सिखाया जाता है
- बाद के चरणों में reasoning steps हटा दिए जाते हैं, और उनकी जगह latent thought tokens जोड़कर training की जाती है
हर चरण में loss की गणना बचे हुए language-based reasoning steps और उत्तर पर की जाती है
latent thought पूरी तरह differentiable होती है, इसलिए back-propagation (gradient propagation) संभव है

thought generation से word token generation in transition

मॉडल latent thought mode से language mode में कैसे switch करे, इसके लिए दो रणनीतियाँ हैं
पहली रणनीति में "binary classifier का उपयोग कर मॉडल को निर्णय लेने देना" है, और दूसरी में "latent thought tokens की fixed संख्या का उपयोग" करना है
दोनों रणनीतियों से समान परिणाम मिले, इसलिए अधिक सरल fixed-count तरीका अपनाया गया

प्रयोग के परिणाम

Coconut तरीका No-CoT की तुलना में सभी datasets पर बेहतर प्रदर्शन दिखाता है
CoT की तुलना में, गणित में CoT बेहतर है, लेकिन planning क्षमता की ज़रूरत वाले ProsQA में Coconut बेहतर है
i-CoT की तुलना में, गणित में Coconut ने बेहतर accuracy दिखाई
Coconut का प्रदर्शन:
- GSM8K (गणित): CoT से कम प्रदर्शन
- ProsQA (planning आवश्यक): CoT से बेहतर प्रदर्शन
- No-CoT (reasoning के बिना सीधे उत्तर generate करना): सभी datasets पर बेहतर प्रदर्शन
- efficiency के लिहाज़ से CoT की तुलना में कम tokens generate करता है
i-CoT के साथ तुलना:
- गणित में अधिक accuracy
- planning और logical reasoning में समान प्रदर्शन
curriculum learning का प्रभाव:
- "w/o curriculum" मॉडल का प्रदर्शन काफी कम है

BFS-जैसी reasoning क्षमता

ProsQA dataset में planning-केंद्रित problem solving में COCONUT ने उत्कृष्ट परिणाम दिखाए
graph search उदाहरण:
- CoT: मौजूद न होने वाले संबंधों को "hallucinate" करके गलत उत्तर देता है
- Coconut: कई latent thought tokens का उपयोग करके सही path search कर सकता है
Coconut कई संभावित paths को explore कर सकता है, इसलिए planning-intensive tasks में बेहतर प्रदर्शन करता है

निष्कर्ष और भविष्य के research directions

निष्कर्ष:
- COCONUT तरीका LLM की reasoning क्षमता को काफी बेहतर बनाता है
- latent space reasoning, BFS-जैसे patterns के माध्यम से, planning-केंद्रित tasks में उत्कृष्ट प्रदर्शन देती है
भविष्य के research directions:
- continuous thought को pre-training चरण से ही integrate करना
- efficiency बढ़ाकर multi-step sequential reasoning को संभालना
- CoT और latent thought को जोड़ने की संभावना का अध्ययन

1 टिप्पणियां

GN⁺ 2025-01-01

Hacker News राय

BFS पर ज़ोर उस चीज़ के उलट है जो मैंने आज़माई है। इंसान प्रवृत्ति और अंतर्ज्ञान के आधार पर काम को छोटे चरणों और अगले चरणों को सारांशित/सहेजने वाले लंबे चरणों में बाँटते हैं। असफल होने पर, असफलता के ट्री का सारांश बनाकर उसे भविष्य के विकल्पों से बाहर कर देते हैं।
- प्रवृत्ति का प्रभाव दूरी बढ़ने के साथ तेज़ी से घटता है। BFS का उपयोग करने पर प्रवृत्ति का मूल्य घटता है और computation को प्राथमिकता मिलती है। समस्या के प्रकार के अनुसार तरीका बदलता है।
- अगर साथ में prototype बनाना चाहते हैं, तो संपर्क करें।
मानव भाषा के बिना अभिव्यक्तियाँ बनाना अगला कदम है। अगर LLMs मानव text input के बिना सिर्फ embeddings के ज़रिए संवाद कर सकें, तो यह AI का नया अध्याय खोलेगा।
Meta पहले से pre-trained language model से शुरू करता है और फिर step-by-step reasoning examples से fine-tune करता है। नए tokens जोड़कर मॉडल को latent space thinking mode में स्विच कराया जाता है।
- अंतिम hidden layer को बार-बार input layer में कॉपी करके अधिक insights हासिल किए जाते हैं।
- training धीरे-धीरे language reasoning steps को latent space autoregressive steps से replace करती है। मॉडल यह सीखता है कि latent space thinking mode को खुद सक्रिय और समाप्त कैसे करना है।
सोच रहा हूँ कि आंतरिक सोच के लिए embedding/unembedding चरणों को छोड़ देना बड़ा सुधार है, या CoT और "latent thinking" तथा text output के बीच स्विच करना सिखाने वाली training method ज़्यादा महत्वपूर्ण है।
- यह दिलचस्प है कि एक fixed संख्या की "latent thinking" steps binary classifier के बराबर प्रदर्शन करती है।
यह AI/LLMs के लिए वह "it" पल हो सकता है। इंसान "tokens" में नहीं सोचते। latent space में बने रहने पर मॉडल भाषा से अधिक high resolution में ideas को व्यक्त कर सकता है।
- latent space को चलाने की लागत कम है। language encoding/decoding चरणों के बिना सोचा जा सकता है। अलग-अलग data को input देकर reasoning की जा सकती है।
प्रतिस्पर्धी तेज़ी से बराबरी पर आ रहे हैं। कई SkyNet के प्रतिस्पर्धा करने की उम्मीद है।
सोच रहा हूँ कि क्या Facebook के AI-generated character users का आधार बेहतर interactions कर पाएगा।
साइट दावा करती है कि वह paper को सरल बनाती है, लेकिन ads बहुत हैं और आधिकारिक Meta FAIR page पर "Coconut" नहीं मिल रहा। समझ नहीं आता कि लिंक करने के लिए यह साइट सबसे बेहतर है या नहीं।
यह 20 दिन पहले की duplicate post है.

Meta AI का Coconut – निरंतर thought chain के साथ LLM reasoning को बेहतर बनाना

Chain-of-Thought (CoT) तरीका

Chain of Continuous Thought (COCONUT) तरीका

training प्रक्रिया

thought generation से word token generation in transition

प्रयोग के परिणाम

BFS-जैसी reasoning क्षमता

निष्कर्ष और भविष्य के research directions

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय