निरंतर विचार मशीन

(pub.sakana.ai)

2 पॉइंट द्वारा GN⁺ 2025-05-13 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Continuous Thought Machine(CTM) एक नई आर्किटेक्चर है, जो न्यूरल नेटवर्क कंप्यूटेशन में temporal neural dynamics को स्पष्ट रूप से शामिल करती है, ताकि केवल static feed-forward processing से संभालना कठिन “विचार के unfolding” को मॉडल के भीतर लागू किया जा सके
इसकी संरचना के केंद्र में डेटा क्रम से अलग internal ticks, हाल की pre-activation history को प्रोसेस करने वाले neuron-विशिष्ट MLP यानी neuron-level models, और न्यूरॉन जोड़ों के temporal synchronization को representation के रूप में उपयोग करने की विधि शामिल है
ImageNet, 2D maze, parity, Q&A MNIST, CIFAR-10/100, real-number sorting, और reinforcement learning प्रयोगों में मुख्य संरचना को बनाए रखते हुए केवल input/output modules बदलकर इसकी लागू-योग्यता दिखाई गई
maze प्रयोग में इसने positional embedding के बिना सीधे L/R/U/D/W path की भविष्यवाणी की, और 39×39 maze तथा लंबाई 100 तक के path पर प्रशिक्षित मॉडल ने 99×99 maze और लगभग 6 गुना लंबे path पर भी generalize करने के उदाहरण दिखाए
CTM ने synchronization representation के माध्यम से memory recall, adaptive computation, interpretable attention shift, और internal world model formation जैसे व्यवहार दिखाए, लेकिन यह वास्तविक neurons की शब्दशः नकल करने वाला मॉडल नहीं है

CTM जिस समस्या को लक्ष्य बनाता है

मौजूदा neural networks ने जैविक मस्तिष्क में दिखने वाली temporal neural dynamics को जानबूझकर सरल बनाया है, और large-scale deep learning के लिए उपयुक्त static activation value-केंद्रित processing अपनाई है
मस्तिष्क में spike-timing-dependent plasticity(STDP), neural oscillation, तथा spike timing और synchrony पर आधारित temporal coding जैसी चीजें होती हैं, लेकिन आधुनिक neural networks मुख्यतः सादगी और computational efficiency को प्राथमिकता देते हैं
मानव cognition की flexibility और generality की तुलना में आज के AI में कुछ कमी है, और उसका एक हिस्सा time processing से जुड़ा हो सकता है
CTM का योगदान तीन तत्वों में समेटा जा सकता है
- अलग internal dimension: कृत्रिम neural system में वह समय-अक्ष जिस पर विचार unfold हो सके
- neuron-level models(NLMs): प्रत्येक neuron fixed ReLU जैसी static function की जगह input signal history को process करके activate होता है
- neural synchronization: observation और prediction दोनों के लिए सीधे उपयोग होने वाला latent representation

reasoning models और recurrence

मौजूदा मॉडलों को बड़ा करने की रणनीति ने बड़ी प्रगति दी है, लेकिन computational cost और data requirement बढ़ने से इसकी दीर्घकालिक sustainability पर सवाल बने हुए हैं
sequential data में RNN परिवार का लंबे समय से उपयोग हुआ, लेकिन Transformer-आधारित approaches ने काफी हद तक इन्हें replace किया, और हाल में recurrence फिर से model complexity बढ़ाने के रास्ते के रूप में ध्यान खींच रही है
text generation के reasoning models intermediate generation के जरिए test-time compute बढ़ाने वाली recurrence का उपयोग करते हैं
CTM recurrence स्वयं से अधिक, recurrence द्वारा संभव होने वाली सटीक timing और neural activity की पारस्परिक क्रिया को मुख्य मानता है
मौजूदा approaches से इसके तीन प्रमुख अंतर हैं
- data modality से अलग internal dimension में sequential thought संभव है
- neuron-स्तरीय private model सूक्ष्म neural timing को संभालता है
- neural synchronization को task-solving representation के रूप में सीधे उपयोग किया जाता है

CTM के तीन मुख्य mechanisms

CTM डेटा को प्रोसेस करते समय आंतरिक रूप से neural activity को कई ticks में unfold करने वाली संरचना है
एक internal tick पर हाल की pre-activation history एकत्र की जाती है, और NLMs उसे process करके post-activation बनाते हैं
समय के साथ post-activation history का उपयोग neurons के बीच synchronization निकालने में होता है, और यही परिणाम Synchronization Representation बनता है
तकनीकी विवरण Technical Report में हैं, और GitHub repository भी सार्वजनिक है
Internal ticks: वह internal dimension जहाँ विचार unfold होता है
- CTM t ∈ {1, …, T} के रूप में एक सतत internal dimension पेश करता है
- RNN या Transformer की तरह शब्द, frame आदि डेटा के अपने क्रम के अनुसार चलने के बजाय, यह स्वयं उत्पन्न internal ticks के अनुसार काम करता है
- इस internal unfolding की वजह से image या maze जैसे static या non-sequential data में भी representation को बार-बार बनाया और परिष्कृत किया जा सकता है
- पेज के शीर्ष पर interactive maze demo 75 ticks का उपयोग करता है
Recurrent weights और neuron-level models
- CTM का synapse model U-NET शैली का recurrent MLP है, जो हर tick पर pre-activation बनाता है
- हाल के M pre-activation प्रत्येक neuron की input history बनाते हैं
- प्रत्येक neuron d अपने अलग parameters θd वाले private MLP से अपनी pre-activation history को process कर post-activation बनाता है
- सभी neurons के post-activation को attention output के साथ जोड़कर अगले tick की recurrent computation में डाला जाता है
Synchronization representation
- CTM को किसी एक समय-बिंदु पर neuron state snapshot के बजाय, समय के साथ neuron activity dynamics के आधार पर input consume करने और output बनाने के लिए डिज़ाइन किया गया है
- post-activation history Zt के inner product St = Zt · (Zt)^T से neurons के बीच synchronization matrix निकाला जाता है
- यह matrix O(D²) के साथ बड़ा हो जाता है, इसलिए वास्तविक उपयोग में (i, j) neuron pairs को आंशिक रूप से sample करके Sout और Saction representation बनाए जाते हैं
- Sout को output space में project करके logits जैसी predictions बनाई जाती हैं, और Saction को attention query की तरह observation के लिए action में उपयोग किया जाता है
- model width D बढ़ने पर संभव synchronization representations का आकार D × (D+1) / 2 तक बढ़ता है
डेटा input की विधि
- हर internal tick पर डेटा को वर्तमान synchronization के आधार पर attention से observe किया जाता है
- अधिकांश प्रयोगों में standard cross attention का उपयोग किया गया
- FeatureExtractor डेटा से key और value के लिए local features बनाता है, और synchronization से projected query उन्हें retrieve करती है
- attention output अगले recurrence cycle में post-activation के साथ उपयोग होता है

training loss: पूरे internal ticks को optimize करना

CTM हर internal tick पर output बनाता है
हर tick की prediction के लिए cross-entropy जैसी standard loss निकाली जाती है, और certainty को 1 - normalized entropy के रूप में निकाला जाता है
अंतिम loss दो ticks को dynamic रूप से चुनकर उनका average लेती है
- न्यूनतम loss वाला tick t1 = argmin(L)
- अधिकतम confidence वाला tick t2 = argmax(C)
यह तरीका केवल अंतिम step पर निर्भर नहीं रहता, इसलिए कई internal ticks पर अर्थपूर्ण computation होने लगती है
यह loss design स्वाभाविक रूप से curriculum effect बनाती है और समस्या की कठिनाई के अनुसार compute को समायोजित करने देती है

ImageNet प्रयोग

ImageNet प्रयोग का लक्ष्य नया state-of-the-art हासिल करना नहीं, बल्कि यह दिखाना है कि CTM डेटा के साथ कैसे interact करता है
CTM image को observe करते हुए prediction को क्रमशः build करता है, और इस प्रक्रिया में neural synchronization को सीधे representation के रूप में उपयोग करता है
internal steps को बीच में रोका जा सकता है, इसलिए adaptive compute संभव है
- एक निश्चित बिंदु के बाद accuracy में सुधार कम होता है, लेकिन अतिरिक्त लाभ बने रहते हैं
demo में 16 attention heads के attention weights, class predictions, और समय के साथ certainty दिखाई जाती है
neural activity को UMAP projection से 2D में visualize किया जाता है, जहाँ हर neuron एक point है; उसका आकार absolute value और रंग value के sign तथा magnitude को दिखाता है

2D maze प्रयोग

maze solving को ऐसे task के रूप में सेट किया गया जहाँ मॉडल को start point से destination तक path को step-by-step बनाना होता है
CTM को path को image के रूप में नहीं, बल्कि सीधे L/R/U/D/W step sequence के रूप में predict करने के लिए train किया गया
पेज के शीर्ष पर एक छोटे version का interactive demo है, और बड़े मॉडल का demo भी दिया गया है
demo में 75 internal ticks के दौरान path बनने की प्रक्रिया दिखाई जाती है, और जो predictions दीवार पार करती हैं उन्हें valid path display से बाहर रखा जाता है
16 attention heads के weights और average attention साथ दिखाए जाते हैं, जिससे पता चलता है कि मॉडल कहाँ focus कर रहा है
generalization और world model
- 39×39 maze में लंबाई 100 तक के path solve करने के लिए train किए गए CTM को बड़े 99×99 maze पर लागू किया गया
- उदाहरण maze का पूरा path training condition की तुलना में लगभग 6 गुना लंबा था
- CTM ने positional embedding का उपयोग नहीं किया, और path को सीधे class string के रूप में predict करना था
- positional embedding न होने के कारण CTM को डेटा पर query करने और maze explore करने के लिए internal world model बनाना पड़ा
- शोधकर्ताओं ने कहा कि वे games या video जैसे अधिक जटिल environments में explicit positional encoding के बिना CTM कैसे रास्ता खोजता है, यह देखना चाहते हैं

Parity प्रयोग

parity task को binary sequence की cumulative parity को 64 positions में से प्रत्येक पर predict करने के task के रूप में बनाया गया
पूरा 64-length binary vector एक बार में दिया जाता है, इसलिए यह साधारण sequential input से अधिक कठिन setting है
CTM को अलग-अलग internal ticks की संख्या के साथ train किया गया, और parameter count मिलाकर LSTM से तुलना की गई
75 internal ticks से अधिक वाले CTM इस task को स्थिर रूप से हल कर सके, और कुछ runs ने 100% accuracy हासिल की
LSTM ने 10 internal ticks से आगे training में कठिनाई दिखाई, जिससे पता चला कि यह internal thought dimension unfold करने के लिए उपयुक्त नहीं था
demo में कुछ attention heads पीछे से आगे की ओर डेटा scan करते दिखे, और पहला attention head केवल negative parity positions पर attend करता दिखा, यानी interpretability वाले व्यवहार सामने आए
CTM के दो उदाहरणों ने अलग-अलग रणनीतियाँ सीखी
- एक ने डेटा को reverse order में attend करने के बाद cumulative parity को एक बार में predict किया
- दूसरे ने forward order में attend करते हुए parity को क्रमशः predict किया
- दोनों ने पूर्ण accuracy हासिल की

Q&A MNIST प्रयोग

Q&A MNIST, CTM की memory और recall क्षमता का मूल्यांकन करने के लिए बनाया गया task है
मॉडल पहले MNIST digit sequence देखता है, फिर उसे यह बताने के लिए index और operator embedding मिलती है कि कौन-सा digit recall करना है और कौन-सा modular operation लागू करना है
सभी digits और index/operator embeddings दिए जाने के बाद zero-tensor flag अंतिम उत्तर बनाने का संकेत देता है
प्रयोग में CTM की memory length इस तरह सेट की गई कि MNIST digits, neuron-level models की activation history window के बाहर चले जाएँ
इसलिए बाद में digit recall करने के लिए CTM को activation को इस तरह organize करना पड़ता है कि जानकारी संरक्षित रहे
परिणाम और generalization
- LSTM प्रति input एक internal tick होने पर CTM से बेहतर प्रदर्शन करता है, लेकिन internal ticks बढ़ने पर अधिक unstable हो जाता है
- CTM का प्रदर्शन internal ticks बढ़ने के साथ मजबूत हुआ, और सबसे कठिन in-distribution task में 95% से अधिक accuracy हासिल की
- CTM बहुत पहले के timestep पर देखे गए digit values को recall कर सका, जिसे neurons के organization और synchronization का परिणाम माना गया
- generalization प्रयोग में, training की तुलना में अधिक digits या index-operator embeddings input होने पर accuracy मापी गई
- CTM और LSTM baseline दोनों operation count बढ़ने पर generalize कर सके
- empirical परिणामों में, हर बार नया index embedding दिए जाने पर मॉडल निर्दिष्ट operation का परिणाम compute और store करता रहा, इसलिए final answer flag का इंतज़ार किए बिना processing जारी रख सका
- CTM में internal ticks अधिक होने पर प्रदर्शन बढ़ा, जबकि LSTM में उलटा रुझान दिखा

अतिरिक्त प्रयोग

CIFAR-10: human, feed-forward, और LSTM से तुलना
- CIFAR-10 प्रयोग CTM की तुलना human performance, feed-forward baseline, और LSTM baseline से करने के लिए बनाया गया
- अंतर को स्पष्ट करने के लिए सीमित backbone का उपयोग किया गया
- human label datasets के रूप में CIFAR-10D और CIFAR-10H का उपयोग हुआ
- CIFAR-10D कठिनाई स्तर calibration से संबंधित है
- CIFAR-10H मानव uncertainty को quantify करने के लिए इस्तेमाल किया गया dataset है
- CIFAR-10D यहाँ और CIFAR-10H यहाँ उपलब्ध हैं
- calibration गणना में CIFAR-10H की probabilities का उपयोग हुआ, और CTM ने मानव तुलना में भी सबसे अच्छा calibration दिखाया
- CTM की neural activity समृद्ध, विविध और जटिल dynamics दिखाती है, और periodic driving function के बिना भी periodic behavior उभरा
- CTM और LSTM की neural activity के बीच अंतर इस बात का प्रमाण माना गया कि neuron-level models और synchronization representation, computation mechanism के रूप में neural dynamics को संभव बनाते हैं
CIFAR-100 ablation
- CIFAR-100 प्रयोग में neurons की संख्या, यानी model width, बदलते हुए अन्य conditions और training time को स्थिर रखा गया
- चौड़े networks को लंबी training time या अलग hyper-parameters की ज़रूरत हो सकती है, इसलिए कुछ accuracy drop दिखा
- neuron-level models कितने विशिष्ट बनते हैं यह देखने के लिए neurons के dynamics की cosine similarity मापी गई
- model width बढ़ने पर neurons के बीच diversity घटने के बजाय बढ़ती दिखी
- internal ticks की संख्या और prediction के संबंध का भी विश्लेषण किया गया
- 25, 50, 100 internal ticks settings में CTM सबसे confident step किस तरह चुनता है, इसका distribution देखा गया
- हर setting में दो concentrated regions दिखे, जिसे इस रूप में समझा गया कि CTM डेटा के अनुसार अलग internal process अपनाता है
real-number sorting
- CTM को N(0, I30) से निकले 30 real numbers को sort करने के लिए train किया गया
- उद्देश्य यह देखना था कि नियंत्रित environment में CTM कब अधिक या कम computation लगाता है, और CTC loss के साथ sequential output सीखी जा सकती है या नहीं
- यह CTM लंबाई 30 की real-number list को लगभग 80% probability से sort कर सका
reinforcement learning
- CTM को non-sequential data पर continuous thought dimension के उपयोग से आगे बढ़ाकर external environment के साथ interaction वाले tasks पर भी लागू किया गया
- proximal policy optimization के साथ navigation task, partially observable CartPole, और Acrobot variants को train किया गया
- इस setting में CTM observation लेकर उसे निश्चित संख्या के internal thought steps से process करता है, फिर अगला action output करता है
- activation history environment steps के बीच लगातार बनी रहती है, जिससे पिछले environment step की activation वर्तमान decision को प्रभावित कर सकती है
- परिणामस्वरूप CTM ने LSTM baseline के तुलनीय प्रदर्शन दिखाए और यह साबित किया कि वह continuous environment में भी सीख सकता है

निष्कर्ष और सीमाएँ

CTM pointwise activation function को private neuron-level models से बदलकर अधिक समृद्ध neuron dynamics बनाता है, और activation vector की जगह neural synchronization को नए representation के रूप में उपयोग करता है
यह approach image classification में समय के साथ representation build करना, positional embedding के बिना maze attention और internal map formation, adaptive computation, और activation history के बाहर memory storage व recall संभव बनाती है
मुख्य CTM architecture विभिन्न tasks में काफी हद तक समान रही, और अधिकतर केवल input/output modules में adjustment की ज़रूरत पड़ी
maze navigation जैसे जटिल scenarios में CTM कम tuning के साथ काम कर गया, जबकि LSTM को काफी tuning के बाद भी कठिनाई हुई
CTM जैविक neurons की सख्ती से शब्दशः नकल करने वाला मॉडल नहीं है
- संभव है कि वास्तविक neurons CTM की तरह activation history तक पहुँच न रखते हों
- फिर भी traveling waves जैसे emergent phenomena दिखाई दिए
CTM biology से अवधारणाएँ लेकर practicality और biological inspiration के बीच संतुलन बनाता है, और यह वर्तमान AI में कमी वाली क्षमताओं को खोलने वाली शोध दिशा बन सकता है

निरंतर विचार मशीन

CTM जिस समस्या को लक्ष्य बनाता है

reasoning models और recurrence

CTM के तीन मुख्य mechanisms

Internal ticks: वह internal dimension जहाँ विचार unfold होता है

Recurrent weights और neuron-level models

Synchronization representation

डेटा input की विधि

training loss: पूरे internal ticks को optimize करना

ImageNet प्रयोग

2D maze प्रयोग

generalization और world model

Parity प्रयोग

Q&A MNIST प्रयोग

परिणाम और generalization

अतिरिक्त प्रयोग

CIFAR-10: human, feed-forward, और LSTM से तुलना

CIFAR-100 ablation

real-number sorting

reinforcement learning

निष्कर्ष और सीमाएँ

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.