2 पॉइंट द्वारा GN⁺ 2025-05-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • शोधकर्ताओं ने बताया कि मस्तिष्क की तंत्रिका कोशिकाएँ गणना में timing और synchronization का उपयोग करती हैं, और यही वह मुख्य तत्व है जिसे आधुनिक AI ने नज़रअंदाज़ किया है
  • Continuous Thought Machine(CTM) आर्किटेक्चर पेश किया गया, जो पशु मस्तिष्क की समय-आधारित neural dynamics को वास्तविक मॉडल में शामिल करता है
  • CTM asynchronous internal thought dimension, individual neuron-level models, और neurons के बीच synchronization representation का उपयोग करके सूचना को प्रोसेस करता है
  • विभिन्न प्रयोगों में adaptive compute, neural synchronization-आधारित memory, और मजबूत generalization क्षमता की पुष्टि हुई
  • CTM आर्किटेक्चर की interpretability, biological plausibility, और विभिन्न tasks के लिए उपयुक्तता को प्रदर्शित किया गया

tl;dr

  • मस्तिष्क के neurons गणना के लिए timing और synchronization का उपयोग करते हैं, और यही जैविक बुद्धिमत्ता की लचीलेपन और अनुकूलन क्षमता का मूल है
  • आधुनिक AI दक्षता और सरलता के लिए इन समय-आधारित गुणों को छोड़ रहा है
  • शोध टीम ने ऐसा तरीका खोजा है जो neuron timing की महत्वपूर्ण biological plausibility और आधुनिक AI के efficient implementation के बीच की खाई को कम करता है
  • परिणाम काफ़ी अप्रत्याशित और आशाजनक हैं

Introduction

  • Neural Network(NN) मूल रूप से जैविक मस्तिष्क से प्रेरित था, लेकिन आज के NNs की संरचना और dynamics वास्तविक मस्तिष्क से काफ़ी अलग हैं
  • आधुनिक NN ने temporal dynamics को हटाकर large-scale deep learning को संभव बनाया, लेकिन इससे यह अपनी जैविक नींव से दूर हो गया
  • मस्तिष्क spike-timing-dependent plasticity(STDP) और neuron synchronization जैसी जटिल neural dynamics का उपयोग करता है
  • ऐसी temporal processing principles आधुनिक AI में कमी हैं, और यही मानव-स्तर की लचीली बुद्धिमत्ता की ओर बढ़ने में बाधा बनती हैं
  • इसलिए time processing capability को कृत्रिम बुद्धिमत्ता का एक मुख्य घटक होना चाहिए

यह शोध क्यों?

  • आधुनिक AI के उच्च प्रदर्शन के बावजूद, लचीली मानव संज्ञान और generality में मूलभूत अंतर बना हुआ है
  • यदि AI को मानव मस्तिष्क से आगे की उपलब्धियाँ हासिल करनी हैं, तो उसे neural activity और timing का सक्रिय रूप से अनुकरण करना होगा
  • इस शोध में Continuous Thought Machine(CTM) के माध्यम से neuron timing को मुख्य तत्व के रूप में शामिल किया गया है
  • मुख्य योगदान हैं: internal thought dimension का विभाजन, individual neuron-level neural model, और synchronization-आधारित representational structure

Reasoning models and recurrence

  • AI अब साधारण input-output mapping से आगे बढ़कर सक्रिय reasoning models की ओर विकसित हो रहा है
  • मौजूदा RNN-प्रकार की recurrent structures को हाल के वर्षों में Transformer ने काफी हद तक बदल दिया है, लेकिन recurrence स्वयं मॉडल की complexity बढ़ाने में उपयोगी है
  • आधुनिक text generation models आदि test time पर intermediate generation(Recurrence) का उपयोग करते हैं, जिससे अतिरिक्त computation और flexibility मिलती है
  • CTM पारंपरिक तरीकों से अलग internal separated gradual thought dimension, neuron-level timing, और synchronization को ही task-solving representation के रूप में इस्तेमाल करता है

Method

संरचना का अवलोकन

  • CTM ऐसी संरचना है जिसमें डेटा के लिए आंतरिक रूप से neural activity unfold होती है
  • हर चरण में pre-activation history इकट्ठी कर Neuron Level Model(NLM) में दी जाती है
  • कई neurons की post-activation histories के आधार पर neuron synchronization matrix की गणना कर एक शक्तिशाली synchronization representation बनाई जाती है
  • synchronization representation को मॉडल के observation और prediction के मुख्य latent vector के रूप में इस्तेमाल किया जाता है

विस्तृत संरचना

1. Internal recurrence(आंतरिक पुनरावृत्ति)

  • internal recurrence dimension का उपयोग करके सोच की प्रगति के लिए एक अलग आयाम रखा जाता है
  • हर internal tick बाहरी time-series data से स्वतंत्र होकर अपनी स्वयं की thought unit की तरह काम करता है

2. Neuron-level models(न्यूरॉन-स्तरीय मॉडल)

  • हर neuron के पास व्यक्तिकृत MLP संरचना होती है, जो pre-activation की छोटी history को input लेकर post-activation बनाती है

3. Synchronization as representation(सिंक्रोनाइज़ेशन को प्रतिनिधित्व के रूप में)

  • एक निश्चित अवधि के भीतर सभी post-activation से neuron synchronization matrix निकाली जाती है, और इसे मुख्य latent representation / action vector के रूप में लिया जाता है

इनपुट डेटा के साथ संबंध

  • डेटा को internal recurrence और synchronization-केंद्रित प्रोसेसिंग के पूरक रूप में इस्तेमाल किया जाता है
  • synchronization state के आधार पर input data का observation और prediction किया जाता है

Internal ticks: सोच का आयाम

  • CTM की अपनी thought timeline होती है, और यह डेटा क्रम से स्वतंत्र होकर आंतरिक रूप से बार-बार जानकारी को अपडेट और refine करता है
  • इसी आयाम में बौद्धिक गतिविधि का unfolding होता है

Recurrent weights: Synapses

  • U-NET style MLP के जरिए pre-activation निकाला जाता है, और हाल के M मानों को बनाए रखा जाता है
  • हर neuron एक individual MLP के जरिए history vector(pre-activation time series) लेकर post-activation उत्पन्न करता है

Synchronization as a representation

  • neurons के बीच synchronization matrix के जरिए मॉडल बाहरी दुनिया से इंटरैक्ट करता है
  • synchronization values का सीधा उपयोग वास्तविक behavior signals(जैसे output, observation, attention query) में होता है
  • मॉडल की width D बढ़ने पर representation power और information quantity square के अनुपात में बढ़ती है
  • attention जैसे input-data modules के साथ जुड़कर यह और अधिक शक्तिशाली information processing ability दिखाता है

Loss function

  • हर internal tick पर output निकाला जाता है, और उससे संबंधित loss और confidence(1-normalized entropy) की गणना होती है
  • कुल loss minimum loss point और maximum confidence point को dynamically aggregate करके समस्या की कठिनाई के अनुसार adaptive learning को प्रेरित करता है

Experiment: ImageNet

Demonstrations

  • CTM image data के लिए विभिन्न attention heads और neural synchronization का उपयोग कर prediction करता है
  • accuracy, calibration, और confidence threshold के अनुसार विभिन्न metrics को visualize किया गया

Results

  • CTM adaptive compute के जरिए thought steps को adjust करता है, और एक निश्चित चरण के बाद अतिरिक्त लाभ सीमित रह जाता है
  • 16 attention heads, हर चरण की class prediction / accuracy, और neuron activity को साथ में visualize किया गया

Discussion

  • CTM डेटा के साथ सहज और लचीले interaction पर ज़ोर देता है
  • neuron synchronization-आधारित representation के जरिए यह visual recognition में भी मौजूदा तरीकों से स्पष्ट रूप से अलग दिखता है
  • यह संकेत देता है कि समय(TIME) तत्व इंसानों के information processing के तरीके से मूल रूप से जुड़ा है

Experiment: Solving 2D Mazes

The why and the how

  • 2D maze solving बिना किसी tool के neural network models के लिए बहुत कठिन task है
  • CTM को direct path prediction(L/R/U/D/W) तरीके से train किया गया, और उसके attention patterns जानबूझकर वास्तविक path से मेल खाते हैं
  • generalization test में यह जटिल और लंबे mazes को भी उच्च accuracy / generalization के साथ हल करता है

Results & Discussion

  • सबसे लंबे paths पर भी CTM मौजूदा baseline की तुलना में दबदबे वाला प्रदर्शन दिखाता है
  • यह मानव-जैसा रणनीतिक internal world model बनाता है, जिससे पता चलता है कि इसमें सिर्फ़ याद करने के बजाय वास्तविक reasoning क्षमता है

A World Model

  • position encoding के बिना भी यह सिर्फ visual information से internal environment model बनाकर समस्या हल करता है

Experiment: Parity

  • इसे binary sequence की nested parity(सम/विषम योग) को full-input condition में predict करने के लिए train किया गया
  • 75 से अधिक internal thought ticks इस्तेमाल करने पर CTM 100% accuracy तक पहुँच सकता है
  • internal thought ticks बढ़ने पर LSTM की training अस्थिर हो जाती है

Learning sequential algorithms

  • attention head की movement और neuron activation patterns से दिखता है कि CTM ने backward/forward data traversal strategies अलग-अलग सीखी हैं
  • यह strategic planning और stepwise execution क्षमता का प्रमाण है

Experiment: Q&A MNIST

Memory via Synchronization

  • MNIST Q&A task के जरिए CTM की long-term memory / retrieval क्षमता का परीक्षण किया गया
  • input image के neuron activation history window से बाहर होने पर भी यह synchronization के जरिए long-term memory information को store / retrieve करता है

Results & Generalization

  • internal thought ticks की संख्या बढ़ने पर performance बेहतर होती है, और जटिल प्रश्नों / लंबाई पर इसकी generalization क्षमता उत्कृष्ट है
  • LSTM अधिक ticks पर अस्थिर हो जाता है, जबकि CTM लगातार training / inference करता है

Additional experiments

CTM versus humans

  • CIFAR-10 पर humans, feedforward, LSTM, और CTM के प्रदर्शन की तुलना की गई
  • Calibration(probability prediction matching) में CTM इंसानों से बेहतर है
  • neural synchronization dynamics पारंपरिक तरीकों से अलग बहुत विविध और जटिल internal characteristics दिखाती है

CIFAR-100, ablation studies

  • मॉडल width बढ़ने पर neurons की विविधता / dynamics में वृद्धि देखी गई
  • internal tick count के अनुसार समस्या-विशिष्ट अलग internal thought processes(दो शिखरों जैसा वितरण) सामने आए

Sorting real numbers

  • 30 real numbers को sort करने वाले प्रयोग में CTM ने values के बीच distance / gap के अनुसार internal compute time(waiting ticks) बदलने वाला emergent behavior दिखाया

Reinforcement Learning

  • MiniGrid, CartPole जैसे RL environments में CTM ने internal continuous thought units का उपयोग करके environment interaction और policy decision making किया
  • यह LSTM जैसी final performance दिखाता है, और continuous thought traces के प्रभाव को साबित करता है

Conclusion

  • CTM biological plausibility और AI efficiency के fusion को एक नए तरीके से हासिल करता है
  • neuron-level models और neural synchronization-आधारित नए representation approach की मदद से यह अब तक न देखी गई representational क्षमता दिखाता है
  • image classification, maze solving, memory, sorting, RL जैसे विविध tasks में structural consistency और उच्च adaptability प्रदर्शित करता है
  • यह neuroscience और machine learning के synergy, और time-synchronization-केंद्रित thought machines के महत्व को ठोस रूप से दर्शाता है

1 टिप्पणियां

 
GN⁺ 2025-05-13
Hacker News राय
  • यह पेपर चिंताजनक इसलिए लगता है क्योंकि मौजूदा machine learning क्षेत्र में biologically plausible spiking neural networks और time-dependent artificial neural networks पर पहले से ही बहुत सारा शोध मौजूद है, फिर भी पेपर की शब्दावली और अप्रोच उस विशाल पूर्ववर्ती शोध को ठीक से मान्यता नहीं देती, खासकर synaptic integration चरण को “सोचना(thinking)” कहना लोगों में भ्रम पैदा कर सकता है, क्योंकि सोचना आम तौर पर आम इंसान की समझ में ideas को बनाना, उनका मूल्यांकन करना, और उन्हें संशोधित करना जैसे दोहराव वाले प्रोसेस को दर्शाता है, जबकि पेपर इसे single-unit process स्तर पर लागू कर रहा है, यह मौजूदा ANN या machine learning terminology से भी काफी अलग है, “thinking” का यह लेबल उपयुक्त नहीं लगता, मैंने सभी citations नहीं देखे हैं और यह मेरी परिचित research direction की भाषा पर तत्काल प्रतिक्रिया है

    • माफ़ी के साथ कहूँ तो, मैं मूल रूप से इसी comment का जवाब देना चाहता था, लेकिन मैंने अलग जवाब parent comment thread में छोड़ा है, पेपर का biological spiking networks की नकल करने का प्रयास काफ़ी ढीला-ढाला ही दिखता है और असल में output matrix के transpose के dot product का उपयोग इसकी मुख्य contribution है, बाकी हिस्सा input पर diffusion/attention तकनीक है, input attention और output attention को जोड़कर एक cascading recursive model बनाया गया है
    • पिछले 10~20 वर्षों में neuroscience-संबंधित शोध को मान्यता देने वाले machine learning शोधकर्ताओं को अक्सर self-aggrandizement की आलोचना झेलनी पड़ी है, इसलिए यह मुझे खास आश्चर्यजनक नहीं लगता
    • यह पेपर मानो कोई नया idea पेश कर रहा हो, लेकिन दशकों के spiking neural net शोध या समान क्षेत्रों का लगभग कोई उल्लेख नहीं करता
    • अगर आप biologically inspired algorithm concepts और implementations पर सबसे insightful लगने वाली किताबों या papers की सूची, या एक संक्षिप्त review साझा करें तो आभारी रहूँगा
    • लेखक यह स्पष्ट करते हैं कि वे single synapse integration को “thinking” नहीं कहते, बल्कि हर external input पर network के पूरे internal loop में इस शब्द का उपयोग “internal tick” के रूप में करते हैं, और इसे “thinking” के समान बताया गया है
    • क्या यह पेपर कहीं Jürgen Schmidhuber ने तो नहीं लिखा?
  • इस महत्वपूर्ण विषय पर फिर से ध्यान जाना बहुत स्वागतयोग्य है, जैविक मस्तिष्क और शरीर के संदर्भ में “समय” को linear Newtonian time की तरह सोचना आसान है, लेकिन brain-body system में असली बात यह है कि 300ms के “representational present” से लेकर sound location का आकलन करने वाली cells के 50 microseconds जैसे अलग-अलग “present” खंडों के भीतर व्यवस्थित behavior और computation का क्रम बनता है, अगर conditional temporality के बारे में और जानना हो तो European Journal of Neuroscience में John Bickle द्वारा RW Williams का हालिया interview-paper देखना उपयोगी होगा

  • पेपर पर मेरी राय यह है कि यह वास्तव में biological/spiking networks जैसा बिल्कुल नहीं लगता, पेपर inputs की history को preserve करता है और multi-head attention का उपयोग करके एक internal model बनाता है कि पिछला “pre-synaptic” input वर्तमान output में कैसे reflect होता है, यह थोड़ा बदले हुए transformer जैसा है जो input history को रखता है और attention से output बनाता है, “synchronization” भी post-activation पूरे वेक्टरों का inner product लेकर निकाली जाती है, और इस inner product result matrix को output space में project किया जाता है, हर timestep पर सही value बनाने के लिए कई outputs को गुणा होना पड़ता है इसलिए शायद इस coupling को “synchronization” कहा गया है, यह कई output values को matrix के रूप में जोड़कर individual values से अधिक combination के महत्व को उभारने वाली एक तरह की “sparsity” induction जैसा लगता है, यह मूल रूप से attention का वही बुनियादी mechanism है जिसमें कई subsystems के outputs का inner product लेकर उन्हें मिलाया जाता है

    • पेपर की कमजोरी यह है कि performance comparison केवल LSTM (simple recurrent model) तक सीमित है, सिर्फ कई layers वाले input/output attention से भी शायद समान structure और performance मिल सकती है, असली transformer थोड़ा अलग है लेकिन पेपर का input attention + unet structure उससे बहुत दूर नहीं है
  • इस वीकेंड तीन चीज़ें दिलचस्प लगीं: 1) continuous thought machine (जैविक मस्तिष्क जैसी time-series encoding neural network), 2) “zero data reasoning” (विशाल डेटा पर pretraining के बजाय सीधे action से सीखने वाला AI), 3) Intellect-2 (दुनिया भर में distributed reinforcement learning संरचना), एक non-expert के नज़रिए से लगे तो मानो singularity एक कदम और करीब आ गई हो

    • मुझे ऐसा नहीं लगता, बहुत सारे papers और अलग-अलग research directions होने के कारण यह अनुमान लगाना मुश्किल है कि diffusion, transformer, AlphaZero, Chat GPT-3 जैसी कौन-सी चीज़ बड़ी सफलता बनेगी, भले यह radical progress जैसा लगे, लेकिन ऐसी प्रगति अनगिनत शोध और trial-and-error के संचय से बनती है, अच्छा होगा अगर ये तीनों प्रगतियाँ अच्छी तरह मिल जाएँ, लेकिन मुझे नहीं पता
    • किसी एक paper को बहुत ज़्यादा महत्व नहीं देना चाहिए, best case में इससे बहुत सारे foundational research की अनदेखी होती है, और worst case में यह किसी एक idea पर अत्यधिक उम्मीदें बाँध देता है
    • Intellect-2 और zero data reasoning दोनों ही LLM पर चलने वाली संरचनाएँ हैं (“zero data reasoning” नाम खुद ही कुछ भ्रामक हो सकता है), अगर आप सचमुच LLM innovation देखना चाहते हैं, तो InceptionLabs ने diffusion model से inference को 16x कैसे बढ़ाया यह देखना बेहतर होगा, हमारे time-series reinforcement learning algorithms की performance अभी inference models की तुलना में बहुत पीछे है, और AI boom के बावजूद robotics और autonomous driving अब भी अटके हुए हैं, इस पेपर की तकनीक में संभावना है, लेकिन कोई इसकी terminology को थोड़ा और refine करके समझने लायक बनाए तो बेहतर होगा, अभी भी ऐसा लगता है कि बड़े models reward function की खामियों को ढूँढ़ने में और सक्षम हो जाते हैं, इसलिए कई क्षेत्रों में उपयोगी AI हासिल करने में अभी समय है
    • जब आप पेपर की implementation को वास्तव में चलाते हैं, तो अक्सर परिणाम पेपर में बताए गए जितने अच्छे नहीं होते या code अधूरा होता है, AI hype से बचना है तो पेपर के specific results और limitations पढ़ने चाहिए, code हो तो उसे चलाकर देखना चाहिए, और training set के बाहर inputs पर भी test करना चाहिए
    • मैं भी विशेषज्ञ नहीं हूँ, लेकिन यह मुझे कुछ वैसा लगता है जैसे camera, actuator और battery के आविष्कार को देखकर कहना कि अब रोबोट जल्द दुनिया पर राज करेंगे, यानी यह leap नहीं बल्कि baby step जैसा है
    • आलोचना को यूँ ही ख़ारिज नहीं किया जा सकता, खासकर widely known papers और projects को take-off या AGI जैसी breakthrough progress मानने पर काफ़ी असहमति हो सकती है, लेकिन यह भी संभव है कि ऐसे papers किसी बड़े research direction के प्रतिनिधि हों, यानी स्थिति कुछ ऐसी है कि “baby bunny” लगातार एक ही दिशा में छोटे-छोटे jump कर रही है, किस क्षण को असली jump कहा जाए यह देखने वाले पर निर्भर है, लेकिन खरगोश आगे बढ़ रहा है
  • spike timing और synchronization जैसी time-series encoding mechanisms को लागू करना बहुत कठिन है, इसलिए modern neural networks temporal dynamics के बजाय simplicity और computational efficiency पर ध्यान देते हैं, असली time domain को simulate करना hardware के नज़रिए से भी बहुत कठिन समस्या है, खासकर क्योंकि इससे hyperparameter का एक अलग axis बढ़ जाता है और valid parameter combinations खोजना लगभग असंभव हो जाता है, computationally efficient structure ढूँढ़ना कहीं तेज़ है, इसलिए यदि future timesteps में spikes होते हैं तो priority queue जैसी event structure बनती है और computation बहुत बढ़ जाता है, अगर लक्ष्य वास्तव में “hard realtime interaction” हो तो बात अलग है, लेकिन practical और product perspective से ऐसे structure का पीछा करना बहुत अर्थपूर्ण नहीं लगता, STDP (spike-timing-dependent plasticity) के जरिए online unsupervised learning संभव होना अब भी बहुत आकर्षक माना जाता है, लेकिन फिलहाल silicon-based systems पर इसका रास्ता नहीं दिखता, dedicated hardware का इस्तेमाल करना hyperparameters के कुछ हिस्सों को code में constant की तरह hardcode करने जैसा है, इसलिए निश्चितता की गारंटी देना भी मुश्किल हो जाता है और funding भी पर्याप्त नहीं रहती

    • उदाहरण के लिए, अगर किसी मध्यम आकार की FF (feedforward) architecture में एक input batch को process करने में 100ms लगते हैं, तो CTM structure में अगर 10ms को FF axis पर खर्च किया जाए और उसे 10 internal “ticks” से गुणा किया जाए तो क्या होगा?, संख्याएँ लगभग अनुमानित हैं, लेकिन अंततः सवाल यह है कि explicit time axis के लिए inductive bias सच में कितना अर्थपूर्ण है, क्या ऐसी structure में भी वही search difficulty नहीं होगी?
  • इन machines का idea पूरी तरह नया नहीं है, 2002 के paper में Liquid State Machines (LSM) पेश किए गए थे, LSM continuous inputs को spiking neural network में भेजते हैं और पूरे network के neurons से जुड़े dense layer के जरिए liquid state को read करते हैं, 2019 के paper में LSM का उपयोग Atari game playing के लिए किया गया था, कभी-कभी यह इंसानों से बेहतर भी रहा लेकिन हमेशा नहीं, और इसमें पारंपरिक neural networks जैसी सीमाओं के साथ असफल होने की प्रवृत्ति भी दिखी, performance पारंपरिक neural networks से खास बेहतर नहीं थी, मैं चाहूँगा कि ऐसे neural networks पर अधिक रुचि हो जो input (जैसे audio) को continuously process करें और continuously output दें, और केवल मस्तिष्क की plasticity principles लागू करें (backpropagation के बिना), मैंने खुद भी ऐसा करने की कोशिश की है, लेकिन शायद हम अभी तक मस्तिष्क के काम करने के तरीके को पर्याप्त नहीं समझते, इसलिए मेरे पास भी कोई परिपूर्ण उत्तर नहीं है

  • विडंबना यह है कि यह webpage firefox iOS में लगातार refresh हो रहा है

    • मेरे browser में तो यह खुलता ही नहीं
  • अगली पीढ़ी के models की कुंजी “neurons that fire together wire together” सिद्धांत होगी, मुझे लगता है spiking neural networks एक वैकल्पिक अप्रोच के रूप में बेहद दिलचस्प हैं