- Titans आर्किटेक्चर और MIRAS फ्रेमवर्क AI मॉडलों को रनटाइम के दौरान भी मुख्य मेमोरी अपडेट करते हुए विशाल संदर्भ (context) को तेजी से प्रोसेस करने के लिए डिज़ाइन किए गए हैं
- Titans RNN की गति और Transformer की सटीकता को जोड़ता है, और इनपुट के दौरान अधिक ‘surprise’ वाली जानकारी को चयनात्मक रूप से लंबी अवधि की मेमोरी में स्टोर करता है
- MIRAS सभी sequence मॉडलों की एकीकृत व्याख्या देने वाला सैद्धांतिक ब्लूप्रिंट है, जो मेमोरी स्ट्रक्चर, बायस, भूलने और ऑप्टिमाइज़ेशन प्रक्रियाओं को व्यवस्थित रूप से मॉडल करता है
- प्रयोगों में, Titans और MIRAS के वैरिएंट मॉडल (YAAD, MONETA, MEMORA) ने Transformer++ और Mamba-2 जैसे नवीनतम मॉडलों की तुलना में लंबी संदर्भ प्रोसेसिंग और दक्षता में बेहतर प्रदर्शन दिखाया
- यह शोध RNN की efficiency और Transformer की expressivity को जोड़ने वाले नई पीढ़ी के लंबी संदर्भ AI मॉडलों की ओर बदलाव दिखाता है
Titans और MIRAS का अवलोकन
- Titans आर्किटेक्चर और MIRAS फ्रेमवर्क AI को रनटाइम में वास्तविक-समय पर मेमोरी अपडेट करते हुए बड़े संदर्भ को संभालने के लिए डिज़ाइन किया गया है
- पारंपरिक Transformer के attention मेकैनिज़्म में sequence length बढ़ने पर गणना खर्च तेजी से बढ़ जाता है
- Titans और MIRAS इन सीमाओं को पार करके लंबी संदर्भ समझ और वास्तविक-समय अनुकूलन को संभव बनाते हैं
- Titans एक specific मॉडल स्ट्रक्चर है, जबकि MIRAS इसका सामान्यीकृत सैद्धांतिक ब्लूप्रिंट के रूप में कार्य करता है
- दोनों सिस्टम ने test-time memorization की अवधारणा को आगे बढ़ाकर बिना retrain किए रनटाइम के दौरान नई जानकारी को एकीकृत किया
Titans: वास्तविक-समय संदर्भ सीखना
- Titans लघु अवधि स्मृति (attention mechanism) और दीर्घकालिक स्मृति (न्यूरल-नेटवर्क आधारित मॉड्यूल) को अलग करता है ताकि मानव स्मृति संरचना की नकल की जा सके
- दीर्घकालिक स्मृति मॉड्यूल multi-layer perceptron (MLP) के रूप में है, जो फिक्स्ड vector के बजाय deep neural network का उपयोग करके अधिक समृद्ध जानकारी का सार निकाल सकता है
- मुख्य अवधारणा ‘surprise metric’ है
- यदि इनपुट मौजूदा स्मृति से बहुत अलग हो तो उसे उच्च surprise मानकर लंबी अवधि की मेमोरी में स्टोर किया जाता है
- उदाहरण: अपेक्षित शब्द (‘cat’) का surprise कम होगा, जबकि अप्रत्याशित इनपुट (‘banana peel’) का surprise ज्यादा होगा और उसे अलग तरीके से प्रोसेस किया जाएगा
- Titans में momentum और weight decay तंत्र जोड़े गए हैं
- momentum हालिया संदर्भ की निरंतरता को दर्शाते हुए संबंधित जानकारी भी साथ में स्टोर करता है
- forgetting अनावश्यक जानकारी हटाकर मेमोरी क्षमता को कुशलतापूर्वक बनाए रखता है
MIRAS: क्रमिक मॉडल का एकीकृत दृष्टिकोण
- MIRAS सभी sequence मॉडलों को associative memory सिस्टम के रूप में व्याख्यायित करता है
- अलग-अलग मॉडल वास्तव में वही समस्या हल करते हैं: नई जानकारी और मौजूदा स्मृति को प्रभावी तरीके से मिलाना
- MIRAS चार डिजाइन तत्वों के आधार पर मॉडल को परिभाषित करता है
- मेमोरी स्ट्रक्चर: जानकारी स्टोर करने का रूप (vector, matrix, MLP आदि)
- attention bias: मॉडल किस जानकारी को प्राथमिकता देता है
- retention gate: forgetting को नियंत्रित करने वाला regularization तरीका
- मेमोरी एल्गोरिथ्म: मेमोरी अपडेट ऑप्टिमाइज़ेशन का तरीका
- पूर्ववर्ती मॉडल जो mean squared error (MSE) या dot-product similarity पर निर्भर थे, उनके ऊपर जाकर MIRAS non-Euclidean objective और regularization को खोजता है
MIRAS आधारित मॉडल
- YAAD: Huber loss का उपयोग करके इनपुट एरर या outlier के प्रति कम संवेदनशील संरचना
- MONETA: generalized norms लागू करके स्थिर लंबी अवधि की स्मृति बनाए रखता है
- MEMORA: मेमोरी को probabilistic map की तरह constrain करके संतुलित जानकारी एकीकरण सुनिश्चित करता है
- तीनों मॉडल attention के बिना भी मजबूत long-term memory performance हासिल करते हैं
प्रयोग परिणाम एवं प्रदर्शन
- Titans और MIRAS के परिवर्तित मॉडल की तुलना Transformer++, Mamba-2, Gated DeltaNet जैसे नवीनतम आर्किटेक्चर के साथ की गई
- Language Modeling (C4, WikiText) और Zero-shot Reasoning (HellaSwag, PIQA) में अधिक सटीकता और कम perplexity हासिल की गई
- Genomics (DNA) मॉडलिंग और time-series forecasting में भी सामान्यीकरण क्षमता सिद्ध हुई
- मेमोरी Depth का प्रदर्शन पर निर्णायक प्रभाव पड़ता है
- समान आकार की मेमोरी होने पर भी गहरी स्ट्रक्चर से कम perplexity और बेहतर स्केलेबिलिटी मिलती है
- दक्षता के लिहाज से, Titans समानांतर प्रशिक्षण और linear inference speed बनाए रखते हुए पुराने मॉडलों की तुलना में तेज़ प्रोसेसिंग करने में सक्षम है
- BABILong benchmark में GPT-4 की तुलना में कम parameters के साथ भी लंबी संदर्भ reasoning में बेहतर परिणाम मिले
- अधिकतम 2 मिलियन से अधिक tokens वाले संदर्भ विंडो को प्रभावी रूप से संभाला गया
निष्कर्ष
- Titans और MIRAS fixed-size recurrent state की सीमाओं को पार करते हुए, डेटा इनपुट के दौरान रनटाइम में सीखने वाली नई मेमोरी संरचना प्रस्तुत करते हैं
- MIRAS online optimization, associative memory और architecture design को एकीकृत करने वाला मजबूत सैद्धांतिक फ्रेमवर्क देता है
- non-Euclidean design space के माध्यम से, RNN की efficiency और Transformer की expressivity को मिलाकर लंबे संदर्भ वाले AI मॉडलों के युग का आधार तैयार करता है
1 टिप्पणियां
Hacker News राय
Titans: Learning to Memorize at Test Time पेपर का परिचय दिया गया है
मूल लेख arXiv लिंक पर है
संबंधित पेपर पहला और दूसरा लिंक पर देखे जा सकते हैं। लगता है Google इस तरह की पारदर्शिता के कारण काफी विश्वास पाने लायक है
अमेरिकी बड़े labs के papers अक्सर practical performance से कटे हुए लगते हैं। DeepSeek के उदाहरण के तौर पर यह पेपर और यह पेपर का ज़िक्र किया गया है
Meta के Llama, Qwen और DeepSeek इससे काफी आगे हैं। अभी उपलब्ध चीज़ सिर्फ unofficial implementation है
हाल में सबसे प्रभावशाली lumine project लगा, और पेपर लिंक तथा official research page साझा किया गया
इसलिए नहीं लगता कि सिर्फ Google को अलग से ज़्यादा श्रेय मिलना चाहिए
“आखिरकार हमने ‘Torment Nexus’ बना लिया” वाला मज़ाक किया गया
Eclipse Phase दुनिया में TITAN इंसानियत को नष्ट कर देने वाला AI network था, इसका ज़िक्र किया गया
Titans architecture का मूल विचार यह है कि internal error signal (gradient) के जरिए surprise और importance का आकलन किया जाए, और उसी के अनुसार long-term memory अपडेट की जाए
ऐसा ढांचा हो तो क्या random noise input से model को disturb किया जा सकता है, यह सवाल उठाया गया
model inference के दौरान भी सीखता है, और training stage में यह सीखता है कि ‘क्या सीखना है’
अर्थहीन input को low surprise embedding दिया जाता है, इसलिए वह learning में लगभग शामिल नहीं होता
इंसान novelty से ज़्यादा emotional intensity के आधार पर याद रखते हैं। AI के पास भी ‘वह क्या चाहता है’ जैसी कोई आंतरिक स्थिति होनी चाहिए
लेकिन codebase development जैसे माहौल में, जहां context बना रहता है, वहां यह पिछले design decisions और discussions याद रखकर बेहतर निर्णय ले सकता है
Titans पेपर पहली बार पढ़ते समय लगा कि “यह बड़ा advance साबित हो सकता है”
AI industry में काम नहीं करता, लेकिन लंबे समय से human-like thinking AI के बारे में सोचता रहा है
LLM उस मानक से काफी पीछे रहे हैं, लेकिन Titans उस दिशा में एक कदम आगे बढ़ता हुआ लगता है
इन विचारों को blog पर लिखना चाहता है, लेकिन खुद कोई जाना-पहचाना नाम नहीं है, इसलिए ध्यान मिलेगा या नहीं, इसका भरोसा नहीं
फिर भी लगता है कि Titans की वास्तविक implementation आते ही सब चौंक जाएंगे
बड़ा चित्र दिखाने वाले लेख उल्टे ज़्यादा उपयोगी insights दे सकते हैं
Titans पर पहले से एक blog post लिखी जा चुकी है
Google के दावे के अलावा कोई verified implementation नहीं है, और follow-up research भी लगभग नहीं के बराबर है
जिज्ञासा जताई गई कि Titans संरचना prompt injection के प्रति ज़्यादा vulnerable होगी या कम
real-time learning defense को मजबूत कर सकती है, लेकिन दूसरी ओर malicious input और गहराई से रह भी सकता है
Transformer के attention mechanism का विवरण पढ़ते हुए यह जिज्ञासा हुई कि Cursor जैसे IDE किस तरह memory manage करते हैं
लगता है कि वे codebase और context को लगातार बेहतर समझने लगे हैं
यह सिर्फ Transformer के context window के काम करने के तरीके की व्याख्या करने वाला हिस्सा है
पूछा गया कि क्या Titans को LoRA की तरह लगातार adapt होने वाली संरचना के रूप में समझा जा सकता है
अगर ऐसा है, तो क्या LoRA को main model में फिर से merge करने जैसा कोई चरण होगा? इसे sleep process जैसा बताया गया
Titans में ऐसा low-rank structure नहीं है
इसकी जगह input chunks को process करते समय पूरे MLP को train करने का तरीका अपनाया जाता है
जिज्ञासा जताई गई कि क्या surprise-based learning model को user prompts के साथ और अधिक precisely aligned (alignment) करने में मदद कर सकती है