- Titans आर्किटेक्चर और MIRAS फ्रेमवर्क AI मॉडलों को रनटाइम के दौरान भी मुख्य मेमोरी अपडेट करते हुए विशाल संदर्भ (context) को तेजी से प्रोसेस करने के लिए डिज़ाइन किए गए हैं
- Titans RNN की गति और Transformer की सटीकता को जोड़ता है, और इनपुट के दौरान अधिक ‘surprise’ वाली जानकारी को चयनात्मक रूप से लंबी अवधि की मेमोरी में स्टोर करता है
- MIRAS सभी sequence मॉडलों की एकीकृत व्याख्या देने वाला सैद्धांतिक ब्लूप्रिंट है, जो मेमोरी स्ट्रक्चर, बायस, भूलने और ऑप्टिमाइज़ेशन प्रक्रियाओं को व्यवस्थित रूप से मॉडल करता है
- प्रयोगों में, Titans और MIRAS के वैरिएंट मॉडल (YAAD, MONETA, MEMORA) ने Transformer++ और Mamba-2 जैसे नवीनतम मॉडलों की तुलना में लंबी संदर्भ प्रोसेसिंग और दक्षता में बेहतर प्रदर्शन दिखाया
- यह शोध RNN की efficiency और Transformer की expressivity को जोड़ने वाले नई पीढ़ी के लंबी संदर्भ AI मॉडलों की ओर बदलाव दिखाता है
Titans और MIRAS का अवलोकन
- Titans आर्किटेक्चर और MIRAS फ्रेमवर्क AI को रनटाइम में वास्तविक-समय पर मेमोरी अपडेट करते हुए बड़े संदर्भ को संभालने के लिए डिज़ाइन किया गया है
- पारंपरिक Transformer के attention मेकैनिज़्म में sequence length बढ़ने पर गणना खर्च तेजी से बढ़ जाता है
- Titans और MIRAS इन सीमाओं को पार करके लंबी संदर्भ समझ और वास्तविक-समय अनुकूलन को संभव बनाते हैं
- Titans एक specific मॉडल स्ट्रक्चर है, जबकि MIRAS इसका सामान्यीकृत सैद्धांतिक ब्लूप्रिंट के रूप में कार्य करता है
- दोनों सिस्टम ने test-time memorization की अवधारणा को आगे बढ़ाकर बिना retrain किए रनटाइम के दौरान नई जानकारी को एकीकृत किया
Titans: वास्तविक-समय संदर्भ सीखना
- Titans लघु अवधि स्मृति (attention mechanism) और दीर्घकालिक स्मृति (न्यूरल-नेटवर्क आधारित मॉड्यूल) को अलग करता है ताकि मानव स्मृति संरचना की नकल की जा सके
- दीर्घकालिक स्मृति मॉड्यूल multi-layer perceptron (MLP) के रूप में है, जो फिक्स्ड vector के बजाय deep neural network का उपयोग करके अधिक समृद्ध जानकारी का सार निकाल सकता है
- मुख्य अवधारणा ‘surprise metric’ है
- यदि इनपुट मौजूदा स्मृति से बहुत अलग हो तो उसे उच्च surprise मानकर लंबी अवधि की मेमोरी में स्टोर किया जाता है
- उदाहरण: अपेक्षित शब्द (‘cat’) का surprise कम होगा, जबकि अप्रत्याशित इनपुट (‘banana peel’) का surprise ज्यादा होगा और उसे अलग तरीके से प्रोसेस किया जाएगा
- Titans में momentum और weight decay तंत्र जोड़े गए हैं
- momentum हालिया संदर्भ की निरंतरता को दर्शाते हुए संबंधित जानकारी भी साथ में स्टोर करता है
- forgetting अनावश्यक जानकारी हटाकर मेमोरी क्षमता को कुशलतापूर्वक बनाए रखता है
MIRAS: क्रमिक मॉडल का एकीकृत दृष्टिकोण
- MIRAS सभी sequence मॉडलों को associative memory सिस्टम के रूप में व्याख्यायित करता है
- अलग-अलग मॉडल वास्तव में वही समस्या हल करते हैं: नई जानकारी और मौजूदा स्मृति को प्रभावी तरीके से मिलाना
- MIRAS चार डिजाइन तत्वों के आधार पर मॉडल को परिभाषित करता है
- मेमोरी स्ट्रक्चर: जानकारी स्टोर करने का रूप (vector, matrix, MLP आदि)
- attention bias: मॉडल किस जानकारी को प्राथमिकता देता है
- retention gate: forgetting को नियंत्रित करने वाला regularization तरीका
- मेमोरी एल्गोरिथ्म: मेमोरी अपडेट ऑप्टिमाइज़ेशन का तरीका
- पूर्ववर्ती मॉडल जो mean squared error (MSE) या dot-product similarity पर निर्भर थे, उनके ऊपर जाकर MIRAS non-Euclidean objective और regularization को खोजता है
MIRAS आधारित मॉडल
- YAAD: Huber loss का उपयोग करके इनपुट एरर या outlier के प्रति कम संवेदनशील संरचना
- MONETA: generalized norms लागू करके स्थिर लंबी अवधि की स्मृति बनाए रखता है
- MEMORA: मेमोरी को probabilistic map की तरह constrain करके संतुलित जानकारी एकीकरण सुनिश्चित करता है
- तीनों मॉडल attention के बिना भी मजबूत long-term memory performance हासिल करते हैं
प्रयोग परिणाम एवं प्रदर्शन
- Titans और MIRAS के परिवर्तित मॉडल की तुलना Transformer++, Mamba-2, Gated DeltaNet जैसे नवीनतम आर्किटेक्चर के साथ की गई
- Language Modeling (C4, WikiText) और Zero-shot Reasoning (HellaSwag, PIQA) में अधिक सटीकता और कम perplexity हासिल की गई
- Genomics (DNA) मॉडलिंग और time-series forecasting में भी सामान्यीकरण क्षमता सिद्ध हुई
- मेमोरी Depth का प्रदर्शन पर निर्णायक प्रभाव पड़ता है
- समान आकार की मेमोरी होने पर भी गहरी स्ट्रक्चर से कम perplexity और बेहतर स्केलेबिलिटी मिलती है
- दक्षता के लिहाज से, Titans समानांतर प्रशिक्षण और linear inference speed बनाए रखते हुए पुराने मॉडलों की तुलना में तेज़ प्रोसेसिंग करने में सक्षम है
- BABILong benchmark में GPT-4 की तुलना में कम parameters के साथ भी लंबी संदर्भ reasoning में बेहतर परिणाम मिले
- अधिकतम 2 मिलियन से अधिक tokens वाले संदर्भ विंडो को प्रभावी रूप से संभाला गया
निष्कर्ष
- Titans और MIRAS fixed-size recurrent state की सीमाओं को पार करते हुए, डेटा इनपुट के दौरान रनटाइम में सीखने वाली नई मेमोरी संरचना प्रस्तुत करते हैं
- MIRAS online optimization, associative memory और architecture design को एकीकृत करने वाला मजबूत सैद्धांतिक फ्रेमवर्क देता है
- non-Euclidean design space के माध्यम से, RNN की efficiency और Transformer की expressivity को मिलाकर लंबे संदर्भ वाले AI मॉडलों के युग का आधार तैयार करता है
अभी कोई टिप्पणी नहीं है.