Mamba Transformer को चुनौती देने वाला State Space Model है
- AI इस समय दुनिया पर हावी है, और उसके केंद्र में Transformer है
- Mamba एक वैकल्पिक model class से संबंधित है जिसे State Space Model (SSM) कहा जाता है
- Mamba, Transformer जैसी performance और scalability रखते हुए भी लंबी sequence length पर चल सकता है
- खास बात यह है कि Mamba 'attention mechanism' के 'quadratic bottleneck' को हटाकर लंबे context को संभव बनाता है
- Mamba, Transformer की तुलना में अधिकतम 5 गुना तेज चलता है
Transformer की समस्या - केवल attention पर्याप्त नहीं हो सकता
- Transformer में हर token पिछले tokens को refer कर सकता है, इसलिए context बढ़ने पर model धीमा हो जाता है
- इस KV cache को store करने के लिए space complexity भी O(n) चाहिए
- मौजूदा Transformer bottleneck को कम करने वाली तकनीकें मौजूद हैं, लेकिन मूलभूत समाधान के लिए अलग approach की ज़रूरत है
foundation model backbone
- एक अच्छे ML architecture backbone के दो महत्वपूर्ण घटक
- tokens के बीच communication
- token के भीतर computation
- Transformer block, attention और MLPs से बना होता है
- Mamba, communication के लिए control theory से प्रेरित SSM का उपयोग करता है, और computation के लिए MLP-style projection को बनाए रखता है
Mamba की प्रेरणा - Temple Run पर वापस लौटें
- state उन variables को दर्शाता है जो system के भविष्य के behavior को तय करने के लिए ज़रूरी होते हैं
- state, अतीत के बारे में जानने योग्य हर चीज़ का संपीड़ित रूप है, जिसे Markov decision process में बदला जाता है
discretisation - quantised दुनिया में जीना
- continuous-time differential equation को discrete-time difference equation में बदलने की प्रक्रिया को discretisation कहा जाता है
- Mamba zero-order hold (ZOH) discretisation का उपयोग करता है
SSM matrix को समझना
- A, B, C, D matrices state transition, नए input को state से map करना, state को SSM output से map करना, और नए input को output तक pass-through करने का काम करते हैं
efficiency बनाम effectiveness: Attention is Focus, Selectivity is Prioritisation (ध्यान फोकस है, चयनशीलता प्राथमिकता निर्धारण है)
- Transformer बहुत effective है, लेकिन efficient नहीं
- Mamba architecture ऐसा समाधान देता है जो efficiency और effectiveness की Pareto frontier को आगे बढ़ाता है
selection mechanism
- selectivity हर token को उसकी ज़रूरत के अनुसार state में बदलने की अनुमति देती है
- Mamba, A, B, C matrices को x का function बनाकर उन्हें static की जगह context-dependent बनाता है
selectivity की समस्या
- selection mechanism लागू करने पर computation, non-selective SSM की तुलना में धीमा हो सकता है
- hardware optimisation के ज़रिए Mamba, समान आकार के Transformer से तेज चल सकता है
machine learning और political economy - state का आकार कितना बड़ा होना चाहिए?
- sequence model में efficiency बनाम effectiveness का trade-off इस बात से पहचाना जाता है कि वह state को कितनी अच्छी तरह compress करता है
- state representation महत्वपूर्ण है, और state को selective तथा dynamic तरीके से compress करना मुख्य बात है
Transformer बनाम Mamba में information flow
- Transformer, training data और context data के माध्यम से सीखता है
- Mamba में training data और context data compress/filter होकर सुलभ होते हैं
नए prompting paradigm के रूप में state swapping
- Mamba जैसे models का उपयोग करने पर domain data के माध्यम से बने state libraries को साझा किया जा सकता है
- state, backprop के बिना inference time पर अनंत context learning लागू कर सकता है
Mamba और mechanistic interpretability
- Mamba की interpretability, tokens के बीच information movement को समझने पर केंद्रित है
Mamba और SSM आगे क्या करेंगे
- Mamba जैसे models, बहुत लंबे context और long-term memory की ज़रूरत वाले scenarios में उत्कृष्ट performance दे सकते हैं
agents और AI safety
- language models मूलतः सुरक्षित हैं, लेकिन long-term sequence reasoning की संभावना agent-based AI safety के महत्व को फिर से सामने लाती है
Transformer और Mamba का बेहतरीन सहयोग
- Mamba के लंबे context और Transformer की short sequences पर high resolution को जोड़ना काफ़ी मूल्यवान हो सकता है
GN⁺ की राय
- Mamba, Transformer bottleneck को हल करने और लंबी sequences को संभालने के लिए एक प्रभावी विकल्प पेश करता है
- यह तकनीक खासकर healthcare, genetics, natural language processing जैसे क्षेत्रों में उपयोगी हो सकती है, जहाँ data की लंबी sequences महत्वपूर्ण होती हैं
- Mamba के selection mechanism की वास्तविक प्रभावशीलता पर और शोध की ज़रूरत है
- Mamba की selectivity, Transformer द्वारा दी गई उच्च accuracy और efficiency के बीच संतुलन खोजने में मदद कर सकती है
अभी कोई टिप्पणी नहीं है.