Mamba: Transformer को चुनौती देने वाला State Space Model

(kolaayonrinde.com)

11 पॉइंट द्वारा GN⁺ 2024-02-27 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Mamba Transformer को चुनौती देने वाला State Space Model है

AI इस समय दुनिया पर हावी है, और उसके केंद्र में Transformer है
Mamba एक वैकल्पिक model class से संबंधित है जिसे State Space Model (SSM) कहा जाता है
Mamba, Transformer जैसी performance और scalability रखते हुए भी लंबी sequence length पर चल सकता है
खास बात यह है कि Mamba 'attention mechanism' के 'quadratic bottleneck' को हटाकर लंबे context को संभव बनाता है
Mamba, Transformer की तुलना में अधिकतम 5 गुना तेज चलता है

Transformer की समस्या - केवल attention पर्याप्त नहीं हो सकता

Transformer में हर token पिछले tokens को refer कर सकता है, इसलिए context बढ़ने पर model धीमा हो जाता है
इस KV cache को store करने के लिए space complexity भी O(n) चाहिए
मौजूदा Transformer bottleneck को कम करने वाली तकनीकें मौजूद हैं, लेकिन मूलभूत समाधान के लिए अलग approach की ज़रूरत है

foundation model backbone

एक अच्छे ML architecture backbone के दो महत्वपूर्ण घटक
- tokens के बीच communication
- token के भीतर computation
Transformer block, attention और MLPs से बना होता है
Mamba, communication के लिए control theory से प्रेरित SSM का उपयोग करता है, और computation के लिए MLP-style projection को बनाए रखता है

Mamba की प्रेरणा - Temple Run पर वापस लौटें

state उन variables को दर्शाता है जो system के भविष्य के behavior को तय करने के लिए ज़रूरी होते हैं
state, अतीत के बारे में जानने योग्य हर चीज़ का संपीड़ित रूप है, जिसे Markov decision process में बदला जाता है

discretisation - quantised दुनिया में जीना

continuous-time differential equation को discrete-time difference equation में बदलने की प्रक्रिया को discretisation कहा जाता है
Mamba zero-order hold (ZOH) discretisation का उपयोग करता है

SSM matrix को समझना

A, B, C, D matrices state transition, नए input को state से map करना, state को SSM output से map करना, और नए input को output तक pass-through करने का काम करते हैं

efficiency बनाम effectiveness: Attention is Focus, Selectivity is Prioritisation (ध्यान फोकस है, चयनशीलता प्राथमिकता निर्धारण है)

Transformer बहुत effective है, लेकिन efficient नहीं
Mamba architecture ऐसा समाधान देता है जो efficiency और effectiveness की Pareto frontier को आगे बढ़ाता है

selection mechanism

selectivity हर token को उसकी ज़रूरत के अनुसार state में बदलने की अनुमति देती है
Mamba, A, B, C matrices को x का function बनाकर उन्हें static की जगह context-dependent बनाता है

selectivity की समस्या

selection mechanism लागू करने पर computation, non-selective SSM की तुलना में धीमा हो सकता है
hardware optimisation के ज़रिए Mamba, समान आकार के Transformer से तेज चल सकता है

machine learning और political economy - state का आकार कितना बड़ा होना चाहिए?

sequence model में efficiency बनाम effectiveness का trade-off इस बात से पहचाना जाता है कि वह state को कितनी अच्छी तरह compress करता है
state representation महत्वपूर्ण है, और state को selective तथा dynamic तरीके से compress करना मुख्य बात है

Transformer बनाम Mamba में information flow

Transformer, training data और context data के माध्यम से सीखता है
Mamba में training data और context data compress/filter होकर सुलभ होते हैं

नए prompting paradigm के रूप में state swapping

Mamba जैसे models का उपयोग करने पर domain data के माध्यम से बने state libraries को साझा किया जा सकता है
state, backprop के बिना inference time पर अनंत context learning लागू कर सकता है

Mamba और mechanistic interpretability

Mamba की interpretability, tokens के बीच information movement को समझने पर केंद्रित है

Mamba और SSM आगे क्या करेंगे

Mamba जैसे models, बहुत लंबे context और long-term memory की ज़रूरत वाले scenarios में उत्कृष्ट performance दे सकते हैं

agents और AI safety

language models मूलतः सुरक्षित हैं, लेकिन long-term sequence reasoning की संभावना agent-based AI safety के महत्व को फिर से सामने लाती है

Transformer और Mamba का बेहतरीन सहयोग

Mamba के लंबे context और Transformer की short sequences पर high resolution को जोड़ना काफ़ी मूल्यवान हो सकता है

GN⁺ की राय

Mamba, Transformer bottleneck को हल करने और लंबी sequences को संभालने के लिए एक प्रभावी विकल्प पेश करता है
यह तकनीक खासकर healthcare, genetics, natural language processing जैसे क्षेत्रों में उपयोगी हो सकती है, जहाँ data की लंबी sequences महत्वपूर्ण होती हैं
Mamba के selection mechanism की वास्तविक प्रभावशीलता पर और शोध की ज़रूरत है
Mamba की selectivity, Transformer द्वारा दी गई उच्च accuracy और efficiency के बीच संतुलन खोजने में मदद कर सकती है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.