Mamba Transformer को चुनौती देने वाला State Space Model है

  • AI इस समय दुनिया पर हावी है, और उसके केंद्र में Transformer है
  • Mamba एक वैकल्पिक model class से संबंधित है जिसे State Space Model (SSM) कहा जाता है
  • Mamba, Transformer जैसी performance और scalability रखते हुए भी लंबी sequence length पर चल सकता है
  • खास बात यह है कि Mamba 'attention mechanism' के 'quadratic bottleneck' को हटाकर लंबे context को संभव बनाता है
  • Mamba, Transformer की तुलना में अधिकतम 5 गुना तेज चलता है

Transformer की समस्या - केवल attention पर्याप्त नहीं हो सकता

  • Transformer में हर token पिछले tokens को refer कर सकता है, इसलिए context बढ़ने पर model धीमा हो जाता है
  • इस KV cache को store करने के लिए space complexity भी O(n) चाहिए
  • मौजूदा Transformer bottleneck को कम करने वाली तकनीकें मौजूद हैं, लेकिन मूलभूत समाधान के लिए अलग approach की ज़रूरत है

foundation model backbone

  • एक अच्छे ML architecture backbone के दो महत्वपूर्ण घटक
    • tokens के बीच communication
    • token के भीतर computation
  • Transformer block, attention और MLPs से बना होता है
  • Mamba, communication के लिए control theory से प्रेरित SSM का उपयोग करता है, और computation के लिए MLP-style projection को बनाए रखता है

Mamba की प्रेरणा - Temple Run पर वापस लौटें

  • state उन variables को दर्शाता है जो system के भविष्य के behavior को तय करने के लिए ज़रूरी होते हैं
  • state, अतीत के बारे में जानने योग्य हर चीज़ का संपीड़ित रूप है, जिसे Markov decision process में बदला जाता है

discretisation - quantised दुनिया में जीना

  • continuous-time differential equation को discrete-time difference equation में बदलने की प्रक्रिया को discretisation कहा जाता है
  • Mamba zero-order hold (ZOH) discretisation का उपयोग करता है

SSM matrix को समझना

  • A, B, C, D matrices state transition, नए input को state से map करना, state को SSM output से map करना, और नए input को output तक pass-through करने का काम करते हैं

efficiency बनाम effectiveness: Attention is Focus, Selectivity is Prioritisation (ध्यान फोकस है, चयनशीलता प्राथमिकता निर्धारण है)

  • Transformer बहुत effective है, लेकिन efficient नहीं
  • Mamba architecture ऐसा समाधान देता है जो efficiency और effectiveness की Pareto frontier को आगे बढ़ाता है

selection mechanism

  • selectivity हर token को उसकी ज़रूरत के अनुसार state में बदलने की अनुमति देती है
  • Mamba, A, B, C matrices को x का function बनाकर उन्हें static की जगह context-dependent बनाता है

selectivity की समस्या

  • selection mechanism लागू करने पर computation, non-selective SSM की तुलना में धीमा हो सकता है
  • hardware optimisation के ज़रिए Mamba, समान आकार के Transformer से तेज चल सकता है

machine learning और political economy - state का आकार कितना बड़ा होना चाहिए?

  • sequence model में efficiency बनाम effectiveness का trade-off इस बात से पहचाना जाता है कि वह state को कितनी अच्छी तरह compress करता है
  • state representation महत्वपूर्ण है, और state को selective तथा dynamic तरीके से compress करना मुख्य बात है

Transformer बनाम Mamba में information flow

  • Transformer, training data और context data के माध्यम से सीखता है
  • Mamba में training data और context data compress/filter होकर सुलभ होते हैं

नए prompting paradigm के रूप में state swapping

  • Mamba जैसे models का उपयोग करने पर domain data के माध्यम से बने state libraries को साझा किया जा सकता है
  • state, backprop के बिना inference time पर अनंत context learning लागू कर सकता है

Mamba और mechanistic interpretability

  • Mamba की interpretability, tokens के बीच information movement को समझने पर केंद्रित है

Mamba और SSM आगे क्या करेंगे

  • Mamba जैसे models, बहुत लंबे context और long-term memory की ज़रूरत वाले scenarios में उत्कृष्ट performance दे सकते हैं

agents और AI safety

  • language models मूलतः सुरक्षित हैं, लेकिन long-term sequence reasoning की संभावना agent-based AI safety के महत्व को फिर से सामने लाती है

Transformer और Mamba का बेहतरीन सहयोग

  • Mamba के लंबे context और Transformer की short sequences पर high resolution को जोड़ना काफ़ी मूल्यवान हो सकता है

GN⁺ की राय

  • Mamba, Transformer bottleneck को हल करने और लंबी sequences को संभालने के लिए एक प्रभावी विकल्प पेश करता है
  • यह तकनीक खासकर healthcare, genetics, natural language processing जैसे क्षेत्रों में उपयोगी हो सकती है, जहाँ data की लंबी sequences महत्वपूर्ण होती हैं
  • Mamba के selection mechanism की वास्तविक प्रभावशीलता पर और शोध की ज़रूरत है
  • Mamba की selectivity, Transformer द्वारा दी गई उच्च accuracy और efficiency के बीच संतुलन खोजने में मदद कर सकती है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.