Jamba - प्रोडक्शन-ग्रेड Mamba-आधारित AI मॉडल

xguru · 2024-03-30T09:46:02+09:00

AI21 Labs ने Mamba आर्किटेक्चर पर आधारित दुनिया का पहला प्रोडक्शन-ग्रेड AI मॉडल Jamba लॉन्च किया Jamba, Mamba SSM (Structured State Space Model) और पारंपरिक transformer आर्किटेक्चर की खूबियों को मिलाकर प्रभावशाली performance और efficiency improvements प्रदान करता है 256K token की व्यापक context window. एकल 80GB GPU पर अधिकतम 140K token प्रोसेस कर सकता है Jamba की hybrid architecture और performance Jamba, hybrid SSM-transformer architecture के जरिए 52B parameters में से inference के समय केवल 12B का उपयोग करने वाली Mixture of Experts (MoE) layers का उपयोग करता है यह Meta के Llama 2 जैसे प्रतिस्पर्धी मॉडलों की तुलना में कहीं लंबा context संभाल सकता है, जबकि उच्च throughput और efficiency बनाए रखता है लंबे context में 3 गुना अधिक throughput देता है, और समान आकार के transformer-आधारित मॉडलों की तुलना में अधिक efficient है इसमें block और layer approach की विशेषता है, जहाँ प्रत्येक Jamba block में attention या Mamba layer शामिल होती है और उसके बाद multilayer perceptron (MLP) आता है इस संरचना में कुल 8 layers में से 1 transformer layer का अनुपात इस्तेमाल किया जाता है यह विभिन्न benchmarks में उत्कृष्ट परिणाम दिखाता है, और समान आकार के अत्याधुनिक मॉडलों की तुलना में व्यापक कार्यों में performance में बेहतर है या उसके बराबर है लाइसेंस Jamba को Apache 2.0 license के तहत open weights के साथ जारी किया गया है, और यह Hugging Face पर उपलब्ध है फिलहाल Jamba को commercial उपयोग के लिए आवश्यक safety guardrails के बिना एक research model के रूप में जारी किया गया है, लेकिन AI21 Labs आने वाले कुछ हफ्तों में इसका अधिक सुरक्षित version जारी करने की योजना बना रहा है

(maginative.com)

11 पॉइंट द्वारा xguru 2024-03-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें

AI21 Labs ने Mamba आर्किटेक्चर पर आधारित दुनिया का पहला प्रोडक्शन-ग्रेड AI मॉडल Jamba लॉन्च किया
Jamba, Mamba SSM (Structured State Space Model) और पारंपरिक transformer आर्किटेक्चर की खूबियों को मिलाकर प्रभावशाली performance और efficiency improvements प्रदान करता है
256K token की व्यापक context window. एकल 80GB GPU पर अधिकतम 140K token प्रोसेस कर सकता है

Jamba की hybrid architecture और performance

Jamba, hybrid SSM-transformer architecture के जरिए 52B parameters में से inference के समय केवल 12B का उपयोग करने वाली Mixture of Experts (MoE) layers का उपयोग करता है
यह Meta के Llama 2 जैसे प्रतिस्पर्धी मॉडलों की तुलना में कहीं लंबा context संभाल सकता है, जबकि उच्च throughput और efficiency बनाए रखता है
लंबे context में 3 गुना अधिक throughput देता है, और समान आकार के transformer-आधारित मॉडलों की तुलना में अधिक efficient है
इसमें block और layer approach की विशेषता है, जहाँ प्रत्येक Jamba block में attention या Mamba layer शामिल होती है और उसके बाद multilayer perceptron (MLP) आता है
इस संरचना में कुल 8 layers में से 1 transformer layer का अनुपात इस्तेमाल किया जाता है
यह विभिन्न benchmarks में उत्कृष्ट परिणाम दिखाता है, और समान आकार के अत्याधुनिक मॉडलों की तुलना में व्यापक कार्यों में performance में बेहतर है या उसके बराबर है

लाइसेंस

Jamba को Apache 2.0 license के तहत open weights के साथ जारी किया गया है, और यह Hugging Face पर उपलब्ध है
फिलहाल Jamba को commercial उपयोग के लिए आवश्यक safety guardrails के बिना एक research model के रूप में जारी किया गया है, लेकिन AI21 Labs आने वाले कुछ हफ्तों में इसका अधिक सुरक्षित version जारी करने की योजना बना रहा है

1 टिप्पणियां

xguru 2024-03-30

Hacker News राय

Mamba के बारे में जानकारी वाले हाल के थ्रेड का लिंक साझा किया गया
- Mamba व्याख्या थ्रेड और एक बेहतर थ्रेड के दो लिंक दिए गए।
transformer और state space model लेयरों के बीच trade-off को लेकर जिज्ञासा रखने वालों के लिए Sasha Rush का वीडियो सुझाया गया
- Sasha Rush के वीडियो के ज़रिए transformer और state space model लेयरों के बीच अंतर समझने में मदद मिलती है।
Linux में 4090 GPU एक या दो का उपयोग करके इसे चलाने की कोशिश से जुड़ी समस्या साझा की गई
- Linux में 4090 GPU का उपयोग करते हुए checkpoint loading के दौरान समस्या आई; VRAM पर्याप्त लग रही थी, फिर भी यह विफल हो गया। इस प्रयास में रुचि जताई गई।
Mamba का उपयोग करने वाले पूर्ण production-grade मॉडल के आने का स्वागत करते हुए, long context window benchmark में performance और throughput दोनों को लेकर रुचि जताई गई
- ऐसा प्रभाव है कि Mamba लंबे context का उपयोग करते समय throughput को काफी बढ़ाता है, लेकिन accuracy में थोड़ी कमी आती है।
LLM (Large Language Models) की अक्षमता की ओर इशारा किया गया
- 80GB GPU memory की आवश्यकता वाले LLM की inefficiency का उल्लेख करते हुए उम्मीद जताई गई कि algorithm में सुधार की काफी गुंजाइश है।
self-attention लेयर की आवश्यकता पर सवाल उठाया गया
- यह प्रश्न किया गया कि केवल SSM और MLP लेयरों को बारी-बारी से उपयोग करने के बजाय self-attention लेयर को शामिल करने की आवश्यकता क्यों है।
Jamba-v0.1-hybrid-MoE मॉडल के performance improvement के बारे में बताया गया
- यह राय दी गई कि Jamba-v0.1-hybrid-MoE मॉडल मौजूदा मॉडलों की तुलना में लंबा context, तेज़ speed और कम cost देता है, और "एक ही मॉडल सब पर राज करेगा" जैसी सोच का अंत कर देगा।
Mamba नाम के दोहराव की समस्या की ओर ध्यान दिलाया गया
- यह रेखांकित किया गया कि Mamba नाम पहले से ही एक लोकप्रिय Python package के लिए इस्तेमाल हो रहा है, इसलिए नाम चुनने के महत्व पर ज़ोर दिया गया।
Sparabo नाम का उल्लेख किया गया और नई चीज़ों के साथ पुराने नाम जुड़े होने को दिलचस्प बताया गया
- पूछा गया कि क्या Sparabo जैसा कोई नाम मौजूद है, और नई चीज़ों के लिए पुराने नामों के इस्तेमाल को रोचक बताया गया।
यह उल्लेख किया गया कि long context पर काम MemGPT से जुड़ा है, और सुझाव दिया गया कि ऐसा ही विचार Mamba architecture मॉडल पर भी लागू किया जा सकता है
- MemGPT से जुड़े long context कार्य का उल्लेख करते हुए राय दी गई कि इसे Mamba architecture मॉडल पर भी लागू किया जा सकता है।