- AI21 Labs ने Mamba आर्किटेक्चर पर आधारित दुनिया का पहला प्रोडक्शन-ग्रेड AI मॉडल Jamba लॉन्च किया
- Jamba, Mamba SSM (Structured State Space Model) और पारंपरिक transformer आर्किटेक्चर की खूबियों को मिलाकर प्रभावशाली performance और efficiency improvements प्रदान करता है
- 256K token की व्यापक context window. एकल 80GB GPU पर अधिकतम 140K token प्रोसेस कर सकता है
Jamba की hybrid architecture और performance
- Jamba, hybrid SSM-transformer architecture के जरिए 52B parameters में से inference के समय केवल 12B का उपयोग करने वाली Mixture of Experts (MoE) layers का उपयोग करता है
- यह Meta के Llama 2 जैसे प्रतिस्पर्धी मॉडलों की तुलना में कहीं लंबा context संभाल सकता है, जबकि उच्च throughput और efficiency बनाए रखता है
- लंबे context में 3 गुना अधिक throughput देता है, और समान आकार के transformer-आधारित मॉडलों की तुलना में अधिक efficient है
- इसमें block और layer approach की विशेषता है, जहाँ प्रत्येक Jamba block में attention या Mamba layer शामिल होती है और उसके बाद multilayer perceptron (MLP) आता है
- इस संरचना में कुल 8 layers में से 1 transformer layer का अनुपात इस्तेमाल किया जाता है
- यह विभिन्न benchmarks में उत्कृष्ट परिणाम दिखाता है, और समान आकार के अत्याधुनिक मॉडलों की तुलना में व्यापक कार्यों में performance में बेहतर है या उसके बराबर है
लाइसेंस
- Jamba को Apache 2.0 license के तहत open weights के साथ जारी किया गया है, और यह Hugging Face पर उपलब्ध है
- फिलहाल Jamba को commercial उपयोग के लिए आवश्यक safety guardrails के बिना एक research model के रूप में जारी किया गया है, लेकिन AI21 Labs आने वाले कुछ हफ्तों में इसका अधिक सुरक्षित version जारी करने की योजना बना रहा है
1 टिप्पणियां
Hacker News राय