- "High-quality Sparse Mixture of Experts Model (SMoE, उच्च-गुणवत्ता sparse experts मॉडल)"
- ज़्यादातर benchmarks में Llama 2 70B से बेहतर, और inference 6 गुना तेज
- ज़्यादातर standard benchmarks में GPT 3.5 के बराबर या उससे बेहतर performance
- permissive license के साथ उपलब्ध सबसे शक्तिशाली open-weight मॉडल, और cost/performance के लिहाज़ से सबसे बेहतर मॉडल
- 32k token context support
- अंग्रेज़ी/फ़्रेंच/इतालवी/जर्मन/स्पैनिश प्रोसेसिंग
- code generation में मजबूत performance
- MT-Bench में 8.3 स्कोर पाने वाले Instruction-Following मॉडल के रूप में fine-tune किया जा सकता है
- MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)
sparse आर्किटेक्चर का उपयोग कर open models की सीमाओं का विस्तार
- Mixtral एक sparse experts network है, और यह decoder-only मॉडल है
- feedforward block 8 अलग-अलग parameter groups में से चुनता है; हर layer में हर token के लिए router network दो expert groups चुनता है और उनके outputs को combine करता है
- यह तकनीक मॉडल के parameters की संख्या बढ़ाते हुए cost और latency को नियंत्रित करने देती है; Mixtral में कुल 46.7B parameters हैं, लेकिन प्रति token केवल 12.9B parameters का उपयोग होता है
performance
- Mixtral, Llama 2 मॉडल और GPT3.5 base मॉडल की तुलना में, ज़्यादातर benchmarks में समान या बेहतर performance दिखाता है.
- Mixtral, Llama 2 70B मॉडल की तुलना में अधिक truthfulness वाले जवाब देता है (TruthfulQA benchmark में 73.9% बनाम 50.2%), और BBQ benchmark में कम bias दिखाता है.
- Mixtral फ़्रेंच, जर्मन, स्पैनिश, इतालवी और अंग्रेज़ी को दक्षता से संभालता है.
निर्देश-अनुसरण मॉडल
- Mixtral 8x7B Instruct, instruction-following performance को optimize करने के लिए supervised fine-tuning और direct preference optimization (DPO) से गुज़रता है.
- MT-Bench में 8.30 स्कोर हासिल कर, यह GPT3.5 के समान प्रदर्शन वाला सर्वश्रेष्ठ open source मॉडल बनता है.
Mixtral के open source deployment stack के साथ deploy करें
- community को पूर्ण open source stack के साथ Mixtral चलाने में सक्षम बनाने के लिए vLLM project में बदलाव submit किए गए हैं.
- फ़िलहाल Mistral AI, Mixtral 8x7B को mistral-small endpoint के पीछे इस्तेमाल कर रही है, और यह beta version में उपलब्ध है
- सभी generation और embedding endpoints के लिए early access पाने हेतु पंजीकरण किया जा सकता है
2 टिप्पणियां
जैसा कि नीचे की टिप्पणियों में भी बताया गया है, मैंने भी शुरुआत में 8x7B देखकर सोचा था कि क्या इसका मतलब कुल parameters की संख्या 56B है?
Hacker News टिप्पणियाँ
Andrej Karpathy की राय:
Huggingface पर मॉडल की उपलब्धता:
सॉफ्टवेयर इंजीनियरों के लिए आसान व्याख्या का अनुरोध:
Mixtral 8x7B के आकार पर प्रतिक्रिया:
AI के भविष्य को लेकर दृष्टिकोण:
MoE के काम करने के तरीके और उसके फायदे-नुकसान पर सवाल:
मॉडल parameters को लेकर भ्रम:
Mistral के approach पर विवरण:
Mixtral 8x7B की भाषा क्षमता:
मॉडल और weights की जानकारी का अनुरोध:
बाज़ार प्रतिस्पर्धा पर सवाल: