Mistral AI ने Llama 2 70B मॉडल से बेहतर Mixtral 8x7B मॉडल पेश किया

(mistral.ai)

12 पॉइंट द्वारा GN⁺ 2023-12-12 | 2 टिप्पणियां | WhatsApp पर शेयर करें

"High-quality Sparse Mixture of Experts Model (SMoE, उच्च-गुणवत्ता sparse experts मॉडल)"
ज़्यादातर benchmarks में Llama 2 70B से बेहतर, और inference 6 गुना तेज
ज़्यादातर standard benchmarks में GPT 3.5 के बराबर या उससे बेहतर performance
permissive license के साथ उपलब्ध सबसे शक्तिशाली open-weight मॉडल, और cost/performance के लिहाज़ से सबसे बेहतर मॉडल
32k token context support
अंग्रेज़ी/फ़्रेंच/इतालवी/जर्मन/स्पैनिश प्रोसेसिंग
code generation में मजबूत performance
MT-Bench में 8.3 स्कोर पाने वाले Instruction-Following मॉडल के रूप में fine-tune किया जा सकता है
MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

sparse आर्किटेक्चर का उपयोग कर open models की सीमाओं का विस्तार

Mixtral एक sparse experts network है, और यह decoder-only मॉडल है
feedforward block 8 अलग-अलग parameter groups में से चुनता है; हर layer में हर token के लिए router network दो expert groups चुनता है और उनके outputs को combine करता है
यह तकनीक मॉडल के parameters की संख्या बढ़ाते हुए cost और latency को नियंत्रित करने देती है; Mixtral में कुल 46.7B parameters हैं, लेकिन प्रति token केवल 12.9B parameters का उपयोग होता है

performance

Mixtral, Llama 2 मॉडल और GPT3.5 base मॉडल की तुलना में, ज़्यादातर benchmarks में समान या बेहतर performance दिखाता है.
Mixtral, Llama 2 70B मॉडल की तुलना में अधिक truthfulness वाले जवाब देता है (TruthfulQA benchmark में 73.9% बनाम 50.2%), और BBQ benchmark में कम bias दिखाता है.
Mixtral फ़्रेंच, जर्मन, स्पैनिश, इतालवी और अंग्रेज़ी को दक्षता से संभालता है.

निर्देश-अनुसरण मॉडल

Mixtral 8x7B Instruct, instruction-following performance को optimize करने के लिए supervised fine-tuning और direct preference optimization (DPO) से गुज़रता है.
MT-Bench में 8.30 स्कोर हासिल कर, यह GPT3.5 के समान प्रदर्शन वाला सर्वश्रेष्ठ open source मॉडल बनता है.

Mixtral के open source deployment stack के साथ deploy करें

community को पूर्ण open source stack के साथ Mixtral चलाने में सक्षम बनाने के लिए vLLM project में बदलाव submit किए गए हैं.
फ़िलहाल Mistral AI, Mixtral 8x7B को mistral-small endpoint के पीछे इस्तेमाल कर रही है, और यह beta version में उपलब्ध है
सभी generation और embedding endpoints के लिए early access पाने हेतु पंजीकरण किया जा सकता है

2 टिप्पणियां

cosine20 2023-12-12

जैसा कि नीचे की टिप्पणियों में भी बताया गया है, मैंने भी शुरुआत में 8x7B देखकर सोचा था कि क्या इसका मतलब कुल parameters की संख्या 56B है?

GN⁺ 2023-12-12

Hacker News टिप्पणियाँ

Andrej Karpathy की राय:
- Mixtral 8x7B पर आधिकारिक पोस्ट और vLLM का inference code जारी किया गया
- HuggingFace की MoE(Mixture of Experts) व्याख्या उपयोगी है
- 70B मॉडल का प्रदर्शन 12.9B dense मॉडल की inference speed पर हासिल किया गया
- "open weights" शब्द के उपयोग पर सकारात्मक प्रतिक्रिया
- "8x7B" नाम भ्रामक हो सकता है, इस पर ध्यान दिलाया
- हर token और layer में 8 में से 2 experts चुने जाने के तरीके को लेकर भ्रम का उल्लेख
- Mistral-medium मॉडल का परिचय
Huggingface पर मॉडल की उपलब्धता:
- Mistralai और TheBloke से Mixtral मॉडल उपलब्ध है
सॉफ्टवेयर इंजीनियरों के लिए आसान व्याख्या का अनुरोध:
- Mixture of Experts कैसे काम करता है, इसे समझने की जरूरत
Mixtral 8x7B के आकार पर प्रतिक्रिया:
- 4.5 अरब parameters को "small" मॉडल माना जाना दिलचस्प लगा
AI के भविष्य को लेकर दृष्टिकोण:
- MoE को AI का भविष्य मानने वाला सकारात्मक नजरिया
MoE के काम करने के तरीके और उसके फायदे-नुकसान पर सवाल:
- मौजूदा मॉडलों की तुलना में MoE के क्या फायदे हैं, इस पर व्याख्या की जरूरत
मॉडल parameters को लेकर भ्रम:
- "8x7B" नाम, वास्तविक parameters की संख्या, और token generation के दौरान इस्तेमाल होने वाले parameters को लेकर उलझन
Mistral के approach पर विवरण:
- CEO ने कहा कि Mistral मॉडल को censored नहीं करता और अधिक स्वतंत्र access चाहता है
Mixtral 8x7B की भाषा क्षमता:
- फ्रेंच, जर्मन, स्पैनिश, इटैलियन और अंग्रेज़ी को अच्छी तरह संभालता है
मॉडल और weights की जानकारी का अनुरोध:
- मॉडल और weights के लिंक की मांग
बाज़ार प्रतिस्पर्धा पर सवाल:
- GPT 3.5 से बेहतर मॉडल होने के बावजूद, OpenAI/Google से प्रतिस्पर्धा में इसके अवसर क्या हैं और भविष्य की दिशा क्या हो सकती है