12 पॉइंट द्वारा GN⁺ 2023-12-12 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • "High-quality Sparse Mixture of Experts Model (SMoE, उच्च-गुणवत्ता sparse experts मॉडल)"
  • ज़्यादातर benchmarks में Llama 2 70B से बेहतर, और inference 6 गुना तेज
  • ज़्यादातर standard benchmarks में GPT 3.5 के बराबर या उससे बेहतर performance
  • permissive license के साथ उपलब्ध सबसे शक्तिशाली open-weight मॉडल, और cost/performance के लिहाज़ से सबसे बेहतर मॉडल
  • 32k token context support
  • अंग्रेज़ी/फ़्रेंच/इतालवी/जर्मन/स्पैनिश प्रोसेसिंग
  • code generation में मजबूत performance
  • MT-Bench में 8.3 स्कोर पाने वाले Instruction-Following मॉडल के रूप में fine-tune किया जा सकता है
  • MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

sparse आर्किटेक्चर का उपयोग कर open models की सीमाओं का विस्तार

  • Mixtral एक sparse experts network है, और यह decoder-only मॉडल है
  • feedforward block 8 अलग-अलग parameter groups में से चुनता है; हर layer में हर token के लिए router network दो expert groups चुनता है और उनके outputs को combine करता है
  • यह तकनीक मॉडल के parameters की संख्या बढ़ाते हुए cost और latency को नियंत्रित करने देती है; Mixtral में कुल 46.7B parameters हैं, लेकिन प्रति token केवल 12.9B parameters का उपयोग होता है

performance

  • Mixtral, Llama 2 मॉडल और GPT3.5 base मॉडल की तुलना में, ज़्यादातर benchmarks में समान या बेहतर performance दिखाता है.
  • Mixtral, Llama 2 70B मॉडल की तुलना में अधिक truthfulness वाले जवाब देता है (TruthfulQA benchmark में 73.9% बनाम 50.2%), और BBQ benchmark में कम bias दिखाता है.
  • Mixtral फ़्रेंच, जर्मन, स्पैनिश, इतालवी और अंग्रेज़ी को दक्षता से संभालता है.

निर्देश-अनुसरण मॉडल

  • Mixtral 8x7B Instruct, instruction-following performance को optimize करने के लिए supervised fine-tuning और direct preference optimization (DPO) से गुज़रता है.
  • MT-Bench में 8.30 स्कोर हासिल कर, यह GPT3.5 के समान प्रदर्शन वाला सर्वश्रेष्ठ open source मॉडल बनता है.

Mixtral के open source deployment stack के साथ deploy करें

  • community को पूर्ण open source stack के साथ Mixtral चलाने में सक्षम बनाने के लिए vLLM project में बदलाव submit किए गए हैं.
  • फ़िलहाल Mistral AI, Mixtral 8x7B को mistral-small endpoint के पीछे इस्तेमाल कर रही है, और यह beta version में उपलब्ध है
  • सभी generation और embedding endpoints के लिए early access पाने हेतु पंजीकरण किया जा सकता है

2 टिप्पणियां

 
cosine20 2023-12-12

जैसा कि नीचे की टिप्पणियों में भी बताया गया है, मैंने भी शुरुआत में 8x7B देखकर सोचा था कि क्या इसका मतलब कुल parameters की संख्या 56B है?

 
GN⁺ 2023-12-12
Hacker News टिप्पणियाँ
  • Andrej Karpathy की राय:

    • Mixtral 8x7B पर आधिकारिक पोस्ट और vLLM का inference code जारी किया गया
    • HuggingFace की MoE(Mixture of Experts) व्याख्या उपयोगी है
    • 70B मॉडल का प्रदर्शन 12.9B dense मॉडल की inference speed पर हासिल किया गया
    • "open weights" शब्द के उपयोग पर सकारात्मक प्रतिक्रिया
    • "8x7B" नाम भ्रामक हो सकता है, इस पर ध्यान दिलाया
    • हर token और layer में 8 में से 2 experts चुने जाने के तरीके को लेकर भ्रम का उल्लेख
    • Mistral-medium मॉडल का परिचय
  • Huggingface पर मॉडल की उपलब्धता:

    • Mistralai और TheBloke से Mixtral मॉडल उपलब्ध है
  • सॉफ्टवेयर इंजीनियरों के लिए आसान व्याख्या का अनुरोध:

    • Mixture of Experts कैसे काम करता है, इसे समझने की जरूरत
  • Mixtral 8x7B के आकार पर प्रतिक्रिया:

    • 4.5 अरब parameters को "small" मॉडल माना जाना दिलचस्प लगा
  • AI के भविष्य को लेकर दृष्टिकोण:

    • MoE को AI का भविष्य मानने वाला सकारात्मक नजरिया
  • MoE के काम करने के तरीके और उसके फायदे-नुकसान पर सवाल:

    • मौजूदा मॉडलों की तुलना में MoE के क्या फायदे हैं, इस पर व्याख्या की जरूरत
  • मॉडल parameters को लेकर भ्रम:

    • "8x7B" नाम, वास्तविक parameters की संख्या, और token generation के दौरान इस्तेमाल होने वाले parameters को लेकर उलझन
  • Mistral के approach पर विवरण:

    • CEO ने कहा कि Mistral मॉडल को censored नहीं करता और अधिक स्वतंत्र access चाहता है
  • Mixtral 8x7B की भाषा क्षमता:

    • फ्रेंच, जर्मन, स्पैनिश, इटैलियन और अंग्रेज़ी को अच्छी तरह संभालता है
  • मॉडल और weights की जानकारी का अनुरोध:

    • मॉडल और weights के लिंक की मांग
  • बाज़ार प्रतिस्पर्धा पर सवाल:

    • GPT 3.5 से बेहतर मॉडल होने के बावजूद, OpenAI/Google से प्रतिस्पर्धा में इसके अवसर क्या हैं और भविष्य की दिशा क्या हो सकती है