- "और सस्ता, और बेहतर, और तेज़, और अधिक शक्तिशाली"
- यह एक Sparse Mixture-of-Experts(SMoE) मॉडल है, जो कुल 141B parameters में से केवल 39B active parameters का उपयोग करता है, इसलिए मॉडल के आकार की तुलना में इसकी cost efficiency बहुत उत्कृष्ट है
Mixtral 8x22B की मुख्य विशेषताएँ
- अंग्रेज़ी, फ़्रेंच, इटालियन, जर्मन और स्पैनिश में धाराप्रवाह
- गणित और coding क्षमता उत्कृष्ट
- function calling डिफ़ॉल्ट रूप से उपलब्ध है, और la Plateforme में लागू limited output mode के साथ बड़े पैमाने के application development और technology stack modernization संभव हैं
- 64K token context window के ज़रिए बड़े दस्तावेज़ों से सटीक information recall संभव है
एक सचमुच ओपन मॉडल
- Mistral AI, AI में innovation और collaboration को बढ़ावा देने के लिए openness और व्यापक deployment की शक्ति पर विश्वास करता है
- Mixtral 8x22B को सबसे permissive open source license, Apache 2.0, के तहत वितरित किया गया है, जिससे कोई भी इस मॉडल का बिना किसी प्रतिबंध उपयोग कर सकता है
सर्वोत्तम दक्षता
- Mistral AI हर मॉडल आकार के लिए cost के मुकाबले सर्वश्रेष्ठ performance देने वाले मॉडल बनाता है, जिससे community द्वारा उपलब्ध कराए गए मॉडलों में performance-to-cost ratio सबसे बेहतर मिलता है
- Mixtral 8x22B, Mistral AI के open model portfolio का स्वाभाविक विस्तार है। Sparse activation pattern की वजह से यह Dense 70B मॉडल से तेज़ है, और permissive या restrictive license के तहत वितरित अन्य open weight मॉडलों की तुलना में अधिक क्षमताएँ देता है। base model की उपलब्धता के कारण यह fine-tuning use cases के लिए एक बहुत उपयुक्त आधार बनता है
बेजोड़ ओपन performance
reasoning और knowledge
- Mixtral 8x22B reasoning के लिए optimized है
- common sense, reasoning और knowledge benchmarks (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS) में यह शीर्ष स्तर के LLM open models में सर्वश्रेष्ठ performance दिखाता है
multilingual क्षमताएँ
- Mixtral 8x22B में बुनियादी multilingual क्षमताएँ मौजूद हैं
- फ़्रेंच, जर्मन, स्पैनिश और इटालियन के HellaSwag, Arc Challenge और MMLU benchmarks में यह LLaMA 2 70B से काफ़ी आगे है
गणित और coding
- Mixtral 8x22B अन्य open models की तुलना में coding और गणित tasks में सबसे उत्कृष्ट performance दिखाता है
- coding और गणित benchmarks (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4) में यह अग्रणी open models के बीच सर्वश्रेष्ठ performance देता है
- आज घोषित Mixtral 8x22B के Instructed version की गणित performance और भी बेहतर है, जिसने GSM8K maj@8 में 90.8% और Math maj@4 में 44.6% स्कोर दर्ज किया
GN⁺ की राय
- Mixtral 8x22B, Mistral के open models में सबसे बड़ा मॉडल है, लेकिन Sparsity का उपयोग करके cost के मुकाबले बहुत efficient बना है। open source LLM models की प्रगति की दिशा के रूप में यह ध्यान देने योग्य है
- मॉडल आकार के मुकाबले इसकी शानदार multilingual performance और गणित/coding क्षमता, Mixtral 8x22B की अलग पहचान लगती है। लेकिन अंग्रेज़ी के अलावा भाषाओं के मामले में supported languages की breadth सीमित है, और GPT-4 जैसे आधुनिक LLMs की तुलना में coding या गणित क्षमता अभी भी पीछे है
- Apache 2.0 license के कारण इसे कोई भी स्वतंत्र रूप से उपयोग कर सकता है, यह एक फ़ायदा है, लेकिन दुरुपयोग की संभावना भी अधिक लगती है। open source AI models के ज़िम्मेदार development और उपयोग के लिए community के और प्रयास आवश्यक लगते हैं
- Mixtral मॉडल का उपयोग करके application development और technology stack modernization संभव होना आकर्षक है, लेकिन बड़े पैमाने की services में लागू करने के लिए अभी भी technical और cost limitations दिखती हैं। फिर भी open source आधारित innovation के उदाहरण बढ़ने की उम्मीद है
- भारत में Sarvam AI, Krutrim और AI4Bharat जैसी संस्थाएँ भी अपने LLM विकसित कर रही हैं। हिंदी और भारतीय भाषाओं की processing performance जैसे भारतीय बाज़ार-विशिष्ट पहलुओं में ये मॉडल प्रतिस्पर्धी हो सकते हैं
6 टिप्पणियां
Mixtral 8x22B बेस मॉडल: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Mixtral 8x22B Instruct मॉडल: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
लगता है कि यह Azure AI Studio में पहले से ही उपयोग के लिए दर्ज है। (
mistralai-Mixtral-8x7B-v01,mistral-community-Mixtral-8x22B-v0-1)Polyglot को Kakao Brain ने नहीं, बल्कि TUNiB ai और EleutherAI ने बनाया है। लगता है hallucination हो रहा है T_T
आह, सही है। मैंने इसे ठीक कर दिया है। धन्यवाद
जब Claude Opus से राय देने को कहते हैं, तो वह कभी-कभी इस तरह की घरेलू बातें भी जोड़ देता है। दिलचस्प है, हा
Hacker News टिप्पणियाँ
सारांश:
LMStudioका interface पसंद नहीं है, औरOllamaमें CLI का इस्तेमाल असुविधाजनक लगता हैMistralसीरीज़ के साथ performance comparison के नतीजे