Mistral AI ने नया ओपन मॉडल Mixtral 8x22B पेश किया

(mistral.ai)

9 पॉइंट द्वारा GN⁺ 2024-04-18 | 6 टिप्पणियां | WhatsApp पर शेयर करें

"और सस्ता, और बेहतर, और तेज़, और अधिक शक्तिशाली"
यह एक Sparse Mixture-of-Experts(SMoE) मॉडल है, जो कुल 141B parameters में से केवल 39B active parameters का उपयोग करता है, इसलिए मॉडल के आकार की तुलना में इसकी cost efficiency बहुत उत्कृष्ट है

Mixtral 8x22B की मुख्य विशेषताएँ

अंग्रेज़ी, फ़्रेंच, इटालियन, जर्मन और स्पैनिश में धाराप्रवाह
गणित और coding क्षमता उत्कृष्ट
function calling डिफ़ॉल्ट रूप से उपलब्ध है, और la Plateforme में लागू limited output mode के साथ बड़े पैमाने के application development और technology stack modernization संभव हैं
64K token context window के ज़रिए बड़े दस्तावेज़ों से सटीक information recall संभव है

एक सचमुच ओपन मॉडल

Mistral AI, AI में innovation और collaboration को बढ़ावा देने के लिए openness और व्यापक deployment की शक्ति पर विश्वास करता है
Mixtral 8x22B को सबसे permissive open source license, Apache 2.0, के तहत वितरित किया गया है, जिससे कोई भी इस मॉडल का बिना किसी प्रतिबंध उपयोग कर सकता है

सर्वोत्तम दक्षता

Mistral AI हर मॉडल आकार के लिए cost के मुकाबले सर्वश्रेष्ठ performance देने वाले मॉडल बनाता है, जिससे community द्वारा उपलब्ध कराए गए मॉडलों में performance-to-cost ratio सबसे बेहतर मिलता है
Mixtral 8x22B, Mistral AI के open model portfolio का स्वाभाविक विस्तार है। Sparse activation pattern की वजह से यह Dense 70B मॉडल से तेज़ है, और permissive या restrictive license के तहत वितरित अन्य open weight मॉडलों की तुलना में अधिक क्षमताएँ देता है। base model की उपलब्धता के कारण यह fine-tuning use cases के लिए एक बहुत उपयुक्त आधार बनता है

बेजोड़ ओपन performance

reasoning और knowledge

Mixtral 8x22B reasoning के लिए optimized है
common sense, reasoning और knowledge benchmarks (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS) में यह शीर्ष स्तर के LLM open models में सर्वश्रेष्ठ performance दिखाता है

multilingual क्षमताएँ

Mixtral 8x22B में बुनियादी multilingual क्षमताएँ मौजूद हैं
फ़्रेंच, जर्मन, स्पैनिश और इटालियन के HellaSwag, Arc Challenge और MMLU benchmarks में यह LLaMA 2 70B से काफ़ी आगे है

गणित और coding

Mixtral 8x22B अन्य open models की तुलना में coding और गणित tasks में सबसे उत्कृष्ट performance दिखाता है
coding और गणित benchmarks (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4) में यह अग्रणी open models के बीच सर्वश्रेष्ठ performance देता है
आज घोषित Mixtral 8x22B के Instructed version की गणित performance और भी बेहतर है, जिसने GSM8K maj@8 में 90.8% और Math maj@4 में 44.6% स्कोर दर्ज किया

GN⁺ की राय

Mixtral 8x22B, Mistral के open models में सबसे बड़ा मॉडल है, लेकिन Sparsity का उपयोग करके cost के मुकाबले बहुत efficient बना है। open source LLM models की प्रगति की दिशा के रूप में यह ध्यान देने योग्य है
मॉडल आकार के मुकाबले इसकी शानदार multilingual performance और गणित/coding क्षमता, Mixtral 8x22B की अलग पहचान लगती है। लेकिन अंग्रेज़ी के अलावा भाषाओं के मामले में supported languages की breadth सीमित है, और GPT-4 जैसे आधुनिक LLMs की तुलना में coding या गणित क्षमता अभी भी पीछे है
Apache 2.0 license के कारण इसे कोई भी स्वतंत्र रूप से उपयोग कर सकता है, यह एक फ़ायदा है, लेकिन दुरुपयोग की संभावना भी अधिक लगती है। open source AI models के ज़िम्मेदार development और उपयोग के लिए community के और प्रयास आवश्यक लगते हैं
Mixtral मॉडल का उपयोग करके application development और technology stack modernization संभव होना आकर्षक है, लेकिन बड़े पैमाने की services में लागू करने के लिए अभी भी technical और cost limitations दिखती हैं। फिर भी open source आधारित innovation के उदाहरण बढ़ने की उम्मीद है
भारत में Sarvam AI, Krutrim और AI4Bharat जैसी संस्थाएँ भी अपने LLM विकसित कर रही हैं। हिंदी और भारतीय भाषाओं की processing performance जैसे भारतीय बाज़ार-विशिष्ट पहलुओं में ये मॉडल प्रतिस्पर्धी हो सकते हैं

6 टिप्पणियां

ninebow 2024-04-19

Mixtral 8x22B बेस मॉडल: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Mixtral 8x22B Instruct मॉडल: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

dormis 2024-04-19

लगता है कि यह Azure AI Studio में पहले से ही उपयोग के लिए दर्ज है। (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

vkehfdl1 2024-04-18

Polyglot को Kakao Brain ने नहीं, बल्कि TUNiB ai और EleutherAI ने बनाया है। लगता है hallucination हो रहा है T_T

xguru 2024-04-19

आह, सही है। मैंने इसे ठीक कर दिया है। धन्यवाद

xguru 2024-04-18

जब Claude Opus से राय देने को कहते हैं, तो वह कभी-कभी इस तरह की घरेलू बातें भी जोड़ देता है। दिलचस्प है, हा

GN⁺ 2024-04-18

Hacker News टिप्पणियाँ

सारांश:

टैक्स से जुड़े सवाल ChatGPT में डालकर देखा तो essay writing service का विज्ञापन दिखा
"Mixture-of-Experts" कॉन्सेप्ट की आसान व्याख्या मांगी गई
- यह समझ आता है कि इसमें sub-experts होते हैं, लेकिन ट्रेनिंग के दौरान हर विशेषज्ञता क्षेत्र कैसे तय होता है, यह जानने की जिज्ञासा है
64K token context window size को लेकर निराशा
- GPT-4 Turbo के 128K तक नहीं पहुंच पाना आगे चलकर मजाक का विषय बन सकता है
- भविष्य में इसके 1 trillion token स्तर तक बढ़ने की उम्मीद है
MacBook Pro पर LLM चलाने का सबसे अच्छा तरीका पूछा गया
- LMStudio का interface पसंद नहीं है, और Ollama में CLI का इस्तेमाल असुविधाजनक लगता है
- OpenAI की तरह settings को बारीकी से adjust करने और prompt edit करना आसान हो, ऐसी solution को प्राथमिकता
open model की सीमाएँ
- अगर training data तक पहुंच नहीं है, तो model को replicate नहीं किया जा सकता
Mistral सीरीज़ के साथ performance comparison के नतीजे
AI startup चलाने के फायदे
- हर बार नया large model रिलीज़ होने पर product अपने-आप बेहतर हो जाता है
पूछा गया कि LLM का "non-instructed" version क्या "instructed" version का बिना guidance वाला रूप है
LLM की वजह से RAM की अहमियत फिर से उभरकर सामने आई
- MacBook Pro में अतिरिक्त 32GB RAM न लगवाने का अफसोस है
quantized model को लेकर उम्मीद
- 64GB MacBook Pro पर चल सकने वाला 3-bit model चाहिए