- Mistral Large 2 128k context window और फ़्रेंच, जर्मन, स्पैनिश, इटालियन, चीनी, जापानी और कोरियाई सहित कई भाषाओं को सपोर्ट करता है
- साथ ही यह Python, Java, C, C++, JavaScript, Bash सहित 80 से अधिक coding languages को सपोर्ट करता है
- इसे single-node inference के लिए डिज़ाइन किया गया है, और यह 123 अरब parameters से बना है, जिससे single node पर high throughput मिल सकता है
- इसे Mistral Research License के तहत वितरित किया गया है, जिसके अंतर्गत research और non-commercial उपयोग के लिए इसका इस्तेमाल और modification किया जा सकता है। commercial उपयोग के लिए Mistral Commercial License प्राप्त करना होगा
सामान्य प्रदर्शन
- Mistral Large 2 performance/cost evaluation metrics में नया benchmark स्थापित करता है
- खास तौर पर MMLU में इसका pre-trained version 84.0% accuracy हासिल करता है, और performance/cost Pareto front पर एक नया बिंदु स्थापित करता है
कोड और reasoning
- Codestral 22B और Codestral Mamba के अनुभव के आधार पर Mistral Large 2 को बड़ी मात्रा में code पर train किया गया है
- Mistral Large 2, पिछले Mistral Large की तुलना में कहीं बेहतर है और GPT-4o, Claude 3 Opus, Llama 3 405B जैसे leading models के बराबर प्रदर्शन दिखाता है
- मॉडल की reasoning क्षमता को बेहतर बनाने के लिए काफ़ी प्रयास किए गए हैं, और factually incorrect जानकारी बनाने की प्रवृत्ति को न्यूनतम करने के लिए मॉडल को fine-tune किया गया है
- मॉडल को इस तरह train किया गया है कि जब उसे समाधान न मिले या पर्याप्त जानकारी न हो, तो वह इसे स्वीकार करे
निर्देश पालन और alignment
- Mistral Large 2 में instruction following और conversation क्षमता में काफ़ी सुधार हुआ है
- क्योंकि कई business applications में संक्षिप्तता महत्वपूर्ण होती है, इसलिए इसे यथासंभव संक्षिप्त और सारगर्भित उत्तर देने के लिए काफ़ी मेहनत से तैयार किया गया है
भाषा विविधता
- Mistral Large 2 को बड़े पैमाने पर multilingual data पर train किया गया है, इसलिए यह अंग्रेज़ी, फ़्रेंच, जर्मन, स्पैनिश, इटालियन, पुर्तगाली, डच, रूसी, चीनी, जापानी, कोरियाई, अरबी और हिंदी में उत्कृष्ट प्रदर्शन दिखाता है
टूल उपयोग और function calling
- Mistral Large 2 में बेहतर function calling और retrieval capabilities हैं, और इसे complex business applications के power engine के रूप में काम करने के लिए train किया गया है
cloud service providers के माध्यम से Mistral मॉडल एक्सेस
- Google Cloud Platform के साथ partnership का विस्तार करते हुए Vertex AI पर Mistral AI के models उपलब्ध कराए गए हैं
- Azure AI Studio, Amazon Bedrock, IBM watsonx.ai पर भी Mistral AI के models उपलब्ध हैं
GN⁺ का सार
- Mistral Large 2 कई भाषाओं और coding languages को सपोर्ट करता है और single node पर high throughput प्रदान करता है।
- इसकी code generation और reasoning क्षमता में बड़ा सुधार हुआ है, और factually incorrect जानकारी बनाने की प्रवृत्ति को न्यूनतम किया गया है।
- बड़े पैमाने के multilingual data पर training के कारण यह कई भाषाओं में उत्कृष्ट प्रदर्शन दिखाता है।
- Google Cloud Platform, Azure AI Studio, Amazon Bedrock, IBM watsonx.ai के साथ partnership के ज़रिये इसे वैश्विक उपयोगकर्ताओं तक पहुँचाया जा रहा है।
- इसे business applications में संक्षिप्त और सारगर्भित उत्तर देने के लिए डिज़ाइन किया गया है।
1 टिप्पणियां
Hacker News राय