- NVIDIA के साथ मिलकर विकसित 12 अरब पैरामीटर वाला मॉडल Mistral NeMo लॉन्च किया गया
- अधिकतम 128k टोकन की बड़ी context window प्रदान करता है
- reasoning, world knowledge, और coding accuracy अपनी श्रेणी में सर्वश्रेष्ठ स्तर की है
- standard architecture का उपयोग करने से Mistral 7B इस्तेमाल करने वाले सिस्टम में इसे आसानी से लागू किया जा सकता है
- शोधकर्ताओं और कंपनियों द्वारा अपनाने को बढ़ावा देने के लिए Apache 2.0 लाइसेंस के तहत pre-trained base और instruction-tuned checkpoints जारी किए गए
- quantization-aware training के कारण प्रदर्शन हानि के बिना FP8 inference संभव है
बहुभाषी मॉडल
- वैश्विक बहुभाषी applications के लिए डिज़ाइन किया गया
- function calling के लिए प्रशिक्षित है और बड़ी context window रखता है
- अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, इटालियन, पुर्तगाली, चीनी, जापानी, कोरियाई, अरबी और हिंदी में विशेष रूप से मजबूत है
- लक्ष्य है कि सभी भाषा उपयोगकर्ताओं को state-of-the-art AI मॉडल उपलब्ध कराया जाए
Tekken, अधिक कुशल tokenizer
- Tiktoken-आधारित नया tokenizer Tekken उपयोग करता है
- 100 से अधिक भाषाओं में प्राकृतिक भाषा टेक्स्ट और source code को SentencePiece tokenizer की तुलना में अधिक कुशलता से compress करता है
- source code, चीनी, इटालियन, फ़्रेंच, जर्मन, स्पेनिश और रूसी में लगभग 30% अधिक कुशल
- कोरियाई और अरबी में क्रमशः 2 गुना और 3 गुना अधिक कुशल
- Llama 3 tokenizer की तुलना में लगभग 85% भाषाओं में बेहतर compression performance
instruction fine-tuning
- Mistral NeMo उन्नत fine-tuning और alignment चरणों से गुजरता है
- Mistral 7B की तुलना में यह निर्देशों का अधिक सटीक पालन, reasoning, multi-turn conversation संभालने और code generation में कहीं बेहतर है
लिंक
- base और instruction models के weights HuggingFace पर hosted हैं
mistral-inference के साथ Mistral NeMo आज़माया जा सकता है, और mistral-finetune से इसे tune किया जा सकता है
- NVIDIA NIM inference microservice के रूप में पैकेज किया गया है और ai.nvidia.com पर उपलब्ध है
1 टिप्पणियां
Hacker News राय
Mistral NeMo, NVIDIA के साथ मिलकर विकसित किया गया 12B मॉडल है, जो अधिकतम 128k tokens की बड़ी context window देता है
Mistral NeMo नया tokenizer Tekken इस्तेमाल करता है, जिसे 100 से अधिक भाषाओं पर train किया गया है, और यह SentencePiece की तुलना में text और source code को अधिक कुशलता से compress करता है
NVIDIA ब्लॉग पर भी Mistral NeMo के बारे में एक पोस्ट है
बड़े मॉडल तेज़ी से जारी किए जा रहे हैं, जिसका मतलब है कि कंपनियों ने scalable process को scale करने का तरीका खोज लिया है
NVIDIA Enterprise में शामिल होकर "NIM" package version आज़माने का अनुभव असुविधाजनक बताया गया है
यदि Mistral open source की प्रगति को गंभीरता से लेता है, तो उसे मॉडल training में इस्तेमाल किया गया corpus साझा करना चाहिए, ऐसी राय है
कई भाषाओं में training करने से क्या "crossover" मिलता है, इस पर प्रश्न है
open source generative AI मॉडल को मुफ्त में जारी करने वाले business model को लेकर समझ की कमी है