6 पॉइंट द्वारा GN⁺ 2024-07-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • NVIDIA के साथ मिलकर विकसित 12 अरब पैरामीटर वाला मॉडल Mistral NeMo लॉन्च किया गया
  • अधिकतम 128k टोकन की बड़ी context window प्रदान करता है
  • reasoning, world knowledge, और coding accuracy अपनी श्रेणी में सर्वश्रेष्ठ स्तर की है
  • standard architecture का उपयोग करने से Mistral 7B इस्तेमाल करने वाले सिस्टम में इसे आसानी से लागू किया जा सकता है
  • शोधकर्ताओं और कंपनियों द्वारा अपनाने को बढ़ावा देने के लिए Apache 2.0 लाइसेंस के तहत pre-trained base और instruction-tuned checkpoints जारी किए गए
  • quantization-aware training के कारण प्रदर्शन हानि के बिना FP8 inference संभव है

बहुभाषी मॉडल

  • वैश्विक बहुभाषी applications के लिए डिज़ाइन किया गया
  • function calling के लिए प्रशिक्षित है और बड़ी context window रखता है
  • अंग्रेज़ी, फ़्रेंच, जर्मन, स्पेनिश, इटालियन, पुर्तगाली, चीनी, जापानी, कोरियाई, अरबी और हिंदी में विशेष रूप से मजबूत है
  • लक्ष्य है कि सभी भाषा उपयोगकर्ताओं को state-of-the-art AI मॉडल उपलब्ध कराया जाए

Tekken, अधिक कुशल tokenizer

  • Tiktoken-आधारित नया tokenizer Tekken उपयोग करता है
  • 100 से अधिक भाषाओं में प्राकृतिक भाषा टेक्स्ट और source code को SentencePiece tokenizer की तुलना में अधिक कुशलता से compress करता है
  • source code, चीनी, इटालियन, फ़्रेंच, जर्मन, स्पेनिश और रूसी में लगभग 30% अधिक कुशल
  • कोरियाई और अरबी में क्रमशः 2 गुना और 3 गुना अधिक कुशल
  • Llama 3 tokenizer की तुलना में लगभग 85% भाषाओं में बेहतर compression performance

instruction fine-tuning

  • Mistral NeMo उन्नत fine-tuning और alignment चरणों से गुजरता है
  • Mistral 7B की तुलना में यह निर्देशों का अधिक सटीक पालन, reasoning, multi-turn conversation संभालने और code generation में कहीं बेहतर है

लिंक

  • base और instruction models के weights HuggingFace पर hosted हैं
  • mistral-inference के साथ Mistral NeMo आज़माया जा सकता है, और mistral-finetune से इसे tune किया जा सकता है
  • NVIDIA NIM inference microservice के रूप में पैकेज किया गया है और ai.nvidia.com पर उपलब्ध है

1 टिप्पणियां

 
GN⁺ 2024-07-19
Hacker News राय
  • Mistral NeMo, NVIDIA के साथ मिलकर विकसित किया गया 12B मॉडल है, जो अधिकतम 128k tokens की बड़ी context window देता है

    • यह standard architecture का उपयोग करता है, इसलिए इस्तेमाल करना आसान है और Mistral 7B इस्तेमाल करने वाले सिस्टम में इसे आसानी से बदला जा सकता है
    • Apache 2.0 license के तहत pre-trained checkpoints उपलब्ध कराता है, जिससे researchers और enterprises द्वारा अपनाने को बढ़ावा मिलता है
    • quantization awareness के ज़रिए performance loss के बिना FP8 inference संभव बनाता है
  • Mistral NeMo नया tokenizer Tekken इस्तेमाल करता है, जिसे 100 से अधिक भाषाओं पर train किया गया है, और यह SentencePiece की तुलना में text और source code को अधिक कुशलता से compress करता है

    • Byte-pair encoding के अधिक कुशल encoding तरीका साबित होने के बावजूद फिर से SentencePiece पर लौटने को लेकर सवाल उठाया गया है
  • NVIDIA ब्लॉग पर भी Mistral NeMo के बारे में एक पोस्ट है

    • इसे NVIDIA NIM inference microservice के रूप में package किया गया है, जो NVIDIA TensorRT-LLM engine के माध्यम से performance-optimized inference प्रदान करता है
    • इसे NVIDIA L40S, NVIDIA GeForce RTX 4090, NVIDIA RTX 4500 GPU की memory में फिट होने के लिए डिज़ाइन किया गया है
    • Megatron-LM का उपयोग करके 3,072 H100 80GB Tensor Core GPU पर train किया गया है
  • बड़े मॉडल तेज़ी से जारी किए जा रहे हैं, जिसका मतलब है कि कंपनियों ने scalable process को scale करने का तरीका खोज लिया है

    • HuggingFace पर मॉडल publish करना क्या business है, इस पर सवाल उठाया गया है
    • मॉडल फ़ाइल download लगभग 25GB की है, और यह 8fp quantized मॉडल है
  • NVIDIA Enterprise में शामिल होकर "NIM" package version आज़माने का अनुभव असुविधाजनक बताया गया है

    • यह राय भी है कि मॉडल फ़ाइलों को स्वतंत्र रूप से download कर पाना बेहतर होगा
    • NVIDIA के hardware monopoly होने के बावजूद जटिल प्रक्रिया मांगने पर असंतोष व्यक्त किया गया है
  • यदि Mistral open source की प्रगति को गंभीरता से लेता है, तो उसे मॉडल training में इस्तेमाल किया गया corpus साझा करना चाहिए, ऐसी राय है

    • रिलीज़ के दिन GGUF version तैयार न होने के कारण पर भी सवाल उठाया गया है
  • कई भाषाओं में training करने से क्या "crossover" मिलता है, इस पर प्रश्न है

    • यह जिज्ञासा है कि क्या German में train की गई चीज़ें English prompts का जवाब देते समय उपयोग हो सकती हैं
  • open source generative AI मॉडल को मुफ्त में जारी करने वाले business model को लेकर समझ की कमी है

    • 3072 H100s का उपयोग करके train किए गए मॉडल को मुफ्त में उपलब्ध कराने की वजह पर सवाल उठाया गया है