5 पॉइंट द्वारा GN⁺ 2025-01-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Mistral AI टीम ने Mistral Small 3 नाम का 24B-पैरामीटर मॉडल Apache 2.0 लाइसेंस के तहत जारी किया है.
  • यह मॉडल Llama 3.3 70B या Qwen 32B जैसे बड़े मॉडलों से प्रतिस्पर्धा कर सकता है, और GPT4o-mini जैसे proprietary मॉडलों के विकल्प के रूप में उपयुक्त है.
  • Mistral Small 3 को local deployment के लिए उपयुक्त आकार में डिज़ाइन किया गया है, और कम layers होने से processing time घटता है.
  • यह MMLU में 81% से अधिक accuracy दिखाता है, और 150 tokens/s की latency प्रदान करता है.

प्रदर्शन

मानव मूल्यांकन

  • बाहरी मूल्यांकन भागीदारों के साथ 1,000 से अधिक coding और सामान्य prompt sets का मूल्यांकन किया गया.
  • Mistral Small 3 और अन्य मॉडलों के responses की तुलना करके preference का अध्ययन किया गया.
  • निष्पक्ष मूल्यांकन के लिए सावधानी बरती गई, और benchmark की वैधता पर भरोसा जताया गया.

निर्देश प्रदर्शन

  • instruction-tuned मॉडल ने अपने से तीन गुना बड़े open model और GPT4o-mini मॉडल के मुकाबले प्रतिस्पर्धी प्रदर्शन दिखाया.
  • code, math, सामान्य knowledge, और instruction-following benchmarks में उच्च accuracy दर्ज की गई.

प्रीट्रेनिंग प्रदर्शन

  • Mistral Small 3 एक 24B मॉडल है, जो अपने आकार के मुकाबले सर्वश्रेष्ठ प्रदर्शन देता है और Llama 3.3 70B जैसे अपने से तीन गुना बड़े मॉडलों से प्रतिस्पर्धा करता है.

Mistral Small 3 के उपयोग के मामले

  • तेज़ प्रतिक्रिया वाला संवादात्मक समर्थन: यह उन scenarios में उत्कृष्ट प्रदर्शन करता है जहाँ तेज़ और सटीक responses महत्वपूर्ण हों.
  • कम-लेटेंसी function calling: यह automated workflows में तेज़ function execution संभाल सकता है.
  • विशेषज्ञ डोमेन एक्सपर्ट तैयार करना: इसे किसी खास domain के लिए fine-tune करके उच्च-accuracy विशेषज्ञ मॉडल तैयार किए जा सकते हैं.
  • लोकल inference: यह sensitive information संभालने वाले व्यक्तियों या संगठनों के लिए उपयोगी है.

अपने पसंदीदा tech stack में Mistral Small 3 का उपयोग

  • Mistral Small 3, la Plateforme पर mistral-small-latest या mistral-small-2501 के रूप में उपलब्ध है.
  • Hugging Face, Ollama, Kaggle, Together AI, Fireworks AI के साथ साझेदारी के जरिए यह मॉडल कई platforms पर उपलब्ध कराया जा रहा है.

आगे की योजना

  • Mistral Small 3, DeepSeek जैसे बड़े open source reasoning मॉडलों को complement करता है, और reasoning क्षमताओं को मज़बूत करने वाले एक शक्तिशाली base model के रूप में इस्तेमाल किया जा सकता है.
  • भविष्य में इससे छोटे और बड़े दोनों तरह के मॉडल जारी किए जाएंगे.

Mistral के open source मॉडल

  • कंपनी Apache 2.0 लाइसेंस के तहत general-purpose मॉडल उपलब्ध कराने की योजना रखती है.
  • मॉडल weights डाउनलोड और local deployment के लिए उपलब्ध होंगे, और इन्हें स्वतंत्र रूप से modify और उपयोग किया जा सकेगा.
  • इन्हें serverless API, on-premises और VPC deployment, customization, तथा orchestration platform के माध्यम से उपलब्ध कराया जाएगा.

1 टिप्पणियां

 
GN⁺ 2025-01-31
Hacker News की राय
  • Mistral Small मॉडल का लक्ष्य ऐसा सर्वोत्तम मॉडल होना है जिसे मध्यम प्रदर्शन वाले लैपटॉप पर चलाया जा सके, और इसकी तुलना Llama 3.3 70B तथा Qwen 2.5 32B से की जा रही है

    • M2 64GB MacBook Pro पर Ollama के ज़रिए चलाया जा रहा है, और यह तेज़ तथा उच्च-प्रदर्शन वाला है
    • मॉडल weights के लिए 14GB डाउनलोड आवश्यक है
  • Epoch AI के Tom, LLM evaluation को व्यवस्थित और बड़े पैमाने पर करने के लिए infrastructure बना रहे हैं

    • evaluation के लिए UK government की Inspect library का उपयोग किया जा रहा है
    • Mistral Small 3 का MATH level 5 पर evaluation किया गया और 0.45 accuracy प्राप्त हुई
    • 1,324 प्रश्नों पर 8 बार sampling करके औसत accuracy मापी गई
  • Apache 2.0 license में बदलकर non-commercial license से बाहर आ रहे हैं

  • code generation prompt का उपयोग करने के परिणामस्वरूप, इसका प्रदर्शन qwen2.5-coder-32b के समान दिखता है

    • यह प्रभावशाली है कि छोटे मॉडल अधिक परिष्कृत output दे रहे हैं
    • 8x7B mixtral मॉडल के नए version की उम्मीद है
  • इस रिलीज़ के मुख्य बिंदु इस प्रकार हैं

    • Apache 2.0 license लागू
    • कम latency (11ms/token)
    • प्रदर्शन Qwen 2.5 32B और Llama 3.3 70B के बीच
    • Mistral Small मॉडल 9 tokens/second की गति से चलता है
  • हाल की MoE मॉडल रिलीज़ के कारण 24GB VRAM अब अपर्याप्त महसूस होने लगी है

    • Mistral Small 3, RL या synthetic data का उपयोग नहीं करता
  • Mistral Small मॉडल Mary J Blige के पहले album वाले प्रश्न का सही उत्तर देता है

  • छोटे मॉडल इस्तेमाल करने के कारण को लेकर जिज्ञासा है

  • यह राय है कि मॉडल नाम में parameter count शामिल होना चाहिए