3 पॉइंट द्वारा GN⁺ 2025-06-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Magistral Mistral AI द्वारा पेश किया गया पहला reasoning मॉडल है, जो डोमेन-विशेष, पारदर्शिता और बहुभाषी reasoning पर केंद्रित है
  • इसे दो संस्करणों में जारी किया गया है: ओपन सोर्स Magistral Small(24B parameters) और एंटरप्राइज़ उपयोग के लिए Magistral Medium
  • Chain of Thought आधारित बहुभाषी reasoning, जो चरण-दर-चरण तर्क प्रक्रिया को उपयोगकर्ता की भाषा में पारदर्शी रूप से दिखाता है
  • AIME2024 में Magistral Medium 73.6% (अधिकतम 90%) और Small 70.7% (अधिकतम 83.3%) प्रदर्शन दिखाता है
  • कानून, वित्त, हेल्थकेयर जैसे regulated industries, data engineering, software development, creative content आदि में विभिन्न भाषाओं और उद्योगों के लिए सटीक step-by-step logical reasoning तथा 10 गुना तेज response speed का समर्थन

Magistral — Mistral AI का पहला reasoning मॉडल घोषित

  • Magistral एक reasoning मॉडल है जो वास्तविक समस्या-समाधान क्षमता और feedback-आधारित सुधार पर केंद्रित है
  • Magistral Small 24B parameters वाला ओपन सोर्स संस्करण है, जबकि Magistral Medium अधिक शक्तिशाली एंटरप्राइज़ संस्करण के रूप में जारी किया गया है
  • प्रदर्शन मेट्रिक्स:
    • Magistral Medium: AIME2024 में 73.6%, majority vote मानक पर 90%
    • Magistral Small: क्रमशः 70.7%, 83.3%
  • वैश्विक भाषाओं और लिपियों पर आधारित Chain of Thought तर्क लागू, जिससे मातृभाषा स्तर की सोच-विस्तार क्षमता संभव
  • structured calculation, programming logic, decision tree, rule-based systems जैसे विविध कार्यों के लिए उपयुक्त
  • Le Chat के Think mode और Flash Answers फीचर्स के साथ response speed प्रतिस्पर्धियों की तुलना में 10 गुना बेहतर
  • आधिकारिक शोधपत्र में algorithm, training infrastructure, reinforcement learning techniques, training insights सहित व्यापक मूल्यांकन शामिल

मॉडल और तकनीकी विवरण

  • पारदर्शी reasoning प्रक्रिया:
    • Magistral को multi-step logic के लिए optimize किया गया है, जिससे उपयोगकर्ता अपनी भाषा में reasoning प्रक्रिया को देख और ट्रैक कर सकते हैं
    • सामान्य मॉडलों से अलग इसमें interpretability और verification क्षमताएँ बेहतर की गई हैं
    • लक्ष्य है लगातार model updates और तेज सुधार
  • बहुभाषी reasoning: अंग्रेज़ी, फ़्रेंच, स्पैनिश, जर्मन, इटालियन, अरबी, रूसी, चीनी आदि में उच्च accuracy और logical consistency बनाए रखता है
  • response speed:
    • Magistral Medium, Le Chat के Flash Answers फीचर के माध्यम से, प्रतिस्पर्धियों की तुलना में 10 गुना अधिक token processing speed के साथ real-time reasoning और feedback का समर्थन करता है
    • ChatGPT जैसे प्रमुख प्रतिस्पर्धी मॉडलों की तुलना में speed के मामले में उत्कृष्ट प्रदर्शन दिखाता है

ओपन सोर्स और कम्युनिटी भागीदारी

  • Magistral Small को Apache 2.0 license के तहत जारी किया गया है
  • उपयोगकर्ता इसकी संरचना और reasoning पद्धति का सीधे विश्लेषण, संशोधन और पुनर्गठन कर सकते हैं
  • पिछले ओपन सोर्स मॉडल ether0, DeepHermes 3 जैसे नवाचारी research projects में उपयोग किए गए हैं

व्यापक उपयोग के मामले

  • Magistral को कानून, वित्त, software development, storytelling जैसे क्षेत्रों के लिए optimize किया गया है, जहाँ सटीक step-by-step reasoning और पारदर्शिता महत्वपूर्ण हैं
  • बिज़नेस रणनीति और संचालन

    • strategy planning, risk assessment, data-driven decision making, और जटिल constraints के तहत optimal solution calculation जैसे कार्य कर सकता है
  • regulated industries और public sector

    • कानून, वित्त, हेल्थकेयर और सरकारी विशेषज्ञ तार्किक reasoning paths को ट्रैक कर सकते हैं और auditability सुनिश्चित कर सकते हैं
    • परिणामों की auditability और compliance आवश्यकताओं को पूरा करने में मदद
  • systems, software, और data engineering

    • non-reasoning LLMs की तुलना में programming, project design, backend architecture, data engineering सहायता की गुणवत्ता बेहतर
    • external tools, API integration जैसी multi-step tasks में प्रभावी
  • content generation और communication

    • Magistral creative writing, storytelling में भी उत्कृष्ट परिणाम देता है
    • यह केवल consistent text ही नहीं, बल्कि अनोखे और कल्पनाशील ideas भी उत्पन्न कर सकता है

उपयोग का तरीका और deployment चैनल

  • Small संस्करण को download करके self-host किया जा सकता है
  • Medium संस्करण Le Chat(web), API, Amazon SageMaker पर तुरंत उपलब्ध है
  • जल्द ही IBM WatsonX, Azure AI, Google Cloud Marketplace पर अतिरिक्त समर्थन आने वाला है
  • enterprise customization और on-premise deployment के लिए अलग से संपर्क करना होगा

1 टिप्पणियां

 
GN⁺ 2025-06-11
Hacker News राय
  • मैंने Magistral Small मॉडल का GGUF वर्ज़न खुद बनाकर HuggingFace पर अपलोड किया था, उसका अनुभव साझा किया। इसे ollama में ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL कमांड से चलाया जा सकता है, और llama.cpp में --jinja, --temp 0.7, --top-p 0.95 जैसे विकल्प ज़रूर इस्तेमाल करने की सलाह दी। Ollama की context length को भी 8192 या उससे ऊपर बढ़ाने की सिफारिश है, और अतिरिक्त गाइड आधिकारिक दस्तावेज़ में देखी जा सकती है
    • DeepSeek से जुड़ी benchmark तुलना दिलचस्प लगी। मौजूदा Magistral पेपर में DeepSeek-V3 (दिसंबर 2023) और DeepSeek-R1 (जनवरी 2024) वर्ज़न से तुलना की गई है, लेकिन वास्तव में नवीनतम DeepSeek-R1-0528 उससे ज़्यादा निष्पक्ष तुलना होगी। उदाहरण के लिए, R1 का AIME 2024 में स्कोर 79.8 है जबकि R1-0528 का 91.4, और AIME 2025 में क्रमशः 70 और 87.5 जैसे बड़े अंतर का उल्लेख किया गया। नवीनतम DeepSeek benchmark यहाँ देखे जा सकते हैं
    • Magistral पेपर(PDF) वाकई प्रभावशाली लगा। पेपर में GRPO पर चर्चा करते हुए 1) KL Divergence हटाना 2) पूरी लंबाई से normalization 3) advantage minibatch normalization 4) trust region को ढीला करना जैसे कई सुधार बताए गए हैं
    • उम्र सत्यापन के जोखिम के बावजूद, Unsloth मॉडल को सचमुच "कमाल" बताया गया। मॉडल हमेशा अच्छा काम करता है, इस पर संतोष जताया गया, और llama.cpp में अगर "jinja" न हो तो डिफ़ॉल्ट रूप से क्या इस्तेमाल होता है, यह सवाल उठाया गया
    • ज़्यादा सोचने की ज़रूरत नहीं है, ऐसे लहज़े के साथ संदर्भ सामग्री के रूप में gist लिंक दिया गया
  • सिर्फ benchmark नतीजों को देखें तो Magistral Small और Medium मॉडल, DeepSeek-R1 के नवीनतम वर्ज़न की तुलना में सभी one-shot टेस्ट में पीछे दिखते हैं। लेख में भी नवीनतम DeepSeek-R1 का ज़िक्र तक नहीं है, और लागत भी 2 गुना से अधिक है, जिससे यह महसूस होता है कि यूरोप की शीर्ष AI कंपनी मानी जाने वाली संस्था भी मौजूदा तकनीकी ट्रेंड पकड़ने में संघर्ष कर रही है
    • शुरुआती DeepSeek R1 ने बहुत कम compute में भी ज़बरदस्त performance दी थी, इसलिए यह हैरानी की बात है कि नया R1 सभी benchmark में o3, 2.5 Pro आदि को दबा नहीं पा रहा। Magistral Small (24B) ने AIME 2024 में 70.7% स्कोर किया, जबकि R1 distill (32B) ने 72.6%। Majority voting@64 के साथ Magistral Small 83.3% तक पहुँचता है और पूरे full R1 से भी बेहतर प्रदर्शन करता है। 24B मॉडल सामान्य gaming GPU पर भी चल सकता है, इसलिए उसकी accessibility कहीं बेहतर बताई गई। संबंधित Distill मॉडल लिंक भी जोड़ा गया
    • AI मॉडल प्रतिस्पर्धा की मौजूदा स्थिति में, नवीनतम मॉडल से 6~12 महीने पीछे आने पर भी खगोलीय लागत न झेलना, engineering के नज़रिए से बड़ा मायने रखता है। बेशक market share के हिसाब से "सबसे बेहतरीन" ही चाहने वाले ग्राहकों की सोच समझ में आती है, लेकिन हमेशा सिर्फ पैसा गंवाने वाले बिज़नेस के लिए market share कितना महत्वपूर्ण है, इस पर सवाल उठाया गया
    • Mistral की investor संरचना देखें तो वह व्यवहार में यूरोपीय कंपनी नहीं है, बल्कि अमेरिकी पूंजी उसके मुख्य मालिकों में है। अधिक जानकारी investor जानकारी लिंक में देखी जा सकती है
    • प्रतिस्पर्धात्मक क्षमता थोड़ी कम भी हो, तब भी हर क्षेत्र के पास training को नियंत्रित कर सकने वाला अपना मॉडल होना रणनीतिक रूप से ज़रूरी है, ऐसा मत है। लेकिन अगर तकनीकी अंतर बहुत बढ़ जाए, तो उपयोगकर्ता के नज़रिए से उसे बेकार मान लिया जाने का जोखिम भी है
    • इस बात पर ध्यान दिलाया गया कि Mistral ने पूरी तरह "independent" training pipeline बनाई है। Deepseek जैसे प्रतिस्पर्धियों के बारे में अनुमान है कि उन्होंने शायद GPT-4, o1 आदि के डेटा पर training की हो
  • Ollama, API, और llm-mistral plugin के जरिए Magistral मॉडल को सीधे लागू करने के नोट्स रिकॉर्ड लिंक में संकलित किए गए
    • Simon से पूछा गया कि "साइकिल चलाते दो पेलिकन" के असली फर्क क्या थे। अनुमान लगाया गया कि छोटा वर्ज़न लोकल में चला, जबकि बेहतर प्रदर्शन वाला बड़ा वर्ज़न API के जरिए चलाया गया
  • Mistral OCR मॉडल के ज़ोरदार प्रचार के समय 600-पेज PDF पर OCR करना पड़ा था, ऐसा एक वास्तविक अनुभव साझा किया गया। पूरा दस्तावेज़ monospace text में था, लेकिन OCR नतीजों में 80% हिस्से को image समझ लिया गया और लगभग सिर्फ खाली जगह निकली, यानी tesseract से भी बहुत खराब स्तर। एक महीने बाद, बेहद खराब नतीजों के बावजूद बिल भरना पड़ा और अकाउंट हटाना पड़ा। यह नया उत्पाद पिछली चीज़ों से बेहतर हो सकता है, लेकिन Mistral की ज़रूरत से ज़्यादा marketing से अब उम्मीद कम रह गई है
  • Benchmark sample selection बहुत बिखरी हुई और सीमित लगने पर उलझन जताई गई। Magistral Medium की तुलना सिर्फ Deepseek V3, R1, और Mistral Medium 3 से की गई; Magistral Small, Alibaba Qwen, या o3/o4 mini वर्ज़न क्यों छोड़े गए, यह समझ नहीं आया
  • तार्किक reasoning और Wikipedia-स्तर के सामान्य ज्ञान की जाँच के लिए Mistral AI से पूछा गया: "साओ पाउलो से पेरिस जा रहे ब्राज़ीली नागरिक को अगर लिस्बन होकर जाना हो, तो immigration कहाँ होगा?" Mistral AI ने जवाब दिया, "सिर्फ पेरिस में"। जब Wikipedia लेख देखने को कहा गया, तो जवाब बदलकर "लिस्बन में" कर दिया। Meta AI (Llama 4) ने तो कहा कि दोनों में कहीं ज़रूरत नहीं है, जिससे उसकी accuracy पर सवाल उठा। दूसरे LLM क्या जवाब देंगे, यह जानने की उत्सुकता जताई गई
    • एक राय यह थी कि सवाल खुद ही लगभग trick question है। वास्तव में Schengen में प्रवेश बिंदु लिस्बन के अलावा, ब्राज़ील/Mercosur प्रस्थान बिंदु साओ पाउलो पर भी जाँच की ज़रूरत हो सकती है
    • Gemini (2.5 Flash) का जवाब प्रभावशाली बताया गया। मुख्य बिंदु: ब्राज़ीली नागरिकों को 90 दिनों तक Schengen visa छूट है। लिस्बन में entry check होगा, और उसके बाद पेरिस की उड़ान Schengen के भीतर domestic flight मानी जाएगी, इसलिए पेरिस में अतिरिक्त जाँच नहीं होगी। 2026 में ETIAS electronic travel authorization लागू होने वाला है, लेकिन वह pre-authorization है और जाँच कहाँ होगी, इस पर असर नहीं डालता
    • यह भी कहा गया कि सवाल पूछने वाला खुद भी उत्तर को लेकर उलझन में है, और इस तरह के टेस्ट में यह देखना मज़ेदार होता है कि LLM कितनी विश्वसनीयता से जवाब देता है
    • ब्राज़ील-Portugal के बीच किसी विशेष visa waiver agreement की संभावना भी उठाई गई, जिससे Llama 4 का जवाब शायद सही भी हो सकता है, ऐसा एक अस्थायी खुला निष्कर्ष छोड़ा गया
  • इच्छा जताई गई कि benchmark chart में Qwen3 को भी शामिल किया जाता। Qwen3-4B भी लगभग Magistral-22B के बराबर प्रदर्शन करता है, और Qwen3-30B-A3B उससे कहीं बेहतर नतीजे देता है
    • 30-A3B मॉडल को सचमुच शानदार बताया गया। लोकल में बिना API लागत के चलाने पर, 1~2 साल पुराने closed model से भी बेहतर performance देता है। खासकर programming के काम में इसे gpt-4o से भी ऊपर आँका गया
    • पूछा गया कि क्या अलग-अलग मॉडल के benchmark को automate करने वाली कोई साइट है। खुद परीक्षण करने वाले के अनुसार, Qwen3-30B-A3B समान parameter/memory शर्तों में अब भी सबसे अच्छा performer है
    • Qwen3 को अब तक परखे गए reasoning मॉडलों में सबसे प्रभावशाली बताया गया
    • Mistral पर यह राय भी आई कि उसके साथ हमेशा यही हुआ कि दूसरे मॉडल बेहतर रहे, इसलिए उसकी उपयोगिता कम रही। बस यूरोपीय होने के कारण उसे अलग महत्व दिया गया। प्रदर्शन चाहे जैसा हो, Mistral नाम का ज़िक्र चलता रहेगा, ऐसा अनुमान है
  • व्युत्पत्ति से जुड़ी एक दिलचस्प बात साझा की गई। "mistral" और "magistral" दोनों की जड़ "masterly" यानी निपुण/उस्तादी वाले अर्थ से जुड़ती है। mistral मूल रूप से Occitan से आया और अब अंग्रेज़ी में मुख्यतः भूमध्यसागरीय हवा के लिए इस्तेमाल होता है। magistral, "magister" का विशेषण रूप है। ऐसे और शब्द ढूँढकर domain सुरक्षित कर लिए जाएँ, तो कमाई का मौका भी बन सकता है
  • यह जिज्ञासा जताई गई कि open-weight reasoning मॉडल और कितने हैं। यह भी कल्पना की गई कि क्या कई मॉडल को एक ही समस्या पर साथ-साथ चलाया जा सकता है। Small मॉडल को रिलीज़ कर Medium को paid service में रखना भी दिलचस्प लगा। यह भी पूछा गया कि क्या Medium को किसी chain की तरह कई Small कॉल जोड़कर इस्तेमाल किया जा सकता है
    • Qwen 3, DeepSeek R1, और Phi-4 Reasoning को फिलहाल सबसे बेहतरीन open-weight reasoning मॉडल माना गया
    • एक मत यह भी था कि व्यवहार में DeepSeek परिवार ही वास्तव में मौजूद है, और distill मॉडल के सहारे इसे सामान्य consumer hardware पर भी चलाया जा सकता है
  • यह सवाल उठा कि marketing copy में en-dash का अत्यधिक इस्तेमाल क्या मॉडल-जनित आउटपुट की शैली को भी दिखाता है। अगर ऐसा है, तो इसमें सुधार होना चाहिए
    • एक वास्तविक पंक्ति का हवाला दिया गया, जिसमें कहा गया कि Magistral रचनात्मक काम के लिए शानदार साथी है, और ज़रूरत पड़ने पर “अजीब तरह से अनोखा” टेक्स्ट भी बना सकता है
    • 49 en-dash और 59 comma होने से इस अनुपात को असामान्य रूप से ऊँचा बताया गया
    • विश्लेषण यह था कि यह Mistral की marketing शैली भर है; वास्तविक मॉडल आउटपुट में इतने अनुपात में en-dash का प्रयोग नहीं देखा जाता
    • यह अनुभव भी साझा किया गया कि LibreOffice में - टाइप करके spacebar दबाने पर वह अक्सर en-dash में बदल जाता है, इसलिए गलत समझे जाने से बचने के लिए लोग उसे जानबूझकर सुधारते हैं
    • मज़ाक में कहा गया कि क़ानूनी पेशे में तो en-dash से विशेष प्रेम जैसा माहौल है