2 पॉइंट द्वारा GN⁺ 2026-04-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 128B Dense मॉडल के रूप में, यह निर्देश पालन, reasoning और coding को एक ही weight set में एकीकृत करता है और 256k context window को support करता है
  • प्रति अनुरोध reasoning effort को नियंत्रित किया जा सकता है, जिससे साधारण chat से लेकर जटिल agentic tasks तक एक ही मॉडल से संभाले जा सकते हैं
  • SWE-Bench Verified 77.6%, τ³-Telecom में 91.4 अंक के साथ Devstral 2 और Qwen3.5 397B A17B से बेहतर प्रदर्शन
  • vision encoder को नए सिरे से train किया गया है, जिससे variable image sizes और aspect ratios को संभालना संभव है
  • Vibe remote agent के साथ coding sessions को cloud में asynchronously चलाया जा सकता है, कई sessions को parallel में चलाया जा सकता है और पूरा होने पर notification मिलती है
  • CLI या Le Chat से शुरू किया जा सकता है, और local session को cloud में teleport करने पर history, state और approvals वैसे के वैसे स्थानांतरित हो जाते हैं
  • हर session isolated sandbox में चलता है और पूरा होने पर GitHub PR अपने आप बन जाता है
  • GitHub, Linear, Jira, Sentry, Slack, Teams आदि मौजूदा development tools के साथ integration
  • module refactoring, test generation, dependency upgrades, CI investigation, bug fixes जैसे दोहराए जाने वाले और स्पष्ट रूप से परिभाषित कार्यों के लिए उपयुक्त
  • Le Chat का Work mode (preview) email, calendar, message जैसे कई tools का एक साथ उपयोग करके multi-step tasks को पूरा होने तक अपने आप संचालित करता है
    • connectors डिफ़ॉल्ट रूप से enabled हैं, सभी tool calls और reasoning basis दिखते हैं, और sensitive tasks के लिए स्पष्ट approval मांगा जाता है
  • API pricing: input के लिए प्रति मिलियन tokens $1.5, output के लिए प्रति मिलियन tokens $7.5
  • open weights को संशोधित MIT license के तहत जारी किया गया है, और कम से कम 4 GPU के साथ self-hosting संभव है

1 टिप्पणियां

 
GN⁺ 2026-04-30
Hacker News की राय
  • समझ नहीं आ रहा कि कमेंट्स में लोग क्या देख रहे हैं। यह मॉडल दूसरे मॉडलों को हराता नहीं है, लेकिन आकार के हिसाब से इसकी प्रतिस्पर्धात्मकता साफ़ है
    GLM 5.1 शानदार है, लेकिन Q4 में भी लगभग 400GB चाहिए, और Kimi K2.5 भी अच्छा है, मगर Q4 quantization के हिसाब से लगभग 600GB चाहिए
    यह मॉडल Q4 में 70GB VRAM पर चल सकता है, इसलिए यह consumer स्तर के काफ़ी करीब आ जाता है। 128GB RAM वाला Mac Studio लगभग 3500 डॉलर में खरीदा जा सकता है
    जो लोग Claude के दीवाने हैं, पता नहीं वे सिर्फ Opus ही इस्तेमाल करते हैं या नहीं, लेकिन Pro प्लान में Sonnet भी पहले से बहुत सक्षम था। यह मॉडल लोकल पर चलते हुए नवीनतम Sonnet को हरा देता है, और repo में HERMES.md होने पर न अतिरिक्त शुल्क लगाता है न मनमाने ढंग से अकाउंट लॉक करता है
    Mistral frontier पर कभी खास प्रतिस्पर्धी नहीं रहा, लेकिन शायद वही उससे उम्मीद करने की सही भूमिका भी नहीं है। अगर यह लागत/आकार के 20% पर frontier का 80% दे दे, तो एक Pareto मॉडल के रूप में यह काफ़ी अच्छा लगता है

    • जो लोग local LLM में रुचि रखते हैं, उन्हें पता होना चाहिए कि किसी मॉडल को “चला पाना” और “तेज़ी से चला पाना” पूरी तरह अलग बातें हैं
      128GB Mac पर ऐसे मॉडल को चलाया जा सकता है, लेकिन पहले यह देखना होगा कि Q4 क्वालिटी को पर्याप्त रूप से बचाए रखता है या नहीं। हर मॉडल की quantization sensitivity अलग होती है, और वास्तविक गति भी मायने रखती है
      async काम या background jobs में prompt processing और token generation speed कम महत्वपूर्ण हो सकती है, लेकिन बहुत से Mac Studio खरीदारों ने मुश्किल तरीके से सीखा है कि इसकी responsiveness cloud के असली hardware पर hosted मॉडलों जैसी नहीं होती
      जिन अधिकांश लोगों को on-premise processing की ज़ोरदार ज़रूरत नहीं है, उनके लिए इस मॉडल का सबसे अच्छा उपयोग शायद OpenRouter के hosted providers में से किसी एक के रूप में करना और token के हिसाब से भुगतान करना होगा
      इस साल आए लगभग हर open-weight मॉडल के बारे में कहा गया कि वह Sonnet के बराबर है या उससे बेहतर, लेकिन benchmark में साफ़ आगे होने के बावजूद व्यवहार में मुझे अब तक ऐसा कभी महसूस नहीं हुआ
    • HERMES.md के बारे में नहीं जानता था, जिज्ञासु लोग यहाँ जानकारी देख सकते हैं https://github.com/anthropics/claude-code/issues/53262
    • फ़रवरी से पहले मैं Max प्लान में Opus High बिना किसी समस्या के लगातार इस्तेमाल कर सकता था, लेकिन अब सिर्फ Sonnet High इस्तेमाल कर रहा हूँ और वह काफ़ी सक्षम है
      Claude Pilled वाली अभिव्यक्ति अच्छी लगी
    • “लोकल पर चलते हुए नवीनतम Sonnet को हरा देता है” यह सच नहीं है
      benchmark F8_E4M3 के आधार पर हैं, और उसे किसी भी Mac पर चलाया नहीं जा सकता
      Sonnet के पास 1M token context है, जबकि इस मॉडल में 256k है, और लोकल पर शायद वह भी ठीक से इस्तेमाल न हो पाए
      Sonnet नेटवर्क के पार भी तेज़ है, लेकिन यह मॉडल काफ़ी धीमा होगा
    • Qwen 35B A3B MoE को भी नहीं भूलना चाहिए। यह मॉडल इससे हर metric में बेहतर प्रदर्शन देता है, जबकि memory/compute लागत कहीं कम है
      अफ़सोस है कि चीन के बाहर के open source मॉडल कम-से-कम एक पीढ़ी पीछे दिखते हैं
  • मैं हमेशा Mistral का समर्थन करता हूँ। मॉडल और देशों की विविधता महत्वपूर्ण है
    यह मॉडल ऊपर निर्माण करने के लिए एक मज़बूत आधार जैसा लगता है, और उम्मीद है कि 3.6/3.7 में और सुधार आएँगे। computer use benchmark को देखें तो vision pipeline में सुधार की गुंजाइश लगती है, हालांकि यह सिर्फ अनुमान है
    कुछ benchmark नतीजे अलग तरह से आते हैं, इसलिए ऐसा लगता है कि यह frontier logs चुराकर बनाया गया मॉडल नहीं, बल्कि सचमुच स्वतंत्र रूप से प्रशिक्षित मॉडल है। यह भी बहुत महत्वपूर्ण है
    किसी खास मॉडल के भीतर अलग weight architecture का मौजूद होना, global system architecture के नज़रिए से, अपने आप में एक फ़ायदा लगता है

  • Mistral का लगातार भरोसेमंद मॉडल निकालना बाज़ार के लिए अच्छा है
    खरीदारों के पास pricing और deployment में negotiation power तभी आएगी जब बाज़ार सिर्फ दो कंपनियों में से एक चुनने की संरचना से आगे बढ़ेगा

  • जिन दूसरे hosted LLMs को मैंने टेस्ट किया है, उनके मुकाबले लगता है कि सिर्फ Mistral ही काफ़ी सख़्त CSP headers इस्तेमाल करता है
    अगर आप JavaScript libraries वाले वेबसाइट बनाने को कहें, तो Le Chat में canvas mode होने के बावजूद preview नहीं मिलता
    नई release आने पर मैं बस कभी-कभी वेब पर थोड़ा टेस्ट करना चाहता हूँ, लेकिन पैसे दिए बिना या agent harness इस्तेमाल किए बिना यह मुश्किल है
    SVG बनाना तो यह सचमुच नहीं कर पाता https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

    • SVG सबसे बेहतरीन benchmark न भी हो, फिर भी यह पुराने Mistral मॉडल को Mistral Vibe में इस्तेमाल करने के मेरे अनुभव से मेल खाता है
      Vibe में जब मैंने MCP server setup में मदद माँगी, तो उसने पूरे आत्मविश्वास से समझाया कि MCP का मतलब MineCraft Protocol है, और फिर कंप्यूटर में Minecraft binary ढूँढने लगा
    • मैंने कभी LLM से SVG बनवाने की इच्छा नहीं की, न ज़रूरत पड़ी, न उम्मीद रखी
      सभी मॉडल इसमें कमज़ोर हैं, बस कुछ इससे ज़्यादा मज़ेदार ढंग से असफल होते हैं
  • मैं mistral-medium-2508 को text transformation tasks के लिए इस्तेमाल कर रहा हूँ, और मेरे उपयोग में यह mistral-large से बेहतर नतीजे देता है
    नया मॉडल भी टेस्ट करना चाहता हूँ, लेकिन यह काफ़ी महँगा है और इसे coding/agentic मॉडल के रूप में पेश किया जा रहा है, इसलिए समझ नहीं आ रहा कि क्या यह पुराने medium मॉडल को replace करने वाला है
    mistral-medium-2508 की कीमत 1M tokens पर $0.4/$2 थी, जबकि mistral-medium-3.5 की $1.5/$7.5 है

    • production में बड़े text chunks को प्रोसेस करने के लिए मैं Mistral Large इस्तेमाल कर रहा हूँ
      यह Sonnet के लगभग बराबर नतीजे देता है, लेकिन 90% सस्ता है। coding के लिए मैं इसे कभी इस्तेमाल नहीं करूँगा, मगर इस text analysis काम में यह बहुत अच्छा रहा। नवीनतम चीनी मॉडलों से भी काफ़ी बेहतर था
      इसलिए मैं इस release का इंतज़ार कर रहा था, लेकिन यह नवीनतम Mistral Large से 5 गुना महँगा है। डर है कि कहीं वे सस्ते Large को release transition के साथ बंद न कर दें
  • इस मॉडल की समस्या यह है कि DeepSeek v4 Flash 2-bit quantization में काफ़ी अच्छी तरह चल जाता है https://github.com/antirez/llama.cpp-deepseek-v4-flash
    M3 Ultra पर generation 30 t/s और prefill 400 t/s मिलते हैं, और 128GB MacBook Pro M3 Max पर भी यह बहुत धीमा नहीं है
    opencode/pi के साथ इस्तेमाल करने पर यह एक अच्छा coding agent बनता है, और tool calling भी बहुत स्थिर है। यह speed कोई 120B dense मॉडल कभी हासिल नहीं कर सकता
    इसलिए इसे सिर्फ समान आकार के 4-bit quantized मॉडलों से ही नहीं, बल्कि 86GB GGUF फ़ाइल वाले DeepSeek v4 Flash से भी मुकाबला करना है, और local inference के व्यावहारिक नज़रिए से जीतना आसान नहीं है
    अभी कुछ speed improvements commit नहीं किए गए हैं, जिन्हें जल्द push करने वाला हूँ। मौजूदा tree थोड़ा धीमा हो सकता है, लेकिन फिर भी बहुत उपयोगी है
    मैं यूरोप में हूँ और Mistral का फ़ैन भी हूँ, लेकिन एक बात समझ नहीं आती। Mistral ने Mixtral के साथ open-weight MoE धारा शुरू की थी, फिर अब यह इतना बड़ा dense मॉडल क्यों ला रहा है, समझ नहीं आता
    इस तरीके से यह न local inference में और न remote inference में भरोसेमंद प्रतिस्पर्धा कर पाएगा, क्योंकि मॉडल SOTA से दूर है और serving cost भी सस्ती नहीं है
    dense मॉडल की जगह Qwen 3.6 27B जैसे कुछ-दर्जन-B parameter वर्ग में हो सकती है, लेकिन जब आप उससे 5 गुना ऊपर जाते हैं, तो बात तभी बनती है जब वह उसी VRAM माँगने वाले बाकी मॉडलों को क्षमता में बुरी तरह पछाड़ दे

    • GitHub लिंक में सिर्फ इतना लिखा है कि “इस तरीके से quantize किया गया मॉडल chat में बहुत अच्छा काम करता है और frontier-model vibes देता है, लेकिन इसका व्यापक परीक्षण नहीं हुआ है”
      इसका agentic workflow में व्यवहार कैसा होगा, इससे इसका लगभग कोई संबंध नहीं है। हम पहले से जानते हैं कि Q2 quantization में क्वालिटी अक्सर बहुत गिर जाती है
      अगर यह quantized Flash बड़े context lengths पर भी उचित क्वालिटी और performance बनाए रखता है, और V4 series की मुख्य विशेषताओं जैसे हिस्सों को भी बचाए रखता है, तो यह Qwen 3 Coder-Next 80B जैसे समान weight class मॉडलों का काफ़ी उचित प्रतिद्वंद्वी बन सकता है
  • इस बार की Mistral release frontier labs और बाकी खिलाड़ियों के बीच अंतर को फिर से महसूस कराती है
    agent से पहले मॉडलों के बीच फ़र्क हमेशा इतना साफ़ नहीं था, और हर मॉडल की अपनी कुछ आकर्षण थी
    अब frontier मॉडल से कमतर कुछ इस्तेमाल करने का मन नहीं करता। क्षमता का अंतर बहुत बड़ा है, और कमतर मॉडल चुनने पर productivity में वास्तविक लागत चुकानी पड़ती है
    मुझे Mistral, और खासकर Cohere जैसी छोटी labs पसंद रही हैं, लेकिन इन दोनों कंपनियों की release को लेकर उत्साहित हुए काफ़ी समय हो गया
    फिर भी mistral voxtral realtime मैं रोज़ इस्तेमाल करता हूँ और वह शानदार है

    • मैं इससे बिल्कुल सहमत नहीं हूँ। सिर्फ़ एक साल पहले frontier और non-frontier मॉडलों के बीच productivity gap इससे कहीं बड़ा था
      दो साल पहले की तो बात ही छोड़िए
    • non-agentic tasks में Gemini, ChatGPT और Claude के बीच कुल मिलाकर कोई स्पष्ट विजेता नहीं है। साधारण chatbot interface के हिसाब से यह apples to oranges जैसा है
      लेकिन Claude Code, Codex से काफ़ी बेहतर है, और Codex, Gemini-cli से स्पष्ट रूप से बेहतर है
      इस संदर्भ में यह हैरानी की बात नहीं कि Claude Code agentic coding में non-frontier मॉडलों से बहुत बेहतर है। specialized agentic tasks में यह दूसरे frontier मॉडलों से भी काफ़ी बेहतर है
    • यह कहना कि frontier मॉडल से कमतर कुछ इस्तेमाल नहीं करना चाहिए, काफ़ी भोला और ग़लत आकलन है
      जटिल coding tasks सहित ज़्यादातर कामों में frontier मॉडल और GPT-4.1 जैसे मॉडलों के बीच फ़र्क को पहचानना लगभग असंभव है
      फ़र्क तभी दिखता है जब आप context window, tool calling, reasoning steps के कुछ खास पहलुओं पर बहुत ध्यान दें
      ऊपर से frontier मॉडल नतीजे देने के लिए brute force तरीका अपनाते हैं, जिससे चलाने की लागत बहुत बढ़ जाती है। सिर्फ़ बिल में दिखने वाली लागत ही नहीं, बल्कि कोई भी output आने तक इंतज़ार का समय भी बढ़ता है
      local मॉडलों की बात तो मैं छेड़ूँगा भी नहीं
  • लगता है Mistral यहाँ लंबी दौड़ की रणनीति पर है। छोटे मॉडल, कम लागत, और कुल मिलाकर पर्याप्त रूप से अच्छा प्रदर्शन

  • ठीक है, लेकिन खास नहीं। फिर भी अमेरिका या चीन के बाहर के मॉडल की खबर अभी भी अच्छी खबर है

    • शायद यही यूरोप की baseline है
  • अब 128B को Medium माना जा रहा है, यह काफ़ी मज़ेदार है
    एक समय था जब GPT-2 में 355M parameters को medium माना जाता था

    • GPT-2 1.5B को public release के लिए बहुत ख़तरनाक माना गया था
      शायद वह आकलन सही भी रहा हो