9 पॉइंट द्वारा GN⁺ 2025-12-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Devstral 2 एक 123B पैरामीटर वाला अगली पीढ़ी का ओपन-सोर्स कोडिंग मॉडल है, जिसने SWE-bench Verified में 72.2% प्रदर्शन दर्ज किया और प्रतिस्पर्धी मॉडलों की तुलना में अधिक दक्षता दिखाई
  • Devstral Small 2 में 24B पैरामीटर हैं, इसे कंज्यूमर-ग्रेड हार्डवेयर पर भी चलाया जा सकता है और यह Apache 2.0 लाइसेंस के तहत जारी किया गया है
  • Mistral Vibe CLI Devstral पर आधारित ओपन-सोर्स टर्मिनल एजेंट है, जो प्राकृतिक भाषा से कोड की खोज, बदलाव और रन करने के काम को आसान बनाता है
  • Devstral 2 Claude Sonnet की तुलना में अधिकतम 7x अधिक किफायती है और DeepSeek V3.2 से 5x छोटा होने के बाद भी ऊँचा प्रदर्शन बनाए रखता है
  • ओपन-सोर्स इकोसिस्टम में बड़े पैमाने की कोड ऑटोमेशन और वितरित इंटेलिजेंस को तेज करने के लिए इसे एक प्रमुख औज़ार के रूप में देखा जा रहा है

Devstral 2 का अवलोकन

  • Devstral 2 123B पैरामीटर वाला डेंस ट्रांसफॉर्मर मॉडल है और 256K context window सपोर्ट करता है
    • SWE-bench Verified में 72.2% प्रदर्शन के साथ इसने ओपन-वेट मॉडल्स में शीर्ष-स्तर का प्रदर्शन दिखाया
    • यह संशोधित MIT लाइसेंस के साथ जारी हुआ है, जो ओपन-सोर्स कोड एजेंट के लिए नया बेंचमार्क सेट करता है
  • Devstral Small 2 ने 68.0% SWE-bench Verified प्रदर्शन दर्ज किया और यह अधिकतम 5x बड़े मॉडलों के करीब का स्तर बनाए रखता है
    • कंज्यूमर-ग्रेड हार्डवेयर पर लोकल रन संभव है, जिससे तेज़ इनफरेंस और पर्सनलाइज़्ड फीडबैक लूप मिलता है
    • यह इमेज इनपुट सपोर्ट करता है, जिससे मल्टीमोडल एजेंट रन संभव है
  • Devstral 2 (123B) और Small 2 (24B) क्रमशः DeepSeek V3.2 से 5x तथा 28x छोटे और Kimi K2 से 8x तथा 41x छोटे हैं
    • कम्पैक्ट मॉडल आर्किटेक्चर के कारण सीमित हार्डवेयर पर भी डिप्लॉय करना आसान है

प्रोडक्शन-ग्रेड वर्कफ्लो सपोर्ट

  • Devstral 2 कोडबेस एक्सप्लोरेशन और मल्टी-फाइल बदलाव प्रबंधन को सपोर्ट करता है और आर्किटेक्चर-स्तर का संदर्भ बनाए रखता है
    • फ्रेमवर्क डिपेंडेंसी ट्रैकिंग, विफलता पहचान और ऑटोमेटिक रिट्राई फीचर शामिल हैं
    • बग फिक्स और लेगेसी सिस्टम मॉडर्नाइज़ेशन के काम किए जा सकते हैं
  • किसी विशिष्ट भाषा या बड़े एंटरप्राइज कोडबेस के लिए फाइन-ट्यूनिंग सपोर्ट
  • DeepSeek V3.2 और Claude Sonnet 4.5 के साथ मानव मूल्यांकन तुलना में DeepSeek के ऊपर बढ़त (42.8% win rate) मिली
    • हालांकि Claude Sonnet 4.5 के साथ अभी भी प्रदर्शन अंतर मौजूद है
  • Cline ने Devstral 2 को “टॉप-टियर ओपन-सोर्स कोडिंग मॉडल” बताया और कहा कि टूल-कॉल सफलता दर क्लोज़्ड-सोर्स मॉडलों के समान है
  • Kilo Code ने लॉन्च के पहले 24 घंटों में 17B टोकन उपयोग दर्ज होने की घोषणा की

Mistral Vibe CLI

  • Devstral आधारित ओपन-सोर्स CLI कोडिंग असिस्टेंट जो प्राकृतिक भाषा आदेश से कोड खोजने, बदलने और रन करने में मदद करता है
    • Apache 2.0 लाइसेंस के साथ जारी
    • टर्मिनल या IDE (Agent Communication Protocol इंटीग्रेशन) में उपयोग योग्य
  • मुख्य फीचर्स
    • प्रोजेक्ट-अवेयर कंटेक्स्ट: फाइल स्ट्रक्चर और Git स्टेटस का ऑटो स्कैन
    • स्मार्ट रेफरेंस: @ ऑटो-कम्प्लीशन, ! कमांड रन, स्लैश कमांड से सेटिंग बदलना
    • मल्टी-फाइल ऑर्केस्ट्रेशन: पूरी कोडबेस की समझ के साथ आर्किटेक्चर-स्तर की रीज़निंग
    • सतत हिस्ट्री, ऑटो-कम्प्लीशन, थीम कस्टमाइज़ेशन सपोर्ट
  • स्क्रिप्ट रन, ऑटो-एप्रूवल टॉगल, लोकल मॉडल सेटिंग, एक्सेस कंट्रोल जैसी वर्कफ्लो कस्टमाइज़ेशन सेटिंग्स उपलब्ध हैं

डिप्लॉयमेंट और उपयोग

  • Devstral 2 अभी फ्री API के रूप में उपलब्ध है, आगे चलकर इनपुट/आउटपुट प्रति $0.40/$2.00 शुल्क तय होने की संभावना है
    • Devstral Small 2 के लिए $0.10/$0.30 की कीमत होगी
  • Kilo Code, Cline जैसे ओपन एजेंट टूल्स के साथ एकीकृत होकर उपयोग किए जा सकते हैं
  • Zed IDE extension के साथ Vibe CLI का सीधे उपयोग संभव है
  • Devstral 2 के लिए डेटा-सेंटर-ग्रेड GPU (न्यूनतम 4×H100) की जरूरत है और इसे build.nvidia.com पर ट्राई किया जा सकता है
    • Devstral Small 2 सिंगल GPU या CPU वातावरण में भी रन किया जा सकता है
    • NVIDIA NIM सपोर्ट शीघ्र उपलब्ध होगा
  • इष्टतम प्रदर्शन के लिए temperature 0.2 सेट करने और Vibe CLI की best practices अपनाने की सलाह दी गई है

समुदाय और भर्ती

  • Mistral Devstral 2, Small 2 और Vibe CLI के साथ प्रोजेक्ट शेयर करने और फीडबैक देने में भाग लेने के लिए प्रेरित कर रहा है
    • X/Twitter, Discord, GitHub चैनल्स पर संवाद संभव है
  • ओपन-सोर्स रिसर्च और इंटरफेस डेवलपमेंट प्रतिभा की भर्ती जारी है; आवेदन Mistral के official hiring page से किया जा सकता है

1 टिप्पणियां

 
GN⁺ 2025-12-10
Hacker News राय
  • llm install llm-mistral कमांड से Mistral मॉडल इंस्टॉल किया, फिर llm mistral refresh के बाद llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle" से एक SVG इमेज बनाई।
    नतीजा इस लिंक पर देखा जा सकता है। 123B मॉडल के हिसाब से यह काफ़ी अच्छा परिणाम है।
    मॉडल ID पूरी तरह सही न भी हो सकती है, इसलिए Mistral से सीधे पूछा

    • अब यह भी संभव है कि “पेलिकन को साइकिल चलाते हुए SVG बनाओ” जैसे प्रॉम्प्ट training data में शामिल हों। बेंचमार्क के लिए यह ठीक है, लेकिन benchmaxxing से बचने के लिए रैंडम टेस्ट भी ज़रूरी लगते हैं
    • यह भी जिज्ञासा हुई कि क्या यह मॉडल Space Jam 1996 वेबसाइट को फिर से बना सकता है
    • SVG कोड तो है, लेकिन executable code नहीं है, इसलिए coding model के मूल्यांकन में यह कुछ हद तक भ्रामक हो सकता है। फिर भी नतीजा प्रभावशाली है
    • llm टूल कहाँ से मिला, यह जानने की उत्सुकता है
    • लगता है साइकिल छोड़कर इसे बढ़िया motorcycle में अपग्रेड कर दिया गया
  • Mistral, SOTA से लगभग 1 साल पीछे है, लेकिन speed और price competitiveness बेहतर होती जा रही है। अभी मेरे इस्तेमाल के लिए काफ़ी नहीं है, पर तेज़ी से पकड़ बना रहा है। प्रतिस्पर्धी मॉडल के तौर पर Haiku 4.5, Gemini 3 Pro Fast, और OpenAI का नया lightweight model (GPT 5.1 Codex Max Extra High Fast?) दिखता है

    • OpenAI के नए मॉडल का नाम Garlic बताया जा रहा है, लेकिन उम्मीद है कि वह सच में इसी नाम से रिलीज़ नहीं होगा
    • Deepseek-v3.2 की तुलना में इसकी general capability काफ़ी कम है, और कीमत 5 गुना ज़्यादा है
  • Devstral 2 को CLI में चलाकर 500KB के एक निजी प्रोजेक्ट का review कराया।
    इसने प्रोग्राम की functionality सही तरह समझी, 2 bugs ठीक किए, code improvements किए और 2 छोटे features जोड़े।
    इसने एक नया bug भी बनाया, लेकिन इशारा करते ही तुरंत ठीक कर दिया।
    code changes बहुत सीमित थे और बेवजह rewrite नहीं किया गया।
    अभी निष्कर्ष निकालना जल्दी होगा, लेकिन यह काफ़ी capable model लगता है

    • यह किस hardware पर चलाया गया, यह जानना चाहूँगा
  • Devstral को खुद आज़माने का सोच रहा हूँ। पिछला मॉडल भी local agent coding के लिए ठीक था।
    लेकिन “Vibe CLI” नाम बहुत हल्का-फुल्का लगता है।
    ‘Vibe-coding’ मॉडल की सीमाओं के साथ प्रयोग करने में मज़ेदार है, लेकिन quality control वाले प्रोफेशनल काम के लिए नहीं।
    आजकल सब vibe-coding में डूबे हैं, लेकिन इंसानी बुद्धि को सहारा देने वाले professional LLM tools कहाँ हैं, यह सवाल है

    • नया CLI agent mistral-vibe Python में लिखा गया है और Zed का ACP protocol सपोर्ट करता है
    • बहुत से ऐप्स अल्पकालिक बिज़नेस ज़रूरतों के लिए अस्थायी सेवाओं की तरह बनाए जाते हैं, इसलिए agentic coding ऐसी “cardboard services” के लिए काफ़ी उपयोगी है। लेकिन industrial data infrastructure के लिए यह उपयुक्त नहीं है
    • हम जो Brokk बना रहे हैं, वही ऐसा professional tool है। परिचय के लिए यह ब्लॉग पोस्ट देखें
    • कुछ लोगों की प्रतिक्रिया यह भी है: “तो क्या Claude Code काफ़ी नहीं है?”
    • अब कुछ लोगों का मानना है कि code quality से ज़्यादा specs और tests की quality अहम हो गई है
  • Devstral Small 2 चलाने के लिए $5,000 hardware setup पर विचार कर रहा हूँ।
    Mac 32GB, RTX 4090, DGX Spark, RTX 5090, external GPU(Oculink) आदि पर token throughput कैसा है, यह जानना चाहता हूँ

    • $5,000 थोड़ा अजीब बजट है, इसलिए cloud GPU rental की सलाह दी गई।
      ज़्यादा performance चाहिए तो RTX 5090, CUDA compatibility के लिए DGX Spark, और बड़े मॉडल के लिए Strix Halo 128GB या M3 Ultra उपयुक्त हैं।
      असली benchmarks के लिए r/LocalLLaMA देखना बेहतर होगा
    • dual 3090 (24GB×2) setup इस समय best value for money है।
      इससे आगे जाना हो तो 8×V100 server (32GB×8, 512GB RAM, NVLink) भी विकल्प है। बस 240V power चाहिए
    • मैं 7900XTX + 128GB DDR4 कॉन्फ़िगरेशन इस्तेमाल करता हूँ। और NVIDIA पसंद नहीं है
  • “Vibe CLI” नाम एक बहुत हल्का टूल जैसा लगता है।
    मैं Claude Code अक्सर इस्तेमाल करता हूँ, लेकिन उसे vibe-coding नहीं कहता

    • ऐसा नाम शायद marketing meme हो। शायद “फ्रांसीसी कंपनी ने ‘vibe से coding’ करने वाला टूल निकाला!” जैसी सुर्खियों से ध्यान खींचने की कोशिश हो
    • मेरा मानना है कि LLM से code लिखवाना स्वभावतः हल्के कामों के लिए ज़्यादा उपयुक्त है
    • अगर आप Claude से code लिखवा रहे हैं, तो वह पहले से ही vibe-coding है
    • शायद यह बस मज़ाकिया naming भी हो सकती है
  • React का उपयोग न करने वाला CLI देखकर अच्छा लगा।
    Vibe-cli को Textual framework से बनाया गया है

    • लेकिन यह Python-आधारित है, इसलिए output speed धीमी होगी या नहीं, इसकी चिंता है। पहले Aider में ऐसा ही अनुभव हुआ था
  • अगर Mistral, Claude से प्रति टोकन 10 गुना सस्ता है, तो यह काफ़ी आकर्षक है।
    बस performance 10 गुना खराब न हो, तो यह अच्छा सौदा है

    • GPT 5-mini भी Haiku से बहुत सस्ता है, लेकिन असल उपयोग में वह समय की बर्बादी निकला।
      कंपनी में हम Haiku, Sonnet, Opus इस्तेमाल करते हैं, लेकिन निजी बजट में minimax m2 उपयोग करता हूँ
    • 10 गुना सस्ता और 2 गुना धीमा होने पर अंत में token waste की वजह से कुल लागत ज़्यादा भी हो सकती है
    • मौजूदा SOTA मॉडल भी coding में परफ़ेक्ट नहीं हैं, इसलिए सिर्फ़ price optimization पर ज़ोर देने की खास वजह नहीं दिखती
  • Mistral-vibe के लिए AUR package बनाया है
    पैकेज लिंक

  • Nix उपयोगकर्ता नीचे दिए गए कमांड से सीधे चला सकते हैं

    nix run github:numtide/llm-agents.nix#mistral-vibe
    

    repository रोज़ अपडेट होती है

    • यह सच में शानदार प्रोजेक्ट लगता है। साझा करने के लिए धन्यवाद