4 पॉइंट द्वारा GN⁺ 2025-05-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Devstral सॉफ़्टवेयर इंजीनियरिंग कार्यों के लिए एक एजेंटिक LLM है, जिसे Mistral AI और All Hands AI के सहयोग से विकसित किया गया है
  • SWE-Bench Verified बेंचमार्क में इसने मौजूदा ओपन सोर्स मॉडलों की तुलना में 6% से अधिक बेहतर 46.8% प्रदर्शन हासिल किया
  • इसने प्रतिस्पर्धी मॉडल (Deepseek-V3, Qwen3 आदि) और कुछ closed-source मॉडल (GPT-4.1-mini आदि) से भी बेहतर प्रदर्शन दिखाया
  • RTX 4090 या 32GB RAM वाले Mac पर भी लोकल उपयोग संभव है, इसलिए यह enterprise environments या copilot उपयोग के लिए भी उपयुक्त है
  • Apache 2.0 लाइसेंस के तहत मुफ्त वितरित किया जाता है, और विभिन्न प्लेटफ़ॉर्म पर तुरंत उपयोग व कस्टमाइज़ किया जा सकता है

Devstral परिचय

  • Devstral कोड लिखने, संशोधित करने, इश्यू हल करने जैसे सॉफ़्टवेयर इंजीनियरिंग कार्यों के लिए एक एजेंटिक LLM (Agentic Large Language Model) है
  • इसे Mistral AI और All Hands AI की पार्टनरशिप में विकसित किया गया है
  • Devstral को इस तरह प्रशिक्षित किया गया है कि यह वास्तविक दुनिया के GitHub issues को वास्तव में हल कर सके, और यह OpenHands या SWE-Agent जैसे code agent scaffolds के आधार पर काम करता है

SWE-Bench Verified बेंचमार्क में Devstral का प्रदर्शन

  • Devstral ने SWE-Bench Verified में 46.8% स्कोर दर्ज किया, जो सर्वश्रेष्ठ ओपन सोर्स मॉडल से 6 percentage points से अधिक है
  • उसी test scaffold (OpenHands) के आधार पर इसने Deepseek-V3-0324(671B), Qwen3 232B-A22B जैसे और बड़े मॉडलों को भी पीछे छोड़ा
  • कस्टम test environment में भी Devstral ने कई closed-source वैकल्पिक मॉडलों की तुलना में बेहतर प्रदर्शन दर्ज किया
    • उदाहरण के लिए, इसने नवीनतम GPT-4.1-mini की तुलना में 20% से अधिक अधिक accuracy दिखाई

विविधता और उपयोगिता

  • Devstral RTX 4090 या 32GB RAM वाले Mac पर भी आसानी से चल सकता है, इसलिए यह local deployment और on-device उपयोग के लिए फायदेमंद है
  • OpenHands जैसे प्लेटफ़ॉर्म में यह लोकल codebase के साथ इंटीग्रेट होकर issues को तेज़ी से हल कर सकता है
  • यह enterprise environments में privacy protection की आवश्यकता वाले code repositories के लिए भी उपयुक्त है
  • इसे copilot, agent IDE plugins और अन्य विभिन्न development environments में लागू किया जा सकता है

वितरण और उपयोग

  • Devstral Apache 2.0 लाइसेंस के तहत उपलब्ध है, इसलिए कोई भी इसे मुफ्त में उपयोग, कस्टमाइज़ और पुनर्वितरित कर सकता है
  • मॉडल उपयोग के लिए गाइड और ट्यूटोरियल उपलब्ध हैं, और इसे HuggingFace, Ollama, Kaggle, Unsloth, LM Studio जैसे कई प्लेटफ़ॉर्म से डाउनलोड किया जा सकता है
  • यह Mistral के आधिकारिक API में devstral-small-2505 नाम से भी उपलब्ध है, और Mistral Small 3.1 के समान pricing policy अपनाता है
  • enterprise environments में private codebase के लिए विशेष fine-tuning जैसी उन्नत कस्टमाइज़ेशन की आवश्यकता होने पर संपर्क किया जा सकता है

आगे की योजना

  • Devstral फिलहाल research preview चरण में है
  • भविष्य में और बड़े पैमाने के एजेंटिक coding models भी जारी किए जाएंगे
  • Devstral के उपयोग या Mistral के विभिन्न models और solutions के बारे में जानकारी के लिए आधिकारिक संपर्क माध्यम से परामर्श लिया जा सकता है

1 टिप्पणियां

 
GN⁺ 2025-05-22
Hacker News राय
  • मैं आजकल Ollama में पहले फ़ाइल साइज़ देखता हूँ, और पता चला कि यह मॉडल लगभग 14GB का है; संदर्भ: https://ollama.com/library/devstral/tags. M2 Mac पर आमतौर पर मॉडल फ़ाइल साइज़ से लगभग 10% ज़्यादा मेमोरी चाहिए होती है, इसलिए यह देखने में मदद मिल रही है कि RAM में कितना मार्जिन है और कौन-से ऐप साथ में चला सकता हूँ. 20GB से छोटे मॉडल आम तौर पर दूसरे प्रोग्राम इस्तेमाल करने पर बहुत असर नहीं डालते. इस मॉडल से काफ़ी उम्मीद है

    • लोकल मॉडल पर अच्छे से चलने वाला agentic development software चाहिए. Cursor इस्तेमाल किया, लेकिन उम्मीद से कम संतोषजनक लगा; बल्कि editor और ChatGPT के बीच स्विच करना ज़्यादा बेहतर लगा. Localforge और aider भी आज़माए, लेकिन लोकल मॉडल पर थोड़े धीमे लगे

    • मैं भी सहमत हूँ. मैंने खुद यह मॉडल लोकल पर चलाया और अच्छा इम्प्रेशन मिला. Ruby या rspec से जुड़ा tricky कोड भी इसने ठीक से संभाला. context बड़ा होने वाली स्थिति में aider के साथ टेस्ट करने का प्लान है

  • SWE-Bench स्कोर open source मॉडल के साइज़ की तुलना में बहुत ऊँचा है. 46.8% o3-mini (Agentless-lite के साथ) या Claude 3.6 (AutoCodeRover के साथ) से भी ज़्यादा है, और Anthropic के proprietary scaffold वाले Claude 3.6 से थोड़ा कम. यह लगभग मुफ़्त में चल सकता है, इसे ध्यान में रखें तो काफ़ी चौंकाने वाला मॉडल है

    • या तो यह “हैरान करने वाला” है, या फिर शक होता है कि benchmark अपना काम ठीक से नहीं कर रहा

    • क्या यह शायद Claude 3.7 की बात है, यह कन्फ़र्म करना चाहिए

  • जिन उपयोगकर्ताओं के पास 24GB RAM वाला वीडियो कार्ड नहीं है, उनके लिए जानकारी छोड़ रहा हूँ. मैं 8GB RAM वातावरण में Ollama के साथ साधारण कामों के लिए यह मॉडल इस्तेमाल कर रहा हूँ. बड़े context window और time-sensitive कामों के लिए paid API इस्तेमाल करने की सलाह दूँगा.

    • कुल समय, लोडिंग, token evaluation rate जैसी डिटेल संख्याएँ साझा कर रहा हूँ:
      • उदाहरण 1: 35 सेकंड लगे, 6.27 tokens प्रति सेकंड
      • उदाहरण 2: 4 मिनट 44 सेकंड लगे, 5.79 tokens प्रति सेकंड
    • API कॉल की तुलना में लगभग 20% जितना धीमा महसूस हुआ. मेरा मानना है कि इसकी वजह recommended graphics card का न होना है.
    • benchmark प्रदर्शन साइज़ की तुलना में असामान्य रूप से अच्छा ट्यून किया हुआ लगता है, और मुझे लगता है कि development के दौरान benchmark optimization को बार-बार टेस्ट किया गया होगा. IT क्षेत्र में मार्केट किए जाने वाले ज़्यादातर LLM भी शायद यही रणनीति अपनाते हैं. आखिरकार, ‘बहुत समय खर्च किए बिना यह जाँच लेना कि यह उपयोगी है’ बुरा समझौता नहीं है
  • मैं दिए गए benchmark पर भरोसा नहीं कर पा रहा. खुद इस्तेमाल नहीं किया, लेकिन मेरे नतीजों में Mistral परिवार के मॉडल benchmark के बावजूद Llama की तरह नीचे रहे हैं. इसलिए असल प्रदर्शन इतना अच्छा होगा, ऐसी उम्मीद नहीं है

    • मैंने हाल में All Hands मॉडल देखा, और लगता है कि वह भी Mistral आधारित है. मेरा इम्प्रेशन यह है कि यह Claude 3.7 Sonnet की बराबरी नहीं करता, लेकिन काफ़ी स्थिर लगता है. "AI pair-coding assistant" के उपयोग के लिए पर्याप्त है, और बड़े architectural काम भी steps में बाँटकर दिए जाएँ तो कर सकता है

    • मैं भी आसानी से भरोसा नहीं करता. ऐसी चीज़ें खुद टेस्ट करनी चाहिए. उदाहरण के लिए, Qwen3 मेरे लिए तो उल्टा पीछे गया, और GLM4 अभी standard है. 70b cogito मॉडल भी वास्तव में बहुत अच्छा है, लेकिन उसका ज़िक्र कम होता है. मुझे लगता है project, language और use case के हिसाब से अंतर बहुत बड़ा है. फिर भी इस मॉडल को ज़रूर आज़माने का प्लान है

  • Apache 2.0 लाइसेंस होने से अच्छा लग रहा है. किसी जटिल "open weight" शर्तों वाले लाइसेंस की जगह स्पष्ट उपयोग शर्तें हैं. यह इसकी ताकत है

    • मुझे लगता है कि यही Mistral की रणनीतिक ताकत है. नैतिक रूप से स्वीकार्य कामों के लिए मैं Gemma 3 की सिफ़ारिश करूँगा. नहीं तो Apache लाइसेंस वाला LLM चुनने का विकल्प मिलता है
  • एक विचार है कि EU इस agent/model को बनाने की लागत उठाए तो अच्छा होगा. अगर यह सचमुच उम्मीद के मुताबिक परिणाम देता है, तो Mistral अपना काम जारी रख सकेगा, और यूरोप के नज़रिए से यह समझदारी भरा बजट उपयोग होगा

    • अगर मेरे टैक्स का पैसा apache/mit लाइसेंस मॉडल बनाने में जाए, तो मैं पक्ष में हूँ. कम से कम वैकल्पिक मॉडल बनाए रखना और बड़ी कंपनियों के एकाधिकार पर लगाम लगाना जैसे सकारात्मक उद्देश्य पूरे होंगे. आखिरकार, कुछ बड़ी कंपनियों के प्रभुत्व को रोकना ज़रूरी है

    • वास्तव में EU ने AI startups के इस्तेमाल के लिए supercomputer बनाने पर पैसा लगाया है, और Mistral इस प्रोग्राम का partner भी है

  • LlamaIndex के tool support को टेस्ट करते हुए संयोग से यह मॉडल दिखा. मैं अपने agentic coding solution में अलग-अलग मॉडल जोड़कर प्रयोग कर रहा हूँ, और जब मैं ReAct तरीका लागू करने वाला था तभी यह मॉडल आ गया, तो हैरानी हुई.

    • लेकिन मेरे agent system में यह मॉडल सिर्फ "no tools" लौटाता है. मैंने कई agent prompts में "foo tool से bar काम करो" जैसी explicit instructions भी दीं, फिर भी हल नहीं हुआ. ToolSpec annotations आदि के साथ standard Pydantic object है, और दूसरे मॉडल आम तौर पर खुद tool use ढूँढ़ लेते थे

    • output को सीमित करने के तरीके से tool schema enforce किया जा सकता है. थोड़ी-सी मदद मिले तो किसी भी मॉडल पर लागू हो सकता है

  • अच्छा लगा कि Mistral फिर से सचमुच open source मॉडल ला रहा है. यूरोप में प्रतिस्पर्धी AI कंपनी की ज़रूरत लगातार महसूस होती है.

    • Mistral के हाल के नए मॉडल प्रभावशाली हैं. मैं Le Chat Pro का paid subscription लेकर इस्तेमाल कर रहा हूँ. इसके अलावा Mistral Small भी वाकई उपयोगी है. Mistral integration के साथ startup भी बना रहा हूँ
  • कम स्पेक (जैसे MacBook Air) पर चलने वाले आधुनिक लोकल रन मॉडल या संबंधित जानकारी की सिफ़ारिश चाहिए. बिना खुद टेस्ट किए पहले से जानना चाहता हूँ कि कौन-से मॉडल किस डिवाइस स्पेक पर 'वास्तव में उपयोगी' हैं. यह भी समझना है कि क्या Ollama में हर काम के लिए 2~3 मॉडल हमेशा रखे रहने चाहिए. Apple Intelligence अभी जवाब नहीं है

    • लोकल रन के लिए optimized general-purpose मॉडल के रूप में Gemma 3 या नया Mistral Small सुझाऊँगा. Windows में VRAM speed bottleneck होता है, लेकिन M-series Mac में on-chip memory होने से तेज़ चलता है. कौन-सा मॉडल चल सकेगा, यह असली RAM में से MacOS और दूसरे applications के लिए चाहिए जगह घटाने के बाद तय होता है.

      • मॉडल के हिसाब से मेमोरी अनुमान के लिए HuggingFace आदि पर उपलब्ध quantized मॉडल साइज़ देख सकते हैं. Q4_K_M को default मानें तो ठीक रहता है.
      • Devstral के लिए 14.3GB, और इसके अलावा context storage के लिए 1~8GB और चाहिए.
      • उदाहरण:
        • 32GB MacBook Air → Devstral(14.3GB)+4GB, लगभग 14GB सिस्टम/दूसरे ऐप्स के लिए
        • 16GB MacBook Air → Gemma 3 12B(7.3GB)+2GB, लगभग 7GB खाली
        • 8GB MacBook → Gemma 3 4B(2.5GB)+1GB, व्यावहारिक उपयोग के लिए लगभग अनुशंसित नहीं
    • खुद आज़माकर देखना सबसे असरदार है. अगर हर मॉडल के लिए पर्याप्त स्टोरेज है तो llama.cpp(https://github.com/ggml-org/llama.cpp) आसानी से install और build किया जा सकता है, और M-series MacBook Air के लिए support भी अच्छा है. मैं व्यक्तिगत रूप से LMStudio(https://lmstudio.ai/) ज़्यादा इस्तेमाल करता हूँ. इसका आसान interface ChatGPT या Claude जैसा है, और प्रोग्राम के भीतर ही मॉडल खोज/डाउनलोड कर सकते हैं. शुरुआती उपयोगकर्ताओं के लिए सिर्फ LMStudio भी काफ़ी है; मैं इसे M2 MacBook Air पर अक्सर इस्तेमाल करता हूँ

  • जिज्ञासा है कि यह मॉडल hosted LLM (जैसे Claude 3.7) की तुलना में वास्तविक उपयोग में कैसा है

    • सच कहें तो use case पूरी तरह अलग हैं, इसलिए सीधे तुलना का ज़्यादा मतलब नहीं