MAI-Code-1-Flash
(microsoft.ai)- MAI-Code-1-Flash Microsoft का नया coding model है, जिसका लक्ष्य रोज़मर्रा के developer workflow में तेज़ और efficient coding support देना है, और इसे VS Code के GitHub Copilot personal users के लिए रोल आउट किया जा रहा है
- Microsoft ने इस model को सीधे GitHub Copilot harness पर train किया है, ताकि यह वास्तविक development environment के tools और systems के साथ बेहतर तरीके से interact कर सके
- Adaptive response length control के ज़रिए यह simple requests पर संक्षिप्त जवाब देता है और complex tasks पर ज़्यादा reasoning budget इस्तेमाल करता है, तथा अधिक कठिन समस्याएँ अधिकतम 60% कम tokens में हल करता है {p:60}
- Microsoft के production harness evaluation में इसने Claude Haiku 4.5 की तुलना में 4 मुख्य coding benchmarks पर अधिक pass rate दिखाया, और SWE-Bench Pro में 51.2% बनाम 35.2% के साथ 16 points की बढ़त दर्ज की
- अलग adversarial reasoning benchmark में इसने 186 प्रश्नों और 34 categories में 85.8% adjusted accuracy दर्ज की, लेकिन Einstellung trap जैसी प्रमुख adversarial categories में accuracy 50% से नीचे रही, इसलिए सुधार की गुंजाइश है
लॉन्च और रोलआउट
- MAI-Code-1-Flash Microsoft का नया coding model है, जिसे तेज़ और efficient रोज़मर्रा developer support के लिए बनाया गया है
- Microsoft ने इसे end-to-end बनाया है और साफ़-सुथरे, उचित licensing वाले data का उपयोग किया है
- इसे GitHub Copilot personal users के VS Code में रोल आउट किया जा रहा है, और यह model selector तथा default Auto picker के तहत उपलब्ध हो सकता है
- किसी अतिरिक्त setting की ज़रूरत नहीं है; rollout आगे बढ़ने पर GitHub Copilot Auto picker के ज़रिए tasks को MAI-Code-1-Flash पर route करेगा या इसे सीधे model selector में दिखाएगा
- Feedback GitHub Community पर लिया जाएगा
developer workflow-केंद्रित डिज़ाइन
- MAI-Code-1-Flash को सिर्फ benchmark optimization के लिए नहीं, बल्कि developers के रोज़ के production workflows को केंद्र में रखकर बनाया गया है
- इसे production environment में इस्तेमाल होने वाले GitHub Copilot harness पर सीधे train किया गया, ताकि यह agentic coding tasks में आसपास के tools और systems को संभालने का तरीका सीख सके
- training के दौरान checkpoints का मूल्यांकन core software engineering tasks, repository Q&A, refactoring, और वास्तविक GitHub Copilot उपयोग से अनुकूलित telemetry-based tasks पर किया गया
- training, evaluation और production environments को एकसमान रखने का लक्ष्य यह है कि offline improvements वास्तव में developer quality improvements में बदलें
token efficiency और response style
- इसने adaptive solution length control सीखा है, जिससे task की कठिनाई के अनुसार response depth को समायोजित किया जा सके
- simple requests पर यह संक्षिप्त जवाब देता है, जबकि deeper analysis या broader code changes की ज़रूरत वाले मुद्दों पर अधिक reasoning budget इस्तेमाल करता है
- इससे developers उपयोगी output जल्दी देखना शुरू कर सकते हैं
- MAI-Code-1-Flash अधिक कठिन समस्याएँ अधिकतम 60% कम tokens में हल करता है, और इसका लक्ष्य latency कम करना, cost घटाना, token efficiency सुधारना, और interactive workflows को अधिक smooth बनाना है
coding benchmark परिणाम
- Microsoft ने SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual, और Terminal Bench 2 पर MAI-Code-1-Flash और Claude Haiku 4.5 का एक ही production harness में मूल्यांकन किया
- evaluation में task success rate और प्रत्येक task को पूरा करने के लिए आवश्यक औसत solution tokens की संख्या मापी गई
- MAI-Code-1-Flash ने परीक्षण किए गए सभी 4 मुख्य coding benchmarks में Claude Haiku 4.5 से अधिक pass rate दर्ज किया
- SWE-Bench Pro के विविध वास्तविक tasks में इसने 51.2% बनाम 35.2% के साथ 16 points की बढ़त हासिल की
- SWE-Bench Verified में इसने अधिक कठिन समस्याएँ अधिकतम 60% कम tokens में हल करके दिखाया कि accuracy और efficiency दोनों एक साथ बेहतर हो सकती हैं
instruction following, reasoning और सीमाएँ
- MAI-Code-1-Flash तालिका में दिए गए सभी benchmarks पर Claude Haiku 4.5 से आगे रहा, और IF Bench के precise instruction following में +28.9 के साथ सबसे बड़ा अंतर दिखा
- Advanced IF के rubric-based evaluation में +14.5 के साथ सबसे कम अंतर दर्ज हुआ
- मज़बूत instruction-following performance agentic tool use में भी दिखाई देती है
- math, science, और visual generation coding की core reasoning abilities में भी इसने Claude Haiku 4.5 को पीछे छोड़ा
- standard benchmarks कभी-कभी reasoning जितना ही memorization को भी reward कर सकते हैं; इसलिए Monty Hall problem देख चुका model सही उत्तर दे सकता है, लेकिन यदि इनाम उलट दिया जाए तो विफल हो सकता है
- Microsoft ने inverted classics, impossible tasks, और underdetermined scenarios जैसे adversarial traps पर केंद्रित 186 प्रश्नों और 34 categories वाला benchmark बनाया
- MAI-Code-1-Flash ने इस adversarial benchmark में कुल मिलाकर Claude Haiku 4.5 को पीछे छोड़ा और 85.8% adjusted accuracy हासिल की
- reasoning, instruction following, और impossible problems की पहचान में इसने विशेष रूप से मज़बूत प्रदर्शन दिखाया, लेकिन Einstellung trap जैसी प्रमुख adversarial categories में accuracy 50% से नीचे रही, इसलिए सुधार की गुंजाइश बनी हुई है
1 टिप्पणियां
Hacker News की राय
मॉडल कार्ड के अनुसार यह कुल 137B parameters वाला मॉडल है
परफ़ॉर्मेंस खास अच्छी नहीं लगती: MAI-Code-1-Flash (137B-A5B) का SWE-bench pro 51% है, जबकि Qwen3.6-35B-A3B का SWE-bench pro 49.5% है(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
इसकी तुलना Claude Haiku से की गई है, लेकिन Haiku कोई बहुत अच्छा मॉडल नहीं है, और यह उन छोटे open model से भी कमजोर है जिन्हें local या API पर इसकी लागत के लगभग 10% में चलाया जा सकता है
मैं सोचता था कि Microsoft अपने बनाए मॉडल Copilot में देने में इतनी देर क्यों कर रहा है, अब लगता है कि शायद यह OpenAI के साथ उसके कॉन्ट्रैक्ट का हिस्सा रहा हो
शुरुआत के तौर पर अच्छा है और competition का स्वागत है, लेकिन मैंने Haiku 4.5 जैसे छोटे cloud model को coding के लिए लगभग कभी इस्तेमाल नहीं किया
यह प्यारा लग सकता है, लेकिन गंभीर coding में यह अक्सर मेरे महंगे समय की बर्बादी करता है, और इतना भी नहीं कि मैं कल ही cancel किए गए GitHub Copilot पर लौट जाऊँ
GitHub Copilot कल तक price-competitive था, लेकिन अब यह per-request billing में सबसे महंगे पक्ष की token allocation scheme पर बदल गया है। हँसना हो तो जलते हुए subreddit को देख लें: https://www.reddit.com/r/GithubCopilot
उसके बाद मैंने लगभग मुफ्त वाले Sonnet+ स्तर के DeepSeek Flash high पर स्विच किया, और अगर ज़्यादा स्मार्ट मॉडल चाहिए होगा तो शायद $20/माह वाले Codex पर साइन अप करूँगा ताकि GPT 5.5 इस्तेमाल कर सकूँ, जिसे मैं अभी उपलब्ध सबसे बेहतर मानता हूँ
इस तरीके में रोज़मर्रा के कामों के लिए Haiku का काफ़ी बार इस्तेमाल होता है, और कई घंटे लगने वाले high-complexity काम भी बेहतर नतीजों और बहुत कम लागत पर पूरे हो जाते हैं। parent orchestrator कामों को प्रभावी ढंग से व्यवस्थित करता है, quality review करता है, और जहाँ ज़रूरत हो वहाँ integration करता है, जिससे एक ही context window के भीतर बहुत बड़ा श्रम संभव हो पाता है
मैं Haiku को सीधे इस्तेमाल नहीं करता, लेकिन बड़े कामों की token usage का 30~40% हिस्सा यह अक्सर ले लेता है। completion time और cost दोनों बेहतर होते हैं, और Haiku literal निर्देशों और plans को “reinterpret” किए बिना follow करने में बेहतर है, जबकि Opus-स्तर के मॉडल सोचने की प्रक्रिया में लगातार शक करते हैं और बार-बार पूछते हैं
इसलिए Haiku समय की बर्बादी नहीं, बल्कि बहुत बड़ा समय बचाने वाला साबित होता है। हाँ, यहाँ तक पहुँचने के लिए पहले orchestration system बनाना पड़ा और उसे लगातार दोहराकर बेहतर करने में बहुत समय लगा। दिलचस्प बात यह है कि director और बाद में distinguished engineer के रूप में काम करने के अनुभव ने मुझे इसे अंत तक स्थिर रूप से चलाने के औज़ार दिए, और अलग-अलग क्षमता वाले multi-agent flow की dynamics, 1000 इंजीनियरों वाले संगठन की dynamics से बहुत अलग नहीं है
self-hosted Qwen 3.6 27B ने security bug detection में दोनों को लगातार पीछे छोड़ा, और यह काफी चौंकाने वाला नतीजा था। मुझे लगा था कि Qwen, Haiku के बराबर या थोड़ा कमज़ोर होगा, और Sonnet से तो निश्चित रूप से कमज़ोर होगा
DeepSeek और MiMo, Haiku और Sonnet से काफ़ी बेहतर हैं, और लागत उसका सिर्फ़ एक हिस्सा है, जबकि स्तर Opus/GPT 5.5 के करीब है
जब तक यह मुफ्त में न मिले या ऐसे subscription में शामिल न हो जिसे लोग आम तौर पर पूरा इस्तेमाल भी नहीं कर पाते, तब तक Haiku या Sonnet इस्तेमाल करने की लगभग कोई वजह नहीं दिखती
भले ही Copilot की कीमत 90% कम कर दी जाए, मुझे नहीं लगता कि मैं वापस जाऊँगा
Haiku जैसी competitiveness वाले मॉडल बहुत हैं, और Qwen 3.6 35B-A3B जैसे इससे कहीं छोटे और सस्ते मॉडल भी हैं। इन्हें laptop पर चलाया जा सकता है, इसलिए Microsoft से उधार लेने की ज़रूरत नहीं
नए Copilot bill से मैं भी चौंक गया, लेकिन जो लोग ecosystem में रहना चाहते हैं उनके लिए यह एक विकल्प हो सकता है; ज़्यादातर लोगों के लिए इससे बेहतर विकल्प भरे पड़े हैं
सिर्फ़ premium ChatGPT होने पर भी काम चल जाता है, और भले ही नियमित रूप से usage limits तक पहुँच जाऊँ, फिर भी ज़्यादातर काम हो जाते हैं
क्या वास्तव में कोई ऐसे छोटे मॉडल्स को कोडिंग के लिए इस्तेमाल करता है? अगर करता है, तो कैसे करता है, यह जानने की जिज्ञासा है
आम तौर पर मैं सब कुछ Opus से ही करवाता हूँ। क्या तरीका यह है कि प्लानिंग/डिज़ाइन/आर्किटेक्चर भारी मॉडल से कराई जाए और structured काम ऐसे छोटे मॉडल्स को सौंपा जाए? दोनों तरीकों को आज़माकर टेस्ट कर चुके लोगों की राय सुनना चाहता हूँ
अफसोस की बात है कि अभी इनकी तुलना नहीं बनती
Opus के साथ complex codebase में भी डिज़ाइन, आर्किटेक्चर सुझाव और code changes पर भरोसा करके काम किया जा सकता है
छोटे मॉडल्स में बस “कोशिश” करने जैसा एहसास होता है। छोटे कामों में चल जाते हैं, लेकिन complex कामों में अक्सर खुद करने से भी ज़्यादा काम बढ़ जाता है
काश यह अलग होता, और 1~2 साल बाद शायद अलग हो भी सकता है
claude code में opusplan है, और planning mode में Opus इस्तेमाल होता है, फिर execution के लिए Sonnet पर switch किया जाता है
https://code.claude.com/docs/en/model-config#opusplan-model-...
सुधार: planning के लिए Sonnet और execution के लिए Haiku, या अपनी पसंद का कोई और combination भी सेट किया जा सकता है
https://code.claude.com/docs/en/model-config#control-the-mod...
आसान features के लिए मैं पूरा प्लान नहीं बनाता। थोड़ा code लिखता हूँ और एक छोटी one-line prompt से मॉडल को बताता हूँ कि क्या करना है। कभी-कभी दिशा देने के लिए code में अस्थायी comments भी डाल देता हूँ
आम तौर पर अगर code changes किसी file या package के भीतर ही रहें, तो Haiku request को follow कर लेता है और इतना भी नहीं बिगाड़ता कि मुश्किल हो जाए। समय के साथ मैंने दिशा देने की skill भी बना ली। GitHub Copilot इस्तेमाल करने के उन कुछ महीनों में कभी-कभी महीने के अंत में बचे हुए credits जल्दी-जल्दी खर्च करने की नौबत भी आई
सिर्फ AI code completion भी कई बार काफ़ी अच्छा होता है। code को क्या करना है यह अस्थायी comments में लिख दो, और सिर्फ Tab-Tab-Tab दबाते जाओ, तो कभी-कभी पूरा function तैयार हो जाता है
लोग अक्सर यह सोचकर उधर जाते हैं कि advanced models कम बिगाड़ेंगे, लेकिन अगर आपको code सच में समझ में आता है, तो lower-end model के साथ interactive तरीके से काम करना ज़्यादा आसान पड़ता है
main chat को “orchestrator” यानी Opus पर सेट करता हूँ, goal तय करता हूँ, फिर नीचे दिए sub-agents को क्रम से चलाकर उसे मंज़िल तक धकेलने देता हूँ
दोहराव: orchestrator session का token budget खत्म होने तक यह चलता है। इसे 1M जैसी किसी value पर सेट किया जा सकता है
बुनियादी logic यह है कि हर step को manageable size में रखा जाए, ताकि निर्देशों के पालन की दर बढ़े और लागत घटे। cached tokens की भी कीमत लगती है। prompt tokens, generation tokens से बहुत सस्ते होते हैं, इसलिए Opus को खुद lead करने के बजाय ज़्यादातर review करने देना लागत भी काफ़ी बचाता है
self-improvement step बहुत महँगा है, लेकिन सुधार जमा होते जाते हैं। अगर आप कई दिनों या कई हफ्तों का काम चलाने वाले हैं, तो इसे न करना ही कहीं ज़्यादा महँगा पड़ता है
सुधार: Claude Code में यह Anthropic models के साथ भी करता हूँ, और offline usage के लिए Qwen family models के साथ भी
इस मॉडल में hallucination rate कम है, इसलिए यह exploration tasks के लिए अच्छा है, और लगता है कि यहाँ का मॉडल भी सबसे अच्छे से ऐसे ही काम में आएगा। बहुत से tasks में planning या editing से पहले कई exploration agents चलाए जाते हैं, और उसके बाद बस कुछ tool calls में काम खत्म हो जाता है, इसलिए token usage भी बड़ा होता है
इस मॉडल की तुलना Haiku 4.5 से की जा रही है
Opus या Sonnet से नहीं, बल्कि Anthropic के सबसे छोटे मॉडल Haiku से, और वह भी तीन versions पुराने मॉडल से तुलना हो रही है
सब लोग window scrolling को इतनी बुरी तरह फिर से implement क्यों करते हैं?
benchmarks अभी भी इतने नीचे हैं, फिर भी model को जैसे क्रांतिकारी चीज़ की तरह market किया जा रहा है, यह बहुत अजीब लगता है
अगर low coding ability को समस्या नहीं माना जा रहा, तो फिर token price increase और “general-purpose” model setting को साथ में देखना चाहिए
इसे math agent के रूप में बेचते क्यों नहीं? एक-दूसरे के काम को verify करने के लिए 4 agents मुझे ही क्यों सेट करने पड़ें?
5B parameters पर उस स्तर के scores काफ़ी अच्छे हैं, और कुछ समय पहले तक तो यह लगभग यक़ीन से बाहर जैसा था
छोटे मॉडल्स लगातार बेहतर होते जाएँगे, और cloud के cutting-edge models भी छोटे होते जाएँगे
मौजूदा infrastructure का यह भारी विस्तार भविष्य में रेलमार्ग जैसा महसूस होने का एक और कारण है
परिचय वाले blog post में जानकारी कहीं ज़्यादा है
https://microsoft.ai/news/introducingmai-code-1-flash/
और model card भी है
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
शीर्षक में active 5B शायद 7 MAI models की बड़ी घोषणा से लिया गया है
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
फिर से याद करना पड़ा कि Haiku मूल रूप से किस काम के लिए बना मॉडल है
Anthropic ने हाल में Haiku की मार्केटिंग पर बहुत ज़ोर नहीं दिया है
अगर हल्का मॉडल चाहिए तो Sonnet इस्तेमाल करते हैं। Max प्लान में यह लगभग मुफ़्त जैसा है और काफ़ी तेज़ भी है। सामान्य coding में Haiku के लिए खास जगह नज़र नहीं आती
लगता है Haiku वह मॉडल है जिसे बड़े पैमाने पर summary/classification की ज़रूरत होने पर इस्तेमाल किया जाता है
Microsoft ने Haiku को benchmark बनाया, यह काफ़ी नीचा मानदंड है
काश वेबसाइट को Safari में test किया गया होता
iOS user लगभग सभी डिफ़ॉल्ट रूप से Safari ही इस्तेमाल करते हैं, और desktop experience भी mobile से काफ़ी मिलता-जुलता है, इसलिए test करना आसान है
वह scroll effect मेरे environment में पूरी तरह अटकता है। समझता हूँ कि Chrome/Edge में यह ठीक चलता है
अगर यह कल ही रिलीज़ हो गया होता, तो शायद Copilot का automatic model selection 9x वाला मॉडल इस्तेमाल करके एक ही दोपहर में मेरा monthly quota चुपचाप जला नहीं देता