Qwen3-Coder-Next मॉडल पेश किया गया
(qwen.ai)- Qwen3-Coder-Next को code writing agents और local development environments के लिए डिज़ाइन किया गया एक open-weight language model है, जो hybrid attention और MoE संरचना पर आधारित है
- इसे बड़े पैमाने पर executable task synthesis, environment interaction, और reinforcement learning के जरिए train किया गया है, जिससे कम inference cost पर भी मजबूत coding और agent capabilities मिलती हैं
- यह सिर्फ parameter scaling के बजाय agent training signals के विस्तार पर फोकस करता है, और verifiable coding tasks व executable environments का उपयोग करके सीधे feedback सीखता है
- SWE-Bench Verified में 70% से अधिक स्कोर हासिल किया गया, और SWE-Bench Pro तथा multilingual environments में भी बड़े models के मुकाबले प्रतिस्पर्धी performance दिखाई
- छोटा model होने के बावजूद इसने efficiency और performance के बीच Pareto balance हासिल किया है, जो cost-efficient agent deployment के लिए महत्वपूर्ण है
Qwen3-Coder-Next का परिचय
- Qwen3-Coder-Next एक open-weight language model है, जो Qwen3-Next-80B-A3B-Base पर आधारित है
- इसमें hybrid attention और Mixture of Experts(MoE) संरचना अपनाई गई है
- इसे बड़े पैमाने पर executable task synthesis, environment interaction, और reinforcement learning के जरिए train किया गया है
- इसका लक्ष्य coding agents और local development environments में प्रभावी उपयोग है
- कम inference cost पर भी मजबूत reasoning capability और coding performance प्रदान करता है
agent training को scale करने का तरीका
- यह model parameter count scaling से अधिक agent training signal scaling पर ध्यान देता है
- verifiable coding tasks और executable environments को जोड़कर यह environment feedback से सीधे सीखता है
- training के मुख्य चरण
- code और agent-केंद्रित data के साथ continuous pretraining
- high-quality agent trajectory data का उपयोग करके supervised fine-tuning
- software engineering, QA, web/UX जैसे domains के लिए विशेषज्ञ training
- कई expert models को एक single deployable model में distill करना
- यह approach long-horizon reasoning, tool use, और execution failure recovery की क्षमता को मजबूत बनाता है
coding agent benchmark performance
- SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0, Aider सहित कई benchmarks पर इसका मूल्यांकन किया गया
- SWE-Bench Verified में 70% से अधिक स्कोर हासिल किया
- SWE-Bench Pro और multilingual environments में भी प्रतिस्पर्धी प्रदर्शन बनाए रखा
- कम active parameters होने के बावजूद, बड़े open source models के बराबर या उनसे बेहतर प्रदर्शन दिया
- multi-turn agent tasks में agent turns बढ़ाने पर long-horizon reasoning क्षमता और मजबूत होती दिखी
efficiency और performance का संतुलन
- Qwen3-Coder-Next (3B active) ने 10~20 गुना बड़े models के समान SWE-Bench-Pro performance हासिल की
- full-attention based proprietary models absolute performance में आगे हैं, लेकिन Qwen3-Coder-Next cost-to-efficiency के लिहाज से बेहतर Pareto frontier पर स्थित है
- यह दिखाता है कि यह cost-efficient agent deployment के लिए उपयुक्त model है
डेमो और उपयोग के उदाहरण
- छोटा और तेज coder model होने के कारण इसे कई application environments में integrate किया जा सकता है
- OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline आदि में इसका demo दिखाया गया
- coder.qwen.ai के जरिए web-based उपयोग संभव है
सारांश और आगे की योजना
- Qwen3-Coder-Next ने coding agent benchmarks में बेहतरीन speed और reasoning capability साबित की है
- बड़े open source models की तुलना में भी इसने प्रतिस्पर्धी performance दिखाई है, हालांकि सुधार की गुंजाइश अभी भी है
- आगे चलकर tool-use capability, complex problem solving, और decision-making ability को मजबूत किया जाएगा
- साथ ही अधिक tasks के समर्थन और user feedback आधारित तेज़ updates की योजना है
1 टिप्पणियां
Hacker News की राय
यह GGUF model 48.4GB आकार का है, और हाई-स्पेक laptop पर भी चल सकता है
अभी तक मैंने अपने 64GB MacBook Pro पर Codex CLI या Claude Code स्तर का coding agent ठीक से चलाने वाला कोई local model नहीं देखा है
शायद इस बार बात अलग हो। Unsloth guide देखने पर संभावना लगती है
सिर्फ उसी machine पर llama.cpp से जुड़ा होने भर को local कहना काफी नहीं है। मेरे लिए local का मतलब LAN model है, यानी ऐसा स्तर जहाँ मैं अपने नियंत्रण वाले hardware पर inference ‘मुफ्त’ में चला सकूँ
उदाहरण के लिए 5090 + Threadripper + 256GB RAM configuration की कीमत लगभग 10 हज़ार डॉलर है, और MLX route लगभग 6 हज़ार डॉलर का पड़ता है
model की internal architecture और quantization method वास्तविक memory usage पर बड़ा असर डालते हैं, इसलिए सिर्फ parameter count से तुलना करना धीरे-धीरे कम अर्थपूर्ण होता जा रहा है
इसलिए standardized hardware baseline पर toolcalling, code generation, document processing जैसे वास्तविक कामों को benchmark करने वाली system की ज़रूरत है
पुराना Razer Blade laptop होने के बावजूद यह 64k context तक काफ़ी स्थिरता से काम करता है
छोटे project, bug fix, और UI improvement जैसे कामों के लिए यह काफ़ी उपयोगी है
लेकिन “usable” का मानक हर व्यक्ति के लिए अलग हो सकता है। कौन-सा काम आज़माया गया, उसके हिसाब से मूल्यांकन बदलेगा
अगर 120b model के अच्छे execution logs इकट्ठा करके 20b version को fine-tuning दिया जाए, तो वह काफ़ी उपयोगी हो सकता है
reasoning_effort बढ़ाने पर यह काफ़ी ठीक परिणाम देता है, लेकिन 64GB memory limit की वजह से 20b improvement ज़्यादा व्यावहारिक लगती है
पुराने git project की code cleanup, documentation, test जोड़ने जैसे कामों के लिए यह काफ़ी उपयोगी था
हो सकता है मेरे मानक कम हों, लेकिन local coding assistant के रूप में मैं इससे काफ़ी संतुष्ट हूँ
हाई-परफॉर्मेंस GPU और memory production बढ़ने के साथ, और model optimization आगे बढ़ने पर, mid-range hardware पर भी काफ़ी अच्छा प्रदर्शन मिल सकता है
local deployment के लिए Dynamic Unsloth GGUF को Hugging Face पर अपलोड किया गया है,
और Claude Code / Codex को local में इस्तेमाल करने के लिए guide भी लिखी गई है
Radeon RX 7900 XTX आधारित environment में llama.cpp server चलाया गया, और ctx-size 32768 setting के साथ यह स्थिरता से चला
यह सवाल भी आया कि Qwen3 के default GGUF की बजाय Unsloth version क्यों इस्तेमाल करना चाहिए
Homebrew से llama.cpp install करके Unsloth quantized model को local में चलाया गया
CLI interface और OpenAI-compatible API server दोनों एक साथ चल सके, और लगभग 28GB RAM इस्तेमाल हुई
अगर यह model सचमुच दावे के मुताबिक 3B active parameters के साथ Sonnet 4.5 स्तर की coding performance देता है, तो यह बहुत बड़ी बात है
आसान समस्याओं में भी errors थे, और कभी-कभी यह thinking loop में फँस जाता था
यह शुरुआती implementation bug भी हो सकता है, लेकिन अभी के लिए performance claim बढ़ा-चढ़ाकर किया गया लगता है
Qwen3 Coder 30B को Mac M4 Max(36GB) पर local में चलाकर देखा
यह धीमा था, लेकिन काम कर गया, और काफ़ी अच्छे नतीजे दिए
demo video और setup blog साझा किए गए
6GB VRAM laptop पर 17 tok/s मिला, और अधिकतम 100k context तक संभव था
यह चौंकाने वाला था, लेकिन speed धीमी होने की वजह से आखिरकार cloud inference का इस्तेमाल जारी रखने की योजना है
[docker-compose setting example] साझा किया गया
DGX Spark + vLLM 0.15.1 environment में FP8 model को benchmark किया गया
single request पर लगभग 43 tok/s, और parallel requests में अधिकतम 62 tok/s तक पहुँचा
llama.cpp का 4-bit quantized version लगभग 30~35 tok/s देता है, और 200k context पर भी सिर्फ 50GB RAM इस्तेमाल करता है
3B active parameters के साथ यह GLM 4.7 से थोड़ा कम प्रदर्शन दिखाता है, लेकिन efficiency चौंकाने वाली है
यह तेज़ है, और अगर किसी सरल coding agent को orchestrator के साथ इस्तेमाल किया जाए, तो कुल speed और बेहतर हो सकती है
code scan, library search, और SourceGraph exploration जैसे दोहराए जाने वाले काम automate कर रहा हूँ
Mastra के Workspace feature की वजह से अधिक शक्तिशाली agent-style development संभव हुआ है
lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 को Strix Halo पर चलाकर देखा,
32 tok/s और 128k context तक संभव था। MiniMax M2.1 Q6 से थोड़ा कमज़ोर, लेकिन प्रभावशाली लगा
FP8 में 110GB का उपयोग हुआ और सिर्फ 16k context ही मिल सका
Rust code generation में इसे आज़माया गया और यह काफ़ी सक्षम लगा। अगर speed सुधर जाए, तो यह वास्तव में उपयोगी हो सकता है
लगता है कि जल्द ही API providers इस model को सस्ते में service करना शुरू करेंगे
जानना चाहता हूँ कि local models की ranking पर भरोसा करने लायक जगह कहाँ है
benchmark इतने manipulated लगते हैं कि व्यक्तिगत reviews ज़्यादा अर्थपूर्ण लगते हैं
code, voice, image, summary, music जैसे domain-wise बेहतरीन models को व्यवस्थित करने वाली कोई जगह है क्या