6 पॉइंट द्वारा GN⁺ 2026-02-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen3-Coder-Next को code writing agents और local development environments के लिए डिज़ाइन किया गया एक open-weight language model है, जो hybrid attention और MoE संरचना पर आधारित है
  • इसे बड़े पैमाने पर executable task synthesis, environment interaction, और reinforcement learning के जरिए train किया गया है, जिससे कम inference cost पर भी मजबूत coding और agent capabilities मिलती हैं
  • यह सिर्फ parameter scaling के बजाय agent training signals के विस्तार पर फोकस करता है, और verifiable coding tasks व executable environments का उपयोग करके सीधे feedback सीखता है
  • SWE-Bench Verified में 70% से अधिक स्कोर हासिल किया गया, और SWE-Bench Pro तथा multilingual environments में भी बड़े models के मुकाबले प्रतिस्पर्धी performance दिखाई
  • छोटा model होने के बावजूद इसने efficiency और performance के बीच Pareto balance हासिल किया है, जो cost-efficient agent deployment के लिए महत्वपूर्ण है

Qwen3-Coder-Next का परिचय

  • Qwen3-Coder-Next एक open-weight language model है, जो Qwen3-Next-80B-A3B-Base पर आधारित है
    • इसमें hybrid attention और Mixture of Experts(MoE) संरचना अपनाई गई है
    • इसे बड़े पैमाने पर executable task synthesis, environment interaction, और reinforcement learning के जरिए train किया गया है
  • इसका लक्ष्य coding agents और local development environments में प्रभावी उपयोग है
    • कम inference cost पर भी मजबूत reasoning capability और coding performance प्रदान करता है

agent training को scale करने का तरीका

  • यह model parameter count scaling से अधिक agent training signal scaling पर ध्यान देता है
    • verifiable coding tasks और executable environments को जोड़कर यह environment feedback से सीधे सीखता है
  • training के मुख्य चरण
    • code और agent-केंद्रित data के साथ continuous pretraining
    • high-quality agent trajectory data का उपयोग करके supervised fine-tuning
    • software engineering, QA, web/UX जैसे domains के लिए विशेषज्ञ training
    • कई expert models को एक single deployable model में distill करना
  • यह approach long-horizon reasoning, tool use, और execution failure recovery की क्षमता को मजबूत बनाता है

coding agent benchmark performance

  • SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0, Aider सहित कई benchmarks पर इसका मूल्यांकन किया गया
    • SWE-Bench Verified में 70% से अधिक स्कोर हासिल किया
    • SWE-Bench Pro और multilingual environments में भी प्रतिस्पर्धी प्रदर्शन बनाए रखा
    • कम active parameters होने के बावजूद, बड़े open source models के बराबर या उनसे बेहतर प्रदर्शन दिया
  • multi-turn agent tasks में agent turns बढ़ाने पर long-horizon reasoning क्षमता और मजबूत होती दिखी

efficiency और performance का संतुलन

  • Qwen3-Coder-Next (3B active) ने 10~20 गुना बड़े models के समान SWE-Bench-Pro performance हासिल की
  • full-attention based proprietary models absolute performance में आगे हैं, लेकिन Qwen3-Coder-Next cost-to-efficiency के लिहाज से बेहतर Pareto frontier पर स्थित है
  • यह दिखाता है कि यह cost-efficient agent deployment के लिए उपयुक्त model है

डेमो और उपयोग के उदाहरण

  • छोटा और तेज coder model होने के कारण इसे कई application environments में integrate किया जा सकता है
    • OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline आदि में इसका demo दिखाया गया
    • coder.qwen.ai के जरिए web-based उपयोग संभव है

सारांश और आगे की योजना

  • Qwen3-Coder-Next ने coding agent benchmarks में बेहतरीन speed और reasoning capability साबित की है
  • बड़े open source models की तुलना में भी इसने प्रतिस्पर्धी performance दिखाई है, हालांकि सुधार की गुंजाइश अभी भी है
  • आगे चलकर tool-use capability, complex problem solving, और decision-making ability को मजबूत किया जाएगा
    • साथ ही अधिक tasks के समर्थन और user feedback आधारित तेज़ updates की योजना है

1 टिप्पणियां

 
GN⁺ 2026-02-04
Hacker News की राय
  • यह GGUF model 48.4GB आकार का है, और हाई-स्पेक laptop पर भी चल सकता है
    अभी तक मैंने अपने 64GB MacBook Pro पर Codex CLI या Claude Code स्तर का coding agent ठीक से चलाने वाला कोई local model नहीं देखा है
    शायद इस बार बात अलग हो। Unsloth guide देखने पर संभावना लगती है

    • मुझे लगता है कि “local model” की जगह “मेरे computer वाला model” जैसा कोई नया शब्द चाहिए
      सिर्फ उसी machine पर llama.cpp से जुड़ा होने भर को local कहना काफी नहीं है। मेरे लिए local का मतलब LAN model है, यानी ऐसा स्तर जहाँ मैं अपने नियंत्रण वाले hardware पर inference ‘मुफ्त’ में चला सकूँ
      उदाहरण के लिए 5090 + Threadripper + 256GB RAM configuration की कीमत लगभग 10 हज़ार डॉलर है, और MLX route लगभग 6 हज़ार डॉलर का पड़ता है
      model की internal architecture और quantization method वास्तविक memory usage पर बड़ा असर डालते हैं, इसलिए सिर्फ parameter count से तुलना करना धीरे-धीरे कम अर्थपूर्ण होता जा रहा है
      इसलिए standardized hardware baseline पर toolcalling, code generation, document processing जैसे वास्तविक कामों को benchmark करने वाली system की ज़रूरत है
    • मैं Qwen3-Coder-30B-A3B-Instruct gguf को 13GB RAM VM और 6GB RTX 2060 GPU पर चला रहा हूँ
      पुराना Razer Blade laptop होने के बावजूद यह 64k context तक काफ़ी स्थिरता से काम करता है
      छोटे project, bug fix, और UI improvement जैसे कामों के लिए यह काफ़ी उपयोगी है
      लेकिन “usable” का मानक हर व्यक्ति के लिए अलग हो सकता है। कौन-सा काम आज़माया गया, उसके हिसाब से मूल्यांकन बदलेगा
    • मैंने GPT-OSS-120b (MXFP4) को Codex के साथ इस्तेमाल किया है, और यह लगभग 66GB VRAM इस्तेमाल करता है
      अगर 120b model के अच्छे execution logs इकट्ठा करके 20b version को fine-tuning दिया जाए, तो वह काफ़ी उपयोगी हो सकता है
      reasoning_effort बढ़ाने पर यह काफ़ी ठीक परिणाम देता है, लेकिन 64GB memory limit की वजह से 20b improvement ज़्यादा व्यावहारिक लगती है
    • मैंने Claude Code को local model (ollama run glm-4.7-flash) के साथ सेट करके 32GB M2Pro Mac mini पर चलाया
      पुराने git project की code cleanup, documentation, test जोड़ने जैसे कामों के लिए यह काफ़ी उपयोगी था
      हो सकता है मेरे मानक कम हों, लेकिन local coding assistant के रूप में मैं इससे काफ़ी संतुष्ट हूँ
    • अगले लगभग 5 साल में शायद ज़्यादातर models local execution के लिए सक्षम हो जाएंगे
      हाई-परफॉर्मेंस GPU और memory production बढ़ने के साथ, और model optimization आगे बढ़ने पर, mid-range hardware पर भी काफ़ी अच्छा प्रदर्शन मिल सकता है
  • local deployment के लिए Dynamic Unsloth GGUF को Hugging Face पर अपलोड किया गया है,
    और Claude Code / Codex को local में इस्तेमाल करने के लिए guide भी लिखी गई है

    • मेरे system पर यह लगभग 39 tok/s और GPU usage 60% के स्तर पर चलता है
      Radeon RX 7900 XTX आधारित environment में llama.cpp server चलाया गया, और ctx-size 32768 setting के साथ यह स्थिरता से चला
    • feedback मिला कि Framework Desktop में मेरा model इस्तेमाल किया जा रहा है
      यह सवाल भी आया कि Qwen3 के default GGUF की बजाय Unsloth version क्यों इस्तेमाल करना चाहिए
    • ऐसी माँग भी थी कि IQuest-Coder को भी इसी तरह उपलब्ध कराया जाए
    • UD version और सामान्य version के अंतर पर भी सवाल आया
    • “इसे इतनी जल्दी कैसे बना लिया” जैसी हैरानी भरी प्रतिक्रिया भी थी
  • Homebrew से llama.cpp install करके Unsloth quantized model को local में चलाया गया
    CLI interface और OpenAI-compatible API server दोनों एक साथ चल सके, और लगभग 28GB RAM इस्तेमाल हुई

    • किसी ने पूछा कि token speed (token/s) कितनी मिल रही है
    • एक और व्यक्ति overall impression जानना चाहता था
  • अगर यह model सचमुच दावे के मुताबिक 3B active parameters के साथ Sonnet 4.5 स्तर की coding performance देता है, तो यह बहुत बड़ी बात है

    • मैंने Q2, Q4 quantized versions को test किया, और local में चलना वाकई चौंकाने वाला है, लेकिन Sonnet 4.5 स्तर नहीं है
      आसान समस्याओं में भी errors थे, और कभी-कभी यह thinking loop में फँस जाता था
      यह शुरुआती implementation bug भी हो सकता है, लेकिन अभी के लिए performance claim बढ़ा-चढ़ाकर किया गया लगता है
    • मेरे अनुभव में यह Haiku स्तर के ज़्यादा क़रीब है
    • “अगर कुछ बहुत अच्छा लगता है, तो शायद वह सच नहीं है” वाली बात याद आती है
  • Qwen3 Coder 30B को Mac M4 Max(36GB) पर local में चलाकर देखा
    यह धीमा था, लेकिन काम कर गया, और काफ़ी अच्छे नतीजे दिए
    demo video और setup blog साझा किए गए

  • 6GB VRAM laptop पर 17 tok/s मिला, और अधिकतम 100k context तक संभव था
    यह चौंकाने वाला था, लेकिन speed धीमी होने की वजह से आखिरकार cloud inference का इस्तेमाल जारी रखने की योजना है
    [docker-compose setting example] साझा किया गया

  • DGX Spark + vLLM 0.15.1 environment में FP8 model को benchmark किया गया
    single request पर लगभग 43 tok/s, और parallel requests में अधिकतम 62 tok/s तक पहुँचा

    • FP8 model को vLLM में चलाया गया, लेकिन execution के दौरान यह BF16 में dequantize हो गया, जिससे memory swap हुआ
      llama.cpp का 4-bit quantized version लगभग 30~35 tok/s देता है, और 200k context पर भी सिर्फ 50GB RAM इस्तेमाल करता है
  • 3B active parameters के साथ यह GLM 4.7 से थोड़ा कम प्रदर्शन दिखाता है, लेकिन efficiency चौंकाने वाली है
    यह तेज़ है, और अगर किसी सरल coding agent को orchestrator के साथ इस्तेमाल किया जाए, तो कुल speed और बेहतर हो सकती है

    • मैं Claude के sub-agent feature का उपयोग करके Mastra-आधारित TypeScript agents को CLI से चला रहा हूँ
      code scan, library search, और SourceGraph exploration जैसे दोहराए जाने वाले काम automate कर रहा हूँ
      Mastra के Workspace feature की वजह से अधिक शक्तिशाली agent-style development संभव हुआ है
    • आखिरकार यह सब तब ज़्यादा व्यापक होगा जब बड़ी AI कंपनियाँ कीमतें बढ़ाएँगी
  • lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 को Strix Halo पर चलाकर देखा,
    32 tok/s और 128k context तक संभव था। MiniMax M2.1 Q6 से थोड़ा कमज़ोर, लेकिन प्रभावशाली लगा

    • Strix Halo कैसा है, इस पर सवाल आया। कुछ लोगों ने बिना quantization के local inference कर सकने वाली machine की इच्छा जताई
    • NVIDIA Spark पर भी मिलते-जुलते आँकड़े मिले, और Q4_K_XL version पर testing चल रही है
      FP8 में 110GB का उपयोग हुआ और सिर्फ 16k context ही मिल सका
      Rust code generation में इसे आज़माया गया और यह काफ़ी सक्षम लगा। अगर speed सुधर जाए, तो यह वास्तव में उपयोगी हो सकता है
      लगता है कि जल्द ही API providers इस model को सस्ते में service करना शुरू करेंगे
  • जानना चाहता हूँ कि local models की ranking पर भरोसा करने लायक जगह कहाँ है
    benchmark इतने manipulated लगते हैं कि व्यक्तिगत reviews ज़्यादा अर्थपूर्ण लगते हैं
    code, voice, image, summary, music जैसे domain-wise बेहतरीन models को व्यवस्थित करने वाली कोई जगह है क्या