- कुल 35 अरब parameters में से केवल 3 अरब ही सक्रिय होने वाली sparse Mixture-of-Experts(MoE) संरचना वाला यह एक open source मॉडल है, जो efficiency और performance दोनों हासिल करता है
- पिछली पीढ़ी की तुलना में इसकी agentic coding क्षमता में बड़ा सुधार हुआ है, और यह Qwen3.5-27B या Gemma4-31B जैसे बड़े dense मॉडलों के बराबर प्रतिस्पर्धी स्तर दिखाता है
- SWE-bench, Terminal-Bench, Claw-Eval जैसे प्रमुख coding benchmarks में इसने उच्च स्कोर दर्ज किए हैं, और multimodal tasks में भी Claude Sonnet 4.5 स्तर का प्रदर्शन हासिल किया है
- Alibaba Cloud Model Studio API, Hugging Face, और ModelScope के जरिए open weights और API access उपलब्ध हैं, तथा OpenClaw·Claude Code जैसे कई coding tools के साथ integration का समर्थन है
- 3 अरब सक्रिय parameters के साथ यह बड़े मॉडलों की बराबरी करने वाले efficient open model के नए मानक का प्रस्ताव रखता है
Qwen3.6-35B-A3B अवलोकन
- Qwen3.6-35B-A3B एक sparse Mixture-of-Experts(MoE) मॉडल है, जिसमें कुल 35 अरब parameters में से केवल 3 अरब सक्रिय होते हैं; यह efficiency और performance दोनों से लैस एक open source मॉडल है
- पिछले संस्करण Qwen3.5-35B-A3B की तुलना में इसकी agentic coding performance में बड़ा सुधार हुआ है, और यह Qwen3.5-27B या Gemma4-31B जैसे बड़े dense मॉडलों से प्रतिस्पर्धा करने योग्य स्तर दिखाता है
- यह multimodal reasoning और non-reasoning modes दोनों का समर्थन करता है, और Qwen Studio, API, Hugging Face, तथा ModelScope के माध्यम से उपलब्ध है
- मॉडल को Qwen Studio में interactive तरीके से इस्तेमाल किया जा सकता है, Alibaba Cloud Model Studio API(
qwen3.6-flash) के जरिए कॉल किया जा सकता है, या सीधे self-host भी किया जा सकता है
प्रदर्शन मूल्यांकन
-
भाषा और coding प्रदर्शन
- Qwen3.6-35B-A3B केवल 3 अरब सक्रिय parameters के साथ कई प्रमुख coding benchmarks में Qwen3.5-27B (27 अरब parameters वाला dense मॉडल) से बेहतर प्रदर्शन करता है
- SWE-bench Verified 73.4, Terminal-Bench 51.5, और Claw-Eval औसत 68.7 जैसे स्कोर दर्ज किए गए
- QwenWebBench (web code generation benchmark) में इसने 1397 अंक हासिल किए, जो समान श्रेणी के मॉडलों में शीर्ष स्तर का प्रदर्शन है
- सामान्य agent benchmarks (MCPMark, MCP-Atlas, WideSearch आदि) में भी इसने प्रतिस्पर्धी मॉडलों की तुलना में बेहतर परिणाम दिखाए
- ज्ञान और reasoning से जुड़े MMLU-Pro, GPQA, AIME26 आदि में भी इसने उच्च accuracy बनाए रखी
-
मूल्यांकन वातावरण
- SWE-Bench श्रृंखला का मूल्यांकन 200K context window में, आंतरिक agent scaffold (bash + file-edit tools) के आधार पर किया गया
- Terminal-Bench 2.0 को 3 घंटे की सीमा, 32 CPU/48GB RAM वातावरण में 5 रन के औसत पर मापा गया
- SkillsBench का मूल्यांकन API-dependent tasks को छोड़कर 78 कार्यों पर किया गया
- QwenClawBench और QwenWebBench आंतरिक वास्तविक उपयोग वितरण पर आधारित benchmarks हैं, जो वास्तविक user environment को दर्शाते हैं
-
vision-language प्रदर्शन
- Qwen3.6-35B-A3B एक native multimodal model है, जो केवल 3 अरब सक्रिय parameters के साथ Claude Sonnet 4.5 स्तर का प्रदर्शन हासिल करता है
- RefCOCO (spatial recognition) 92.0, ODInW13 50.8 के साथ spatial intelligence में इसकी मजबूत क्षमता दिखती है
- RealWorldQA 85.3, MMBench EN-DEV 92.8, OmniDocBench1.5 89.9 जैसे विभिन्न vision-language tasks में भी उच्च स्कोर दर्ज किए गए
- video understanding benchmarks (VideoMME, VideoMMMU, MLVU आदि) में भी इसने 80~86 के दायरे में स्थिर प्रदर्शन बनाए रखा
Qwen3.6-35B-A3B का उपयोग
-
deployment और access
- Alibaba Cloud Model Studio API(
qwen3.6-flash) के माध्यम से इसका उपयोग किया जा सकता है, और Hugging Face तथा ModelScope से open weights डाउनलोड किए जा सकते हैं - Qwen Studio में इसे तुरंत आज़माया जा सकता है, और OpenClaw, Claude Code, Qwen Code जैसे third-party coding assistants के साथ integration समर्थित है
- Alibaba Cloud Model Studio API(
-
API उपयोग
- यह
preserve_thinkingफीचर का समर्थन करता है, जिससे पिछली बातचीत की thinking सामग्री बनी रहती है और यह agentic tasks के लिए उपयुक्त बनता है - Alibaba Cloud Model Studio, OpenAI और Anthropic API specifications के साथ compatible chat completions API प्रदान करता है
- उदाहरण code में
enable_thinkingविकल्प के जरिए reasoning trace और final answer को अलग-अलग आउटपुट किया जा सकता है
- यह
-
OpenClaw integration
- Qwen3.6-35B-A3B OpenClaw (पूर्व Moltbot/Clawdbot) के साथ compatible है, और Model Studio से कनेक्ट होकर terminal-based agent coding environment प्रदान करता है
- configuration file (
~/.openclaw/openclaw.json) में Model Studio API जानकारी मर्ज करके इसका उपयोग किया जाता है - इसे Node.js 22 या उससे ऊपर के वातावरण में install और run किया जा सकता है
-
Qwen Code integration
- Qwen श्रृंखला के लिए अनुकूलित Qwen Code (terminal के लिए open source AI agent) के साथ यह पूरी तरह compatible है
- Node.js 20 या उससे ऊपर में install करने के बाद
/authcommand से authentication प्रक्रिया पूरी की जा सकती है
-
Claude Code integration
- Anthropic API protocol के समर्थन के कारण इसे Claude Code में भी सीधे इस्तेमाल किया जा सकता है
- environment variable के रूप में
ANTHROPIC_MODEL="qwen3.6-flash"सेट करने के बाद CLI चलाया जा सकता है
सारांश और आगे की दिशा
- Qwen3.6-35B-A3B ने sparse MoE संरचना के साथ भी बड़े dense मॉडलों के बराबर agentic coding और reasoning क्षमता साबित की है
- 3 अरब सक्रिय parameters के साथ यह efficiency और performance दोनों हासिल करता है, और multimodal benchmarks में भी उत्कृष्ट परिणाम दिखाता है
- पूर्ण open source checkpoint के रूप में जारी होकर यह efficient open model के नए मानक को प्रस्तुत करता है
- Qwen टीम आगे भी Qwen3.6 open source family का विस्तार जारी रखने की योजना रखती है, और community के feedback व उपयोग की अपेक्षा करती है
उद्धरण जानकारी
@misc{qwen36_35b_a3b, title = {Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All}, url = {https://qwen.ai/blog?id=qwen3.6-35b-a3b}, author = {Qwen Team}, month = {April}, year = {2026}}
1 टिप्पणियां
Hacker News प्रतिक्रियाएँ
मैंने अपने लैपटॉप पर LM Studio से Unsloth 20.9GB GGUF वर्ज़न चलाकर देखा
मॉडल लिंक
हैरानी की बात यह रही कि इसने Opus 4.7 से भी बेहतर साइकिल चलाते पेलिकन की ड्रॉइंग बनाई
तुलना के लिए Simon Willison की पोस्ट देखें
मेरे आउटपुट में आसमान में सूरज और बादल, घास जैसी पतली हरी रेखाएँ, और हेलो वाले सूरज जैसा इफेक्ट था
Simon के रिज़ल्ट जैसा ‘हवा के बहाव’ का एहसास भी था, लेकिन आखिर में असली बात पेलिकन और साइकिल ही है
Shoggoth.db प्रोजेक्ट में wiki एक्सप्लोरेशन + ऑटोमैटिक DB बिल्डिंग के काम में इसे इस्तेमाल किया
Qwen3.5 की तुलना में नई जीव प्रजातियों को खोजने की इसकी क्षमता बेहतर लगी
स्पीड भी लगभग 140 token/s तक तेज़ हो गई, और RTX 4090 पर मेमोरी ऑफलोड के बिना यह स्थिरता से चला
हालांकि, multimodal conflict से बचने के लिए
--no-mmproj-offloadऑप्शन लगाना पड़ाशुरू में इनका मकसद ऐसे अजीब prompts से मॉडल की रचनात्मकता परखना था जिनके बारे में किसी ने सोचा न हो, लेकिन अब यह किसी internal benchmark जैसा लगने लगा है
वह टायर पर बैठा है, चोंच की जगह भी अजीब है, और spokes और टांगों का अनुपात भी असहज लगता है
चश्मा भी आधा पारदर्शी है, इसलिए सिर्फ एक आँख दिखती है
क्यूट तो है, लेकिन मांगे बिना जोड़े गए bowtie और accessories की वजह से मैं तो उसे कम अंक दूँगा
Opus का रिज़ल्ट कम चमकदार था, लेकिन ज़्यादा सटीक था
आखिरकार मौजूदा मॉडल अभी भी बस probabilistic sentence generators ही लगते हैं
अच्छा लगा कि Qwen टीम लगातार open weights रिलीज़ कर रही है
संबंधित खबर 1, खबर 2
Junyang Lin जैसे प्रमुख लोगों के जाने के बाद भी प्रोजेक्ट का जारी रहना प्रभावशाली है
छोटे साइज़ वाले मॉडल शायद जल्द रिलीज़ होंगे, लेकिन मुख्य 397A17B मॉडल इसमें शामिल नहीं लगता
Unsloth का quantized और converted किया हुआ वर्ज़न पहले से मौजूद है
Hugging Face लिंक
इसलिए स्थिर वर्ज़न के लिए लगभग एक हफ्ते बाद फिर देखना बेहतर रहता है
शुरुआती bugs की वजह से अच्छे मॉडल भी कम आंके जा सकते हैं
quantization process जटिल है और quality drop का जोखिम भी है, इसलिए शायद बेहतर हो कि मूल डेवलपर ही इसे संभाले
खराब quant वर्ज़न से मॉडल की reputation भी बिगड़ सकती है
और बेहतर format के क्या फायदे होते हैं
अगर quantization की बुनियादी अवधारणा भी साथ में समझा दी जाए तो अच्छा होगा
ollama run claudeकमांड से भी इस मॉडल का इस्तेमाल किया जा सकता है?Qwen टीम की यह रिलीज़ देखकर खुशी हुई
छोटे open-weight coding models उन डेवलपमेंट टीमों के लिए उपयोगी हैं जिन्हें कुछ उद्योगों (जैसे finance, healthcare) में
cloud access की सीमाओं के बीच custom agents बनाने होते हैं
पश्चिमी दुनिया में इस बाज़ार को लगभग कोई नहीं छूता, Mistral शायद एकमात्र अपवाद है
बाकी AI कंपनियाँ तो जैसे सिर्फ short-term revenue के पीछे भाग रही हैं
अगर काम गंभीर है, तो ऐसे hardware में निवेश करना चाहिए जिस पर बड़े मॉडल खुद चलाए जा सकें
करीब 100,000 डॉलर के हार्डवेयर से बड़े मॉडल on-premise चलाए जा सकते हैं
Qwen की language embedding characteristics दिलचस्प हैं
संबंधित विश्लेषण ट्वीट
कहा जा रहा है कि Qwen दूसरे मॉडलों से अलग exam-centric basin में स्थित है
Qwen के एक executive ने Twitter पर पोल डाला था कि लोग कौन-सा मॉडल open source में देखना चाहते हैं,
और 27B वर्ज़न सबसे लोकप्रिय होने के बावजूद रिलीज़ नहीं हुआ
A3B architecture की distillation तेज़ होती है, इसलिए यह जल्द आ सकता है
बाद वाला ज़्यादा तेज़ और ज़्यादा ‘स्मार्ट’ महसूस होता है
समान VRAM में 27B dense model बड़ा context संभाल सकता है, इसलिए quality बेहतर हो सकती है
लोकल टेस्टिंग में मैंने Qwen3.5-35B-A3B का काफी इस्तेमाल किया है,
और यह मेरे हार्डवेयर पर चलने वाले मॉडलों में सबसे शक्तिशाली था
खासकर Mudler APEX-I-Quality और Byteshape Q3_K_S-3.40bpw quant वर्ज़न प्रभावशाली लगे
RTX 3060 12GB सेटअप में मेमोरी का मार्जिन मिला और स्पीड भी 40 t/s से ऊपर चली गई
जिन प्रोजेक्ट सुधारों पर पहले अटक जाता था, अब उन्हें खुद कर लेता है
मैं इसी तरह की AI software releases का सबसे ज़्यादा इंतज़ार करता हूँ
न कोई बढ़ा-चढ़ाकर किया गया जोखिम मार्केटिंग, न सब्सक्रिप्शन फीस, बस एक ऐसा मॉडल जिसे सच में आज़माने का मन हो
कि ज़्यादातर use cases में वे व्यावहारिक बन सकें
उत्सुक हूँ कि लोग ऐसे local models को वास्तव में कैसे इस्तेमाल करते हैं
Anthropic या OpenAI के tokens किराये पर लेने के बजाय इनमें क्या खास value है, यह जानना चाहता हूँ
दस्तावेज़ों के format बहुत अलग-अलग होते हैं, इसलिए पहले complex rule-based pipeline चलानी पड़ती थी,
लेकिन अब multimodal capability की मदद से language + vision extraction संभव हो गया है
यह video analysis के लिए काफ़ी उपयोगी है, और text summarization या translation बड़े मॉडल से कर लेता हूँ
अगर real-time ज़रूरी न हो, तो speed से ज़्यादा quality महत्वपूर्ण होती है, इसलिए यह batch processing के लिए उपयुक्त है
मुझे पूरी तरह private self-hosted model चाहिए
SaaS सेवाओं के बंद हो जाने से मैं थक चुका हूँ, इसलिए मुझे लगता है कि LLM भी आखिरकार self-hosting की ओर ही जाएँगे
बिना token limits और बिना speed throttling के GPU का 100% उपयोग कर पाया
उदाहरण के लिए, मैं iPhone पर Gemma 4 को offline translator की तरह इस्तेमाल करता हूँ,
और यह Apple Translate से तेज़ और ज़्यादा सटीक है
छोटे JSON edit tasks जैसे कामों में local model कहीं अधिक कुशल होता है