4 पॉइंट द्वारा GN⁺ 2026-04-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • कुल 35 अरब parameters में से केवल 3 अरब ही सक्रिय होने वाली sparse Mixture-of-Experts(MoE) संरचना वाला यह एक open source मॉडल है, जो efficiency और performance दोनों हासिल करता है
  • पिछली पीढ़ी की तुलना में इसकी agentic coding क्षमता में बड़ा सुधार हुआ है, और यह Qwen3.5-27B या Gemma4-31B जैसे बड़े dense मॉडलों के बराबर प्रतिस्पर्धी स्तर दिखाता है
  • SWE-bench, Terminal-Bench, Claw-Eval जैसे प्रमुख coding benchmarks में इसने उच्च स्कोर दर्ज किए हैं, और multimodal tasks में भी Claude Sonnet 4.5 स्तर का प्रदर्शन हासिल किया है
  • Alibaba Cloud Model Studio API, Hugging Face, और ModelScope के जरिए open weights और API access उपलब्ध हैं, तथा OpenClaw·Claude Code जैसे कई coding tools के साथ integration का समर्थन है
  • 3 अरब सक्रिय parameters के साथ यह बड़े मॉडलों की बराबरी करने वाले efficient open model के नए मानक का प्रस्ताव रखता है

Qwen3.6-35B-A3B अवलोकन

  • Qwen3.6-35B-A3B एक sparse Mixture-of-Experts(MoE) मॉडल है, जिसमें कुल 35 अरब parameters में से केवल 3 अरब सक्रिय होते हैं; यह efficiency और performance दोनों से लैस एक open source मॉडल है
  • पिछले संस्करण Qwen3.5-35B-A3B की तुलना में इसकी agentic coding performance में बड़ा सुधार हुआ है, और यह Qwen3.5-27B या Gemma4-31B जैसे बड़े dense मॉडलों से प्रतिस्पर्धा करने योग्य स्तर दिखाता है
  • यह multimodal reasoning और non-reasoning modes दोनों का समर्थन करता है, और Qwen Studio, API, Hugging Face, तथा ModelScope के माध्यम से उपलब्ध है
  • मॉडल को Qwen Studio में interactive तरीके से इस्तेमाल किया जा सकता है, Alibaba Cloud Model Studio API(qwen3.6-flash) के जरिए कॉल किया जा सकता है, या सीधे self-host भी किया जा सकता है

प्रदर्शन मूल्यांकन

  • भाषा और coding प्रदर्शन

    • Qwen3.6-35B-A3B केवल 3 अरब सक्रिय parameters के साथ कई प्रमुख coding benchmarks में Qwen3.5-27B (27 अरब parameters वाला dense मॉडल) से बेहतर प्रदर्शन करता है
    • SWE-bench Verified 73.4, Terminal-Bench 51.5, और Claw-Eval औसत 68.7 जैसे स्कोर दर्ज किए गए
    • QwenWebBench (web code generation benchmark) में इसने 1397 अंक हासिल किए, जो समान श्रेणी के मॉडलों में शीर्ष स्तर का प्रदर्शन है
    • सामान्य agent benchmarks (MCPMark, MCP-Atlas, WideSearch आदि) में भी इसने प्रतिस्पर्धी मॉडलों की तुलना में बेहतर परिणाम दिखाए
    • ज्ञान और reasoning से जुड़े MMLU-Pro, GPQA, AIME26 आदि में भी इसने उच्च accuracy बनाए रखी
  • मूल्यांकन वातावरण

    • SWE-Bench श्रृंखला का मूल्यांकन 200K context window में, आंतरिक agent scaffold (bash + file-edit tools) के आधार पर किया गया
    • Terminal-Bench 2.0 को 3 घंटे की सीमा, 32 CPU/48GB RAM वातावरण में 5 रन के औसत पर मापा गया
    • SkillsBench का मूल्यांकन API-dependent tasks को छोड़कर 78 कार्यों पर किया गया
    • QwenClawBench और QwenWebBench आंतरिक वास्तविक उपयोग वितरण पर आधारित benchmarks हैं, जो वास्तविक user environment को दर्शाते हैं
  • vision-language प्रदर्शन

    • Qwen3.6-35B-A3B एक native multimodal model है, जो केवल 3 अरब सक्रिय parameters के साथ Claude Sonnet 4.5 स्तर का प्रदर्शन हासिल करता है
    • RefCOCO (spatial recognition) 92.0, ODInW13 50.8 के साथ spatial intelligence में इसकी मजबूत क्षमता दिखती है
    • RealWorldQA 85.3, MMBench EN-DEV 92.8, OmniDocBench1.5 89.9 जैसे विभिन्न vision-language tasks में भी उच्च स्कोर दर्ज किए गए
    • video understanding benchmarks (VideoMME, VideoMMMU, MLVU आदि) में भी इसने 80~86 के दायरे में स्थिर प्रदर्शन बनाए रखा

Qwen3.6-35B-A3B का उपयोग

  • deployment और access

    • Alibaba Cloud Model Studio API(qwen3.6-flash) के माध्यम से इसका उपयोग किया जा सकता है, और Hugging Face तथा ModelScope से open weights डाउनलोड किए जा सकते हैं
    • Qwen Studio में इसे तुरंत आज़माया जा सकता है, और OpenClaw, Claude Code, Qwen Code जैसे third-party coding assistants के साथ integration समर्थित है
  • API उपयोग

    • यह preserve_thinking फीचर का समर्थन करता है, जिससे पिछली बातचीत की thinking सामग्री बनी रहती है और यह agentic tasks के लिए उपयुक्त बनता है
    • Alibaba Cloud Model Studio, OpenAI और Anthropic API specifications के साथ compatible chat completions API प्रदान करता है
    • उदाहरण code में enable_thinking विकल्प के जरिए reasoning trace और final answer को अलग-अलग आउटपुट किया जा सकता है
  • OpenClaw integration

    • Qwen3.6-35B-A3B OpenClaw (पूर्व Moltbot/Clawdbot) के साथ compatible है, और Model Studio से कनेक्ट होकर terminal-based agent coding environment प्रदान करता है
    • configuration file (~/.openclaw/openclaw.json) में Model Studio API जानकारी मर्ज करके इसका उपयोग किया जाता है
    • इसे Node.js 22 या उससे ऊपर के वातावरण में install और run किया जा सकता है
  • Qwen Code integration

    • Qwen श्रृंखला के लिए अनुकूलित Qwen Code (terminal के लिए open source AI agent) के साथ यह पूरी तरह compatible है
    • Node.js 20 या उससे ऊपर में install करने के बाद /auth command से authentication प्रक्रिया पूरी की जा सकती है
  • Claude Code integration

    • Anthropic API protocol के समर्थन के कारण इसे Claude Code में भी सीधे इस्तेमाल किया जा सकता है
    • environment variable के रूप में ANTHROPIC_MODEL="qwen3.6-flash" सेट करने के बाद CLI चलाया जा सकता है

सारांश और आगे की दिशा

  • Qwen3.6-35B-A3B ने sparse MoE संरचना के साथ भी बड़े dense मॉडलों के बराबर agentic coding और reasoning क्षमता साबित की है
  • 3 अरब सक्रिय parameters के साथ यह efficiency और performance दोनों हासिल करता है, और multimodal benchmarks में भी उत्कृष्ट परिणाम दिखाता है
  • पूर्ण open source checkpoint के रूप में जारी होकर यह efficient open model के नए मानक को प्रस्तुत करता है
  • Qwen टीम आगे भी Qwen3.6 open source family का विस्तार जारी रखने की योजना रखती है, और community के feedback व उपयोग की अपेक्षा करती है

उद्धरण जानकारी

1 टिप्पणियां

 
GN⁺ 2026-04-17
Hacker News प्रतिक्रियाएँ
  • मैंने अपने लैपटॉप पर LM Studio से Unsloth 20.9GB GGUF वर्ज़न चलाकर देखा
    मॉडल लिंक
    हैरानी की बात यह रही कि इसने Opus 4.7 से भी बेहतर साइकिल चलाते पेलिकन की ड्रॉइंग बनाई
    तुलना के लिए Simon Willison की पोस्ट देखें

    • मैंने उसी मॉडल के साथ इसे फिर से दोहराकर देखा (M1 Max 64GB, 90 सेकंड से कम) — रिज़ल्ट इमेज
      मेरे आउटपुट में आसमान में सूरज और बादल, घास जैसी पतली हरी रेखाएँ, और हेलो वाले सूरज जैसा इफेक्ट था
      Simon के रिज़ल्ट जैसा ‘हवा के बहाव’ का एहसास भी था, लेकिन आखिर में असली बात पेलिकन और साइकिल ही है
    • GGUF लिंक की वजह से मैंने भी इसे आज़माया
      Shoggoth.db प्रोजेक्ट में wiki एक्सप्लोरेशन + ऑटोमैटिक DB बिल्डिंग के काम में इसे इस्तेमाल किया
      Qwen3.5 की तुलना में नई जीव प्रजातियों को खोजने की इसकी क्षमता बेहतर लगी
      स्पीड भी लगभग 140 token/s तक तेज़ हो गई, और RTX 4090 पर मेमोरी ऑफलोड के बिना यह स्थिरता से चला
      हालांकि, multimodal conflict से बचने के लिए --no-mmproj-offload ऑप्शन लगाना पड़ा
    • सोचता हूँ कि ‘साइकिल चलाते पेलिकन’ जैसे टेस्ट कब बेकार हो जाएंगे
      शुरू में इनका मकसद ऐसे अजीब prompts से मॉडल की रचनात्मकता परखना था जिनके बारे में किसी ने सोचा न हो, लेकिन अब यह किसी internal benchmark जैसा लगने लगा है
    • मुझे समझ नहीं आया कि Qwen की flamingo वाली ड्रॉइंग क्यों जीती
      वह टायर पर बैठा है, चोंच की जगह भी अजीब है, और spokes और टांगों का अनुपात भी असहज लगता है
      चश्मा भी आधा पारदर्शी है, इसलिए सिर्फ एक आँख दिखती है
      क्यूट तो है, लेकिन मांगे बिना जोड़े गए bowtie और accessories की वजह से मैं तो उसे कम अंक दूँगा
      Opus का रिज़ल्ट कम चमकदार था, लेकिन ज़्यादा सटीक था
    • तस्वीरों को जितना ज़्यादा देखता हूँ, उतना लगता है कि world model अभी भी गायब पहेली का टुकड़ा है
      आखिरकार मौजूदा मॉडल अभी भी बस probabilistic sentence generators ही लगते हैं
  • अच्छा लगा कि Qwen टीम लगातार open weights रिलीज़ कर रही है
    संबंधित खबर 1, खबर 2
    Junyang Lin जैसे प्रमुख लोगों के जाने के बाद भी प्रोजेक्ट का जारी रहना प्रभावशाली है

    • यह Qwen 3.6 सीरीज़ के कई मॉडलों में से सिर्फ एक है
      छोटे साइज़ वाले मॉडल शायद जल्द रिलीज़ होंगे, लेकिन मुख्य 397A17B मॉडल इसमें शामिल नहीं लगता
    • मेरी निजी इच्छा है कि qwen-image 2.0 के open weights भी रिलीज़ हों
  • Unsloth का quantized और converted किया हुआ वर्ज़न पहले से मौजूद है
    Hugging Face लिंक

    • Unsloth जल्दी experimental quants अपलोड कर देता है, लेकिन रिलीज़ के तुरंत बाद वाले वर्ज़न अक्सर बाद में सुधारे जाते हैं
      इसलिए स्थिर वर्ज़न के लिए लगभग एक हफ्ते बाद फिर देखना बेहतर रहता है
      शुरुआती bugs की वजह से अच्छे मॉडल भी कम आंके जा सकते हैं
    • सोचता हूँ कि Qwen खुद quantized मॉडल क्यों नहीं देता
      quantization process जटिल है और quality drop का जोखिम भी है, इसलिए शायद बेहतर हो कि मूल डेवलपर ही इसे संभाले
      खराब quant वर्ज़न से मॉडल की reputation भी बिगड़ सकती है
    • VRAM की ज़रूरत कितनी है, यह जानना चाहता हूँ। क्या इसे 16GB GPU पर चलाया जा सकता है?
    • जानना चाहता हूँ कि Qwen की default quantization खराब क्यों मानी जाती है, Unsloth आखिर है कौन,
      और बेहतर format के क्या फायदे होते हैं
      अगर quantization की बुनियादी अवधारणा भी साथ में समझा दी जाए तो अच्छा होगा
    • क्या ollama run claude कमांड से भी इस मॉडल का इस्तेमाल किया जा सकता है?
  • Qwen टीम की यह रिलीज़ देखकर खुशी हुई
    छोटे open-weight coding models उन डेवलपमेंट टीमों के लिए उपयोगी हैं जिन्हें कुछ उद्योगों (जैसे finance, healthcare) में
    cloud access की सीमाओं के बीच custom agents बनाने होते हैं
    पश्चिमी दुनिया में इस बाज़ार को लगभग कोई नहीं छूता, Mistral शायद एकमात्र अपवाद है

    • Mistral ही शायद एकमात्र कंपनी लगती है जो sustainable business model की ओर बढ़ रही है
      बाकी AI कंपनियाँ तो जैसे सिर्फ short-term revenue के पीछे भाग रही हैं
    • छोटे open models मज़ेदार हैं, लेकिन बड़े hosted models से इनकी तुलना ही अलग स्तर की है
      अगर काम गंभीर है, तो ऐसे hardware में निवेश करना चाहिए जिस पर बड़े मॉडल खुद चलाए जा सकें
    • सहमत हूँ, लेकिन ऐसे छोटे मॉडल असली industrial use के लिए अब भी अपर्याप्त हैं
      करीब 100,000 डॉलर के हार्डवेयर से बड़े मॉडल on-premise चलाए जा सकते हैं
    • open-weight competitive model बनाना शानदार है, लेकिन लागत बहुत ज़्यादा है
    • regulated industries में यह कैसे verify किया जाए कि मॉडल को malicious data पर train नहीं किया गया, यह जानने की उत्सुकता है
  • Qwen की language embedding characteristics दिलचस्प हैं
    संबंधित विश्लेषण ट्वीट
    कहा जा रहा है कि Qwen दूसरे मॉडलों से अलग exam-centric basin में स्थित है

  • Qwen के एक executive ने Twitter पर पोल डाला था कि लोग कौन-सा मॉडल open source में देखना चाहते हैं,
    और 27B वर्ज़न सबसे लोकप्रिय होने के बावजूद रिलीज़ नहीं हुआ

    • संभव है कि 3.5 की तरह इसे distillation process से गुज़ारकर चरणबद्ध तरीके से रिलीज़ किया जाए
      A3B architecture की distillation तेज़ होती है, इसलिए यह जल्द आ सकता है
    • 27B एक dense model है, इसलिए marketing के हिसाब से यह 35A3B जितना आकर्षक नहीं है
      बाद वाला ज़्यादा तेज़ और ज़्यादा ‘स्मार्ट’ महसूस होता है
    • शायद यह जल्द आ जाएगा
    • निजी तौर पर मुझे MoE architecture अक्षम लगता है
      समान VRAM में 27B dense model बड़ा context संभाल सकता है, इसलिए quality बेहतर हो सकती है
  • लोकल टेस्टिंग में मैंने Qwen3.5-35B-A3B का काफी इस्तेमाल किया है,
    और यह मेरे हार्डवेयर पर चलने वाले मॉडलों में सबसे शक्तिशाली था
    खासकर Mudler APEX-I-Quality और Byteshape Q3_K_S-3.40bpw quant वर्ज़न प्रभावशाली लगे
    RTX 3060 12GB सेटअप में मेमोरी का मार्जिन मिला और स्पीड भी 40 t/s से ऊपर चली गई

    • कई काम करके देखने पर लगा कि Qwen3.6, 3.5 की तुलना में बहुत बड़ी छलांग है
      जिन प्रोजेक्ट सुधारों पर पहले अटक जाता था, अब उन्हें खुद कर लेता है
    • जानना चाहता हूँ कि सबसे अच्छा quant वर्ज़न कौन-सा है
  • मैं इसी तरह की AI software releases का सबसे ज़्यादा इंतज़ार करता हूँ
    न कोई बढ़ा-चढ़ाकर किया गया जोखिम मार्केटिंग, न सब्सक्रिप्शन फीस, बस एक ऐसा मॉडल जिसे सच में आज़माने का मन हो

    • मैं भी यही सोचता हूँ। उम्मीद है कि निकट भविष्य में local models और hardware performance इतने बेहतर हो जाएँ
      कि ज़्यादातर use cases में वे व्यावहारिक बन सकें
  • उत्सुक हूँ कि लोग ऐसे local models को वास्तव में कैसे इस्तेमाल करते हैं
    Anthropic या OpenAI के tokens किराये पर लेने के बजाय इनमें क्या खास value है, यह जानना चाहता हूँ

    • मैं Qwen3.5-9B का इस्तेमाल local OCR table extraction के लिए कर रहा हूँ
      दस्तावेज़ों के format बहुत अलग-अलग होते हैं, इसलिए पहले complex rule-based pipeline चलानी पड़ती थी,
      लेकिन अब multimodal capability की मदद से language + vision extraction संभव हो गया है
    • मैं Frigate नाम के FOSS NVR के साथ Qwen3.5-4B इस्तेमाल करता हूँ
      यह video analysis के लिए काफ़ी उपयोगी है, और text summarization या translation बड़े मॉडल से कर लेता हूँ
      अगर real-time ज़रूरी न हो, तो speed से ज़्यादा quality महत्वपूर्ण होती है, इसलिए यह batch processing के लिए उपयुक्त है
    • मैं token rental model हमेशा के लिए इस्तेमाल नहीं करना चाहता
      मुझे पूरी तरह private self-hosted model चाहिए
      SaaS सेवाओं के बंद हो जाने से मैं थक चुका हूँ, इसलिए मुझे लगता है कि LLM भी आखिरकार self-hosting की ओर ही जाएँगे
    • मैंने vLLM + qwen3-coder-next के साथ लाखों documents batch process किए हैं
      बिना token limits और बिना speed throttling के GPU का 100% उपयोग कर पाया
    • हर काम के लिए SOTA मॉडल ज़रूरी नहीं होते
      उदाहरण के लिए, मैं iPhone पर Gemma 4 को offline translator की तरह इस्तेमाल करता हूँ,
      और यह Apple Translate से तेज़ और ज़्यादा सटीक है
      छोटे JSON edit tasks जैसे कामों में local model कहीं अधिक कुशल होता है