Qwen3.6-27B: 27 अरब dense मॉडल में फ़्लैगशिप-स्तरीय coding प्रदर्शन

(qwen.ai)

7 पॉइंट द्वारा GN⁺ 9 일 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

27 अरब पैरामीटर वाला dense multimodal मॉडल जारी किया गया है, जो एक ही unified checkpoint में thinking·non-thinking modes के साथ image·video processing को भी सपोर्ट करता है
agentic coding प्रदर्शन प्रमुख coding benchmarks में पिछली पीढ़ी के open source flagship Qwen3.5-397B-A17B से आगे है, और कुल पैरामीटर संख्या में इससे 15 गुना तक बड़े मॉडलों को भी पीछे छोड़ता है
SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2 दर्ज किए गए, और GPQA Diamond 87.8, AIME26 94.1 जैसे text reasoning और STEM evaluation scores भी साथ में प्रकाशित किए गए
dense architecture अपनाने से MoE routing की जटिलता नहीं रहती, deployment आसान होता है, और open weights, API, Qwen Studio पर तुरंत उपयोग, साथ ही OpenClaw·Qwen Code·Claude Code integration का सपोर्ट मिलता है
यह दिखाता है कि अच्छी तरह प्रशिक्षित dense मॉडल डेवलपरों के मुख्य कार्यों में कहीं बड़े पिछली पीढ़ी के मॉडलों को पार कर सकते हैं, और यह Qwen3.6 श्रृंखला में agentic coding विस्तार की दिशा भी दिखाता है

अवलोकन

Qwen3.6-27B को 27 अरब पैरामीटर वाले dense multimodal मॉडल के रूप में जारी किया गया है, जो multimodal thinking mode और non-thinking mode दोनों को सपोर्ट करता है
agentic coding प्रदर्शन में यह पिछली पीढ़ी के open source flagship Qwen3.5-397B-A17B को प्रमुख coding benchmarks में पार करता है
MoE routing की जटिलता से मुक्त dense architecture के कारण deployment सरल है, और व्यावहारिक तथा व्यापक रूप से deploy किए जा सकने वाले आकार में top-tier coding प्रदर्शन देता है
Qwen Studio में इसे तुरंत इस्तेमाल किया जा सकता है, और community के लिए open weights तथा API access भी उपलब्ध है
इसकी मुख्य विशेषताओं में flagship-स्तरीय agentic coding, मजबूत text reasoning, और multimodal reasoning क्षमता शामिल हैं

प्रदर्शन

Qwen3.6-27B के लिए dense और MoE baseline मॉडलों के मुकाबले समग्र मूल्यांकन प्रस्तुत किया गया है, और agentic coding benchmarks में बड़े सुधार दर्ज किए गए हैं
स्पष्ट रूप से कहा गया है कि इसने कुल पैरामीटर संख्या में 15 गुना तक बड़े मॉडलों को भी पीछे छोड़ा
मूल्यांकन श्रेणियों में language, knowledge, STEM और reasoning, vision-language, document understanding, video understanding, और visual agent शामिल हैं
भाषा
- सिर्फ 27 अरब पैरामीटर के साथ यह प्रमुख coding benchmarks में Qwen3.5-397B-A17B से आगे है
  - SWE-bench Verified 77.2 बनाम 76.2
  - SWE-bench Pro 53.5 बनाम 50.9
  - Terminal-Bench 2.0 59.3 बनाम 52.5
  - SkillsBench 48.2 बनाम 30.0
- समान आकार के अन्य dense मॉडलों से भी यह बड़े अंतर से आगे है
- reasoning tasks में इसने GPQA Diamond 87.8 स्कोर किया, जो अपने से कई गुना बड़े मॉडलों से प्रतिस्पर्धी है
- विस्तृत तालिका में Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, और Qwen3.6-27B की तुलना शामिल है
- Coding Agent श्रेणी के प्रमुख स्कोर
  - SWE-bench Multilingual 71.3
  - QwenWebBench 1487
  - NL2Repo 36.2
  - Claw-Eval Avg 72.4
  - Claw-Eval Pass^3 60.6
  - QwenClawBench 53.4
- Knowledge श्रेणी के प्रमुख स्कोर
  - MMLU-Pro 86.2
  - MMLU-Redux 93.5
  - SuperGPQA 66.0
  - C-Eval 91.4
- STEM और reasoning श्रेणी के प्रमुख स्कोर
  - HLE 24.0
  - LiveCodeBench v6 83.9
  - HMMT Feb 25 93.8
  - HMMT Nov 25 90.7
  - HMMT Feb 26 84.3
  - IMOAnswerBench 80.8
  - AIME26 94.1
भाषा मूल्यांकन सेटिंग्स
- SWE-Bench Series में internal agent scaffold और bash, file-edit tools का उपयोग किया गया, temp 1.0, top_p 0.95, और 200K context window के आधार पर
  - सार्वजनिक SWE-bench Pro set के कुछ समस्याग्रस्त tasks को सुधारकर बने refined benchmark पर सभी baseline models का मूल्यांकन किया गया
- Terminal-Bench 2.0 में Harbor या Terminus-2 harness का उपयोग किया गया
  - 3 घंटे timeout, 32 CPU, 48 GB RAM
  - temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K ctx
  - 5 runs का औसत
- SkillsBench में OpenCode से 78 tasks का मूल्यांकन किया गया
  - API-dependent tasks को हटाकर self-contained subset इस्तेमाल किया गया
  - 5 runs का औसत
- NL2Repo में अन्य मॉडलों का मूल्यांकन Claude Code से किया गया
  - temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench वास्तविक user distribution पर आधारित Claw agent benchmark है
  - temp 0.6, 256K ctx
- QwenWebBench internal frontend code generation benchmark है
  - EN और CN bilingual संरचना
  - Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D की 7 categories
  - auto-render और multimodal judge के जरिए code और visual consistency का मूल्यांकन
  - BT या Elo rating system का उपयोग
- AIME 26 में AIME 2026 I और II पूरे इस्तेमाल किए गए
  - यह भी उल्लेख है कि स्कोर Qwen 3.5 notes से अलग हो सकते हैं
Vision-Language
- Qwen3.6-27B एक single unified checkpoint में vision-language thinking और non-thinking modes दोनों को सपोर्ट करता है
- text के साथ image और video भी प्रोसेस कर सकता है
- multimodal reasoning, document understanding, और visual question answering tasks का सपोर्ट
- तुलना तालिका Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, और Qwen3.6-27B के आधार पर दी गई है
- STEM और puzzles
  - MMMU 82.9
  - MMMU-Pro 75.8
  - MathVista mini 87.4
  - DynaMath 85.6
  - VlmsAreBlind 97.0
- सामान्य VQA
  - RealWorldQA 84.1
  - MMStar 81.4
  - MMBench EN-DEV-v1.1 92.3
  - SimpleVQA 56.1
- दस्तावेज़ समझ
  - CharXiv RQ 78.4
  - CC-OCR 81.2
  - OCRBench 89.4
- spatial intelligence
  - ERQA 62.5
  - CountBench 97.8
  - RefCOCO avg 92.5
  - EmbSpatialBench 84.6
  - RefSpatialBench 70.0
- video understanding
  - VideoMME(w sub.) 87.7
  - VideoMMMU 84.4
  - MLVU 86.6
  - MVBench 75.5
- Visual Agent
  - V* 94.7
  - AndroidWorld 70.3
- टिप्पणी
  - तालिका में खाली स्थान (--) का अर्थ है कि स्कोर अभी उपलब्ध नहीं हैं या लागू नहीं होते

Qwen3.6-27B का उपयोग

Alibaba Cloud Model Studio सपोर्ट जल्द आने वाला है
Hugging Face और ModelScope पर open weights उपलब्ध हैं, इसलिए self-hosting संभव है
Alibaba Cloud Model Studio API के जरिए उपयोग का रास्ता और Qwen Studio में तुरंत ट्राय करने का विकल्प दोनों उपलब्ध हैं
OpenClaw, Claude Code, और Qwen Code जैसे third-party coding assistants के साथ integration सपोर्ट
developer workflow को सरल बनाने और context-aware coding experience देने का उल्लेख
API उपयोग
- इस release में preserve_thinking फीचर का सपोर्ट है
- यह message के सभी पिछले turns में जनरेट हुए thinking content को सुरक्षित रखता है, और agentic tasks के लिए अनुशंसित बताया गया है
Alibaba Cloud Model Studio
- OpenAI-संगत chat completions और responses API का सपोर्ट
- Anthropic-compatible API interface भी उपलब्ध
- आधिकारिक दस्तावेज़ के आधार पर environment variable उदाहरण दिए गए हैं
  - DASHSCOPE_API_KEY
  - DASHSCOPE_BASE_URL
  - DASHSCOPE_MODEL
- Base URL के उदाहरण region भी दिए गए हैं
  - Beijing https://dashscope.aliyuncs.com/compatible-mode/v1
  - Singapore https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  - US Virginia https://dashscope-us.aliyuncs.com/compatible-mode/v1
- sample code में default model name के रूप में qwen3.6-27b इस्तेमाल किया गया है
- extra_body में enable_thinking: True शामिल है
  - preserve_thinking: True को comment के रूप में दिखाया गया है
- streaming response में reasoning_content और answer content को अलग-अलग इकट्ठा करने का उदाहरण भी शामिल है
- अतिरिक्त जानकारी के लिए API doc लिंक देखने को कहा गया है
Coding & Agents
- Qwen3.6-27B में agentic coding क्षमता है और यह OpenClaw, Claude Code, तथा Qwen Code के साथ सहज रूप से integrate हो सकता है
- OpenClaw
  - OpenClaw एक self-hosted open source AI coding agent है, जिसका पुराना नाम Moltbot या Clawdbot था
  - Model Studio से कनेक्ट करके terminal में पूरा agentic coding experience देता है
  - getting started script में Node.js 22+, install script चलाना, DASHSCOPE_API_KEY सेट करना, और openclaw dashboard या openclaw tui चलाने की प्रक्रिया शामिल है
  - पहली बार उपयोग पर ~/.openclaw/openclaw.json को modify करना पड़ता है
    - पूरे file को overwrite न करने की स्पष्ट चेतावनी दी गई है
    - existing settings को सुरक्षित रखने के लिए सिर्फ ज़रूरी fields merge करने को कहा गया है
  - उदाहरण configuration में modelstudio provider और qwen3.6-27b मॉडल registration शामिल है
    - api है openai-completions
    - reasoning का मान true
    - input types text, image
    - contextWindow है 131072
    - maxTokens है 16384
    - default primary model है modelstudio/qwen3.6-27b
- Qwen Code
  - Qwen Code terminal के लिए open source AI agent है, और Qwen Series के लिए गहराई से optimized tool है
  - getting started script में Node.js 20+, @qwen-code/qwen-code@latest install करना, और qwen चलाना शामिल है
  - session के भीतर /help, /auth commands के उपयोग के उदाहरण दिए गए हैं
  - पहली बार उपयोग पर login prompt दिखता है, और /auth से authentication method बदला जा सकता है
- Claude Code
  - Qwen APIs Anthropic API protocol भी सपोर्ट करते हैं
  - कहा गया है कि इसे Claude Code जैसे tools के साथ इस्तेमाल किया जा सकता है
  - configuration उदाहरण में ये environment variables शामिल हैं
    - ANTHROPIC_MODEL="qwen3.6-27b"
    - ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"
    - ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
    - ANTHROPIC_AUTH_TOKEN=<your_api_key>
  - run command है claude

समापन

अच्छी तरह प्रशिक्षित dense मॉडल डेवलपर्स के लिए महत्वपूर्ण tasks में कहीं बड़े पिछली पीढ़ी के मॉडलों को पार कर सकते हैं — Qwen3.6-27B इसका प्रमाण है
27 अरब पैरामीटर के आकार में रहते हुए भी इसने Qwen3.5-397B-A17B को सभी प्रमुख agentic coding benchmarks में पीछे छोड़ा
इसकी संरचना deployment और service के लिए सरल है, और Qwen3.6 open source श्रृंखला को Qwen3.6-27B के जुड़ने से और व्यापक model lineup मिलता है

Qwen3.6-27B: 27 अरब dense मॉडल में फ़्लैगशिप-स्तरीय coding प्रदर्शन

अवलोकन

प्रदर्शन

भाषा

भाषा मूल्यांकन सेटिंग्स

Vision-Language

STEM और puzzles

सामान्य VQA

दस्तावेज़ समझ

spatial intelligence

video understanding

Visual Agent

टिप्पणी

Qwen3.6-27B का उपयोग

API उपयोग

Alibaba Cloud Model Studio

Coding & Agents

OpenClaw

Qwen Code

Claude Code

समापन

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.