Qwen3-Next मॉडल पेश: अंतिम प्रशिक्षण और inference दक्षता की ओर

(qwen.ai)

3 पॉइंट द्वारा GN⁺ 2025-09-13 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Qwen3-Next एक नया मॉडल आर्किटेक्चर है, जिसे बड़े मॉडलों के भविष्य के रुझानों, यानी context length बढ़ाने और कुल parameters बढ़ाने, को सपोर्ट करने के लिए विकसित किया गया है, और यह training व inference efficiency को अधिकतम करने वाली क्षमताएँ प्रदान करता है
Hybrid attention mechanism और अत्यधिक sparse MoE संरचना को अपनाकर long context और बड़े parameter settings में प्रदर्शन बेहतर किया गया है
Training stability optimization और multi-token prediction mechanism के जरिए inference speed को तेज किया गया है
Qwen3-Next-80B-A3B-Base मॉडल ने training cost को 10% से कम तक घटाते हुए Qwen3-32B मॉडल के बराबर या उससे बेहतर प्रदर्शन हासिल किया
इस मॉडल की रिलीज़ open source community को अत्याधुनिक architecture advances देती है और Qwen3.5 के विकास की दिशा में intelligence और productivity बढ़ाने की नींव रखती है

परिचय

बड़े मॉडलों के भविष्य के दो प्रमुख रुझानों, context length बढ़ाना और कुल parameters बढ़ाना, को ध्यान में रखते हुए long context और बड़े parameter settings में training और inference efficiency बढ़ाने के लिए Qwen3-Next नाम का नया मॉडल आर्किटेक्चर डिज़ाइन किया गया
Qwen3 की MoE संरचना की तुलना में Hybrid attention mechanism, अत्यधिक sparse MoE संरचना, training stability optimization, और तेज inference के लिए multi-token prediction mechanism जैसे कई मुख्य सुधार पेश किए गए
इस आर्किटेक्चर के आधार पर Qwen3-Next-80B-A3B-Base मॉडल को train किया गया, जो 80B parameter मॉडल है, लेकिन inference के समय केवल 3B parameters सक्रिय करता है
इस base model ने dense प्रकार के Qwen3-32B मॉडल के बराबर या थोड़ा बेहतर प्रदर्शन हासिल किया, जबकि training cost (GPU time) का 10% से भी कम उपयोग किया
खास तौर पर 32K tokens से अधिक context length पर 10x से अधिक throughput देकर training और inference में चरम दक्षता हासिल की
Qwen3-Next-80B-A3B-Base के आधार पर दो post-training versions, Qwen3-Next-80B-A3B-Instruct और Qwen3-Next-80B-A3B-Thinking, विकसित और जारी किए गए
Hybrid attention और high-sparsity MoE architecture के कारण reinforcement learning (RL) training में लंबे समय से चली आ रही stability और efficiency समस्याओं को हल किया गया, जिससे RL training speed और अंतिम performance दोनों बेहतर हुए
Qwen3-Next-80B-A3B-Instruct ने flagship मॉडल Qwen3-235B-A22B-Instruct-2507 के बराबर प्रदर्शन दिखाया और अधिकतम 256K token तक के ultra-long-context tasks में स्पष्ट बढ़त दिखाई
Qwen3-Next-80B-A3B-Thinking जटिल reasoning tasks में उत्कृष्ट है, और अधिक महंगे मॉडलों Qwen3-30B-A3B-Thinking-2507 और Qwen3-32B-Thinking को पीछे छोड़ता है, साथ ही closed-source Gemini-2.5-Flash-Thinking को कई benchmarks में पार करता है, और top-tier Qwen3-235B-A22B-Thinking-2507 के प्रदर्शन के क़रीब पहुँचता है
Qwen3-Next को Hugging Face और ModelScope पर पहले ही जारी किया जा चुका है, और कोई भी Alibaba Cloud Model Studio तथा NVIDIA API Catalog के माध्यम से Qwen3-Next सेवा का उपयोग कर सकता है

प्रमुख विशेषताएँ

Hybrid architecture: Gated DeltaNet + Gated Attention के जरिए linear attention, standard attention की quadratic complexity को तोड़ता है और long context में अधिक efficient साबित होता है
- यह पाया गया कि linear attention तेज है लेकिन recall कमजोर है, जबकि standard attention महँगा और धीमा है; systematic experiments के जरिए पुष्टि हुई कि Gated DeltaNet, Sliding Window Attention या Mamba2 जैसी सामान्य विधियों की तुलना में अधिक मजबूत in-context learning क्षमता देता है
- Gated DeltaNet को standard attention के साथ 3:1 अनुपात में मिलाया गया (75% layers में Gated DeltaNet, 25% में standard attention बनाए रखा गया), जिससे किसी एकल architecture की तुलना में लगातार बेहतर performance और efficiency मिली
- Standard attention layers में output gating mechanism अपनाया गया, जिससे attention की low-rank समस्या कम हुई, और attention head प्रति dimension को 128 से बढ़ाकर 256 किया गया
- Rotary positional encoding को केवल positional dimensions के पहले 25% पर लागू किया गया, जिससे लंबी sequences पर extrapolation बेहतर हुई
Ultra-sparse MoE: केवल 3.7% parameters सक्रिय होने के साथ, Qwen3-Next ने ऐसा high-sparsity MoE डिज़ाइन अपनाया है जिसमें 80B कुल parameters में से प्रति inference step लगभग 3B ही सक्रिय होते हैं
- Experiments से दिखा कि global load balancing के तहत active experts को स्थिर रखते हुए कुल expert parameters बढ़ाने पर training loss लगातार घटता है
- Qwen3 के MoE (कुल 128 experts, 8 routing) की तुलना में Qwen3-Next को कुल 512 experts तक बढ़ाया गया, और 10 routing experts + 1 shared expert के संयोजन से resources का अधिकतम उपयोग करते हुए performance में गिरावट नहीं आने दी गई
Training stability-friendly design के तहत attention output gating mechanism, Attention Sink और Massive Activation जैसी समस्याओं को हटाता है और पूरे मॉडल की numerical stability सुनिश्चित करता है
- Qwen3 में इस्तेमाल किए गए QK-Norm में कुछ layer norm weights असामान्य रूप से बड़े हो जाने की समस्या पाई गई; इसलिए Qwen3-Next ने Zero-Centered RMSNorm अपनाया और norm weights पर weight decay लागू किया ताकि अनंत वृद्धि रोकी जा सके
- MoE router parameters को initialization के दौरान normalize किया गया ताकि training के शुरुआती चरण में हर expert बिना bias के चुना जाए और random initialization से आने वाला noise कम हो
- इस stability-केंद्रित डिज़ाइन ने small-scale experiments को अधिक भरोसेमंद बनाया और large-scale training को सुचारु रूप से चलाने में मदद की
Multi-token prediction के तहत Qwen3-Next ने native multi-token prediction (MTP) mechanism पेश किया, जो speculative decoding के लिए उच्च acceptance rate वाले MTP modules बनाने के साथ-साथ overall performance भी बेहतर करता है
- Qwen3-Next विशेष रूप से MTP की multi-step inference performance को optimize करता है, और training तथा inference के बीच consistency बनाए रखने वाली multi-step training के जरिए वास्तविक scenarios में speculative decoding की acceptance rate को और बेहतर बनाता है

Pre-training

Pre-training efficiency और inference speed: Qwen3-Next को Qwen3 के 36T token pre-training corpus में से uniformly sampled subset (15T tokens) पर train किया गया
- इसने Qwen3-30A-3B के लिए आवश्यक GPU time का 80% से कम इस्तेमाल किया, और Qwen3-32B की compute cost का केवल 9.3% खर्च करके बेहतर performance हासिल की, जिससे उत्कृष्ट training efficiency और value साबित हुई
- Hybrid architecture की वजह से inference में भी यह उत्कृष्ट है, और prefill चरण में 4K context length पर Qwen3-32B की तुलना में लगभग 7x अधिक throughput देता है
- 32K से अधिक पर 10x से भी अधिक तेज
- Decode चरण में 4K context पर लगभग 4x अधिक throughput दिखाता है, और 32K से अधिक पर भी 10x से अधिक speed advantage बनाए रखता है
Base model performance: Qwen3-Next-80B-A3B-Base, Qwen3-32B-Base के non-embedding parameters के केवल 1/10 को सक्रिय करते हुए अधिकांश benchmarks में उसे पीछे छोड़ता है, और Qwen3-30B-A3B को काफ़ी अंतर से पार करके असाधारण efficiency और मजबूत performance साबित करता है

Post-training

Instruct model performance: Qwen3-Next-80B-A3B-Instruct, Qwen3-30B-A3B-Instruct-2507 और Qwen3-32B-Non-thinking को काफ़ी पीछे छोड़ता है, और flagship Qwen3-235B-A22B-Instruct-2507 के लगभग बराबर नतीजे देता है
- RULER में Qwen3-Next-80B-A3B-Instruct, अधिक attention layers वाले Qwen3-30B-A3B-Instruct-2507 को सभी lengths पर पीछे छोड़ता है, और 256K context के भीतर कुल मिलाकर अधिक layers वाले Qwen3-235B-A22B-Instruct-2507 को भी पार करता है, जिससे long-context tasks के लिए Gated DeltaNet + Gated Attention hybrid design की ताकत साबित होती है
Thinking model performance: Qwen3-Next-80B-A3B-Thinking, अधिक महंगे मॉडलों Qwen3-30B-A3B-Thinking-2507 और Qwen3-32B-Thinking से बेहतर प्रदर्शन करता है
- कई benchmarks में closed-source Gemini-2.5-Flash-Thinking को पार करता है, और प्रमुख metrics पर नवीनतम flagship मॉडल Qwen3-235B-A22B-Thinking-2507 के क़रीब पहुँचता है

Develop with Qwen3

Hugging Face Transformers के साथ Qwen3-Next का code, Hugging Face transformers की main branch में merge कर दिया गया है
- पुराने versions में errors आ सकते हैं
- दिए गए input के आधार पर model generation content को दिखाने वाला code snippet शामिल है
- Multi-token prediction (MTP) अभी Hugging Face Transformers में सामान्य रूप से उपलब्ध नहीं है
- Efficiency या throughput improvements implementation पर बहुत निर्भर करते हैं
- Inference workloads के लिए SGLang और vLLM जैसे dedicated inference frameworks अपनाने की सिफारिश की जाती है
- flash-linear-attention और causal-conv1d का उपयोग करने पर inference setup के अनुसार बेहतर efficiency देखी जा सकती है
- विस्तृत निर्देश और requirements के लिए संबंधित links देखें
- Deployment के लिए नवीनतम sglang या vllm का उपयोग करके OpenAI-compatible API endpoint बनाया जा सकता है
SGLang बड़े language models और vision-language models के लिए एक तेज serving framework है, जो OpenAI-compatible API service वाले server को शुरू कर सकता है
- SGLang main branch पर Qwen3-Next को सपोर्ट करता है, और source से install किया जा सकता है
- 4 GPU पर tensor parallelism का उपयोग करते हुए अधिकतम context length 256K tokens के साथ http://localhost:30000/v1 पर API endpoint बनाने का command दिया गया है
- MTP के लिए अनुशंसित command भी बाकी समान settings के साथ दिया गया है
- वर्तमान में SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 environment variable की आवश्यकता है
- Default context length 256K है; यदि server start न हो, तो 32768 जैसे छोटे मान पर घटाने पर विचार करें
vLLM LLMs के लिए एक high-throughput और memory-efficient inference व serving engine है, जो OpenAI-compatible API service वाले server को शुरू कर सकता है
- vLLM main branch पर Qwen3-Next को सपोर्ट करता है, और source से install किया जा सकता है
- 4 GPU पर tensor parallelism का उपयोग करते हुए अधिकतम context length 256K tokens के साथ http://localhost:8000/v1 पर API endpoint बनाने का command दिया गया है
- MTP के लिए अनुशंसित command भी बाकी समान settings के साथ दिया गया है
- वर्तमान में VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 environment variable की आवश्यकता है
- Default context length 256K है; यदि server start न हो, तो 32768 जैसे छोटे मान पर घटाने पर विचार करें
Agentic उपयोग: Qwen3 tool calling क्षमता में उत्कृष्ट है, और Qwen-Agent का उपयोग करके Qwen3 की agent क्षमताओं का अधिकतम लाभ लेने की सिफारिश की जाती है
- Qwen-Agent internally tool calling templates और tool calling parser को encapsulate करता है, जिससे coding complexity काफ़ी कम हो जाती है
- उपलब्ध tools को परिभाषित करने के लिए MCP config file, Qwen-Agent के integrated tools, या अपने custom integrated tools का उपयोग किया जा सकता है
Ultra-long text processing: Qwen3-Next native रूप से अधिकतम 262,144 tokens की context length को सपोर्ट करता है
- जिन conversations में input और output सहित कुल लंबाई इस सीमा से काफ़ी अधिक हो, उनके लिए YaRN जैसी RoPE scaling तकनीक का उपयोग करके long text को प्रभावी ढंग से संभालने की सिफारिश की जाती है
- YaRN के साथ 10 लाख tokens तक context length पर model performance सत्यापित की गई है
- YaRN को transformers, vllm, sglang जैसे कई inference frameworks में वर्तमान में सपोर्ट किया जाता है
- समर्थित frameworks में YaRN को सक्षम करने के दो तरीके हैं: model file में बदलाव या command-line arguments पास करना
- config.json file में rope_scaling field जोड़ी जाती है
- vllm के लिए command-line arguments का उपयोग किया जाता है
- sglang के लिए command-line arguments का उपयोग किया जाता है
- सभी प्रमुख open source frameworks static YaRN लागू करते हैं, जिसमें input length से परे scaling factor स्थिर रहता है, जिससे short text performance पर संभावित असर पड़ सकता है
- rope_scaling setting केवल तभी जोड़ने की सिफारिश की जाती है जब long-context processing की वास्तव में आवश्यकता हो
- factor को ज़रूरत के अनुसार बदलने की सिफारिश की जाती है; उदाहरण के लिए यदि application की सामान्य context length 524,288 tokens है, तो factor को 2.0 पर सेट करें

सारांश

Qwen3-Next, attention mechanism में innovation लाने वाले linear attention और attention gating को शामिल करते हुए model architecture में एक बड़ा कदम दर्शाता है, साथ ही MoE डिज़ाइन में sparsity को और बढ़ाता है
Qwen3-Next-80B-A3B, thinking और non-thinking दोनों मोड में बड़े Qwen3-235B-A22B-2507 के बराबर प्रदर्शन देता है, जबकि long-context scenarios में काफ़ी तेज inference प्रदान करता है
इस रिलीज़ के साथ open source community को अत्याधुनिक architecture advances और मज़बूत किए गए हैं, ताकि यह state-of-the-art architectural progress के साथ आगे बढ़ सके

Qwen3-Next मॉडल पेश: अंतिम प्रशिक्षण और inference दक्षता की ओर

परिचय

प्रमुख विशेषताएँ

Pre-training

Post-training

Develop with Qwen3

सारांश

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.