Qwen3 - ज़्यादा गहराई से सोचने और ज़्यादा तेज़ी से काम करने वाला अगली पीढ़ी का भाषा मॉडल

(qwenlm.github.io)

8 पॉइंट द्वारा GN⁺ 2025-04-29 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Qwen3 एक नवीनतम large language model है जिसमें अधिकतम 235B parameters हैं, और यह DeepSeek-R1, Grok-3, Gemini-2.5-Pro आदि के साथ प्रतिस्पर्धी स्तर का प्रदर्शन दिखाता है
यह hybrid thinking mode (Thinking/Non-Thinking) को सपोर्ट करता है, जिससे समस्या की कठिनाई के अनुसार reasoning की गहराई को नियंत्रित किया जा सकता है
यह 119 भाषाओं और बोलियों को सपोर्ट करता है, जिससे वैश्विक उपयोगिता में बड़ा विस्तार हुआ है
पिछले संस्करण की तुलना में 2 गुना बढ़ाए गए 36 ट्रिलियन tokens डेटा पर pretraining की गई है, जिससे coding, mathematics, logical reasoning क्षमताएँ बेहतर हुई हैं
इसे Apache 2.0 license के तहत open source जारी किया गया है, और Hugging Face, ModelScope, Kaggle आदि पर तुरंत इस्तेमाल किया जा सकता है

परिचय

Qwen3, Qwen series का नवीनतम large language model है, और 235B parameters वाला Qwen3-235B-A22B इसका प्रमुख flagship model है
छोटा MoE model Qwen3-30B-A3B, 10 गुना अधिक parameters सक्रिय करने वाले QwQ-32B से बेहतर प्रदर्शन दिखाता है
Dense models के 6 प्रकार (0.6B, 1.7B, 4B, 8B, 14B, 32B) और MoE models के 2 प्रकार (30B, 235B) को Apache 2.0 license के तहत जारी किया गया है

प्रमुख विशेषताएँ

hybrid thinking mode
- Thinking mode: जटिल समस्याओं के लिए step-by-step reasoning करने वाला mode
- Non-Thinking mode: तेज़ response की आवश्यकता वाली सरल समस्याओं के लिए तुरंत उत्तर देने वाला mode
- काम के अनुसार reasoning budget समायोजित करके cost efficiency और quality को optimize किया जा सकता है
बहुभाषी समर्थन
- 119 भाषाओं और बोलियों के समर्थन से global applications के विस्तार की संभावना मजबूत होती है
- प्रमुख समर्थित भाषा परिवार: Indo-European, Sino-Tibetan, Afro-Asiatic, Austronesian, Dravidian आदि
बेहतर agent capabilities
- coding और agent क्षमताओं के लिए optimize किया गया
- Qwen-Agent के साथ integration करके tool calling क्षमता को अधिकतम किया जा सकता है

pretraining

Qwen2.5 की तुलना में 2 गुना बढ़ाए गए 36 ट्रिलियन tokens का उपयोग करके pretraining की गई
web और PDF-जैसे document data एकत्र करके विविध high-quality datasets तैयार किए गए
STEM, coding, mathematics क्षेत्रों के डेटा को मजबूत करके कुल reasoning क्षमता में सुधार हासिल किया गया

post-training

4-stage pipeline (CoT start → reinforcement learning → thinking mode fusion → general reinforcement learning) लागू की गई
मॉडल को इस तरह optimize किया गया कि वह logical reasoning और तेज़ response दोनों एक साथ कर सके
20 से अधिक general-domain tasks पर reinforcement learning के माध्यम से generality और stability को मजबूत किया गया

Qwen3 के साथ विकास

Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp सहित कई frameworks का समर्थन
Thinking mode को code में आसानी से on/off किया जा सकता है, और /think, /no_think commands से बातचीत के दौरान switch भी किया जा सकता है

agent उपयोग

Qwen-Agent के माध्यम से MCP configuration files या built-in tools का उपयोग करके जटिल agent systems बनाए जा सकते हैं
OpenAI API compatible server सीधे बनाकर local या public deployment किया जा सकता है

भविष्य का कार्य

Qwen3 artificial general intelligence (AGI) और artificial superintelligence (ASI) की दिशा में एक महत्वपूर्ण milestone को दर्शाता है, और pretraining तथा reinforcement learning को scale करके उच्च स्तर की intelligence हासिल करता है
model architecture और training methodology में सुधार करके data scaling, model size increase, context length expansion, modality expansion, और environment feedback के माध्यम से long-term reasoning को लक्ष्य बनाया गया है
यह model training-केंद्रित युग से agent training-केंद्रित युग की ओर बढ़ रहा है, और अगला संस्करण सभी लोगों के काम और जीवन में सार्थक प्रगति लाएगा

2 टिप्पणियां

iwanhae 2025-04-29

बड़े मॉडल भी दिलचस्प हैं, लेकिन छोटे मॉडल वाली दिशा मुझे और ज़्यादा दिलचस्प लगती है.
लगता है कि 0.6B मॉडल काफ़ी हद तक दूसरे मॉडलों के लगभग 7B स्तर का performance दे रहा है.

GN⁺ 2025-04-29

Hacker News राय

एक physics-आधारित समस्या LLMs को दी गई, और यह इंसानों के लिए भी कठिन समस्या है। GPT o3, Claude 3.7, Gemini 2.5 Pro — कोई भी शुरुआत में सही जवाब नहीं दे पाया। Qwen3 और भी ज़्यादा गलत था.
Documentation अच्छी है, और प्रमुख inference stack के लिए support पहले दिन से उपलब्ध है। अलग-अलग size विकल्प मौजूद हैं। community quant makers के साथ पहले से काम करने का अनुभव भी है.
Performance को टेस्ट करने से पहले भी, आसपास की details पर दिया गया ध्यान ही इसे एक शानदार release बनाता है। Meta के Llama 4 की तुलना में, यही standard होना चाहिए.
Benchmark नतीजे इतने अच्छे हैं कि उन पर यकीन करना मुश्किल है। 30B model, Gemini 2.5 Pro से टक्कर लेता है और Gemma 27B से काफी बेहतर है.
कई open weight models आ रहे हैं, लेकिन यह जानने का तरीका है या नहीं कि standard desktop GPU पर कौन-सा model उचित speed से चलेगा, यह जानना चाहूँगा। मैं Quadro RTX 4000 इस्तेमाल कर रहा हूँ, और इतने अलग-अलग size models में कौन तेज़ होगा, यह समझ नहीं आ रहा.
Qwen और DeepSeek models के CCP worldview के हिसाब से train किए गए होने की संभावना है, लेकिन व्यवहार में इससे कोई समस्या नहीं हुई। इस पर ज़्यादा research भी नहीं है.
Qwen-30B-A3B को लेकर सबसे ज़्यादा उम्मीद है। यह offline/local-only coding assistant के लिए उपयुक्त लगता है। अब तक open weight models या तो performance में कमजोर रहे हैं या बहुत धीमे.
Inference models की तुलना करने के सबसे अच्छे तरीके पर insight ढूँढ रहा हूँ। creative जवाबों के लिए high temperature और logical, deterministic output के लिए low temperature इस्तेमाल करने की सलाह दी जाती है। लेकिन यह inference models पर लागू होता है या नहीं, इस पर भरोसा नहीं है.
0.6B LLM में 32k context window होना दिलचस्प है। यह fine-tuning के लिए एक मज़ेदार base model बन सकता है। Hugging Face पर इसे सबसे ज़्यादा downloads और likes मिले हैं.
ये models ऐसे लगते हैं जैसे बहुत ज़्यादा सोचते हों। Benchmark, 32k token के thought budget पर चलाया गया। A3B खास तौर पर QWQ से आगे निकलता है और CPU inference में उपयोगी हो सकता है.
Performance numbers बहुत प्रभावशाली हैं। MoE, 3B active parameters के साथ o1 को पीछे छोड़ देता है। Local models इतने अच्छे होते जा रहे हैं कि ज़्यादातर काम संभाल सकें.