Qwen3-Max-Thinking मॉडल जारी

(qwen.ai)

7 पॉइंट द्वारा GN⁺ 2026-01-27 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

बड़े पैमाने के reinforcement learning और parameter scaling के जरिए तथ्यात्मक ज्ञान, जटिल reasoning, मानव वरीयता alignment जैसे कई क्षेत्रों में प्रदर्शन बढ़ाने वाला नवीनतम reasoning-केंद्रित मॉडल
19 benchmarks में GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro आदि के समान या कुछ क्षेत्रों में उससे बेहतर परिणाम दर्ज
adaptive tool use सुविधा के जरिए बातचीत के दौरान अपने-आप search, memory, और code interpreter को कॉल करता है, जिससे hallucination में कमी और real-time जानकारी तक पहुंच संभव होती है
test-time scaling रणनीति से reasoning के दौरान दोहराव वाले computation को कम करता है, और self-reflection आधारित अनुभव संचय mechanism से दक्षता बढ़ाता है
Qwen Chat और API के जरिए तुरंत उपलब्ध, और OpenAI तथा Anthropic API के साथ compatible होने के कारण डेवलपर्स इसे मौजूदा workflow में आसानी से integrate कर सकते हैं

Qwen3-Max-Thinking का अवलोकन

Qwen3-Max-Thinking Qwen सीरीज़ का नवीनतम flagship reasoning मॉडल है, जो reinforcement learning और बड़े पैमाने के compute resources का उपयोग करके प्रदर्शन का विस्तार करता है
- तथ्यात्मक ज्ञान, जटिल reasoning, निर्देशों का पालन, मानव वरीयता alignment, agent capabilities जैसे कई आयामों में सुधार
- 19 standard benchmarks में GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro के समान स्तर का प्रदर्शन हासिल
इसे दो प्रमुख innovations से मजबूत किया गया है
- adaptive tool-use : जरूरत पड़ने पर search और code interpreter को अपने-आप कॉल करता है
- advanced test-time scaling : reasoning के दौरान अतिरिक्त computation का कुशल उपयोग करके Gemini 3 Pro से बेहतर प्रदर्शन सुनिश्चित करता है

benchmark प्रदर्शन सारांश

knowledge क्षेत्र में MMLU-Pro 85.7, C-Eval 93.7 जैसे स्कोर के साथ शीर्ष मॉडलों के करीब प्रदर्शन
STEM क्षेत्र में GPQA 87.4, HLE 30.2 के साथ कुछ मॉडलों से कम, लेकिन संतुलित प्रदर्शन बनाए रखता है
reasoning benchmarks में HMMT Nov 25 94.7, LiveCodeBench v6 85.9 जैसे ऊंचे स्कोर दर्ज
instruction following & alignment श्रेणी में Arena-Hard v2 90.2 के साथ शीर्ष स्तर का प्रदर्शन
tool use और agentic search में भी प्रतिस्पर्धी मॉडलों की तुलना में कुछ बेहतर परिणाम देखे गए

adaptive tool use सुविधा

उपयोगकर्ता को सीधे tool चुनने की जरूरत नहीं; मॉडल खुद Search, Memory, Code Interpreter का उपयोग करता है
- Search और Memory hallucination को कम करते हैं और real-time जानकारी तक पहुंच तथा personalized responses देते हैं
- Code Interpreter code execution और computation-आधारित reasoning के जरिए जटिल समस्याओं को हल करने में मदद करता है
इस सुविधा को rule-based और model-based feedback को मिलाकर किए गए अतिरिक्त training process से और मजबूत किया गया है
नतीजतन, यह अधिक स्वाभाविक और शक्तिशाली conversational experience प्रदान करता है

test-time scaling रणनीति

reasoning के दौरान अतिरिक्त computation वितरित करके प्रदर्शन बढ़ाने का तरीका, जो साधारण parallel sampling की तुलना में अधिक कुशल है
प्रस्तावित तरीका अनुभव संचय-आधारित multi-round self-reflective approach का उपयोग करता है
- “take-experience” mechanism के जरिए पिछले राउंड की मुख्य insights निकाली जाती हैं
- पहले से निकाले गए निष्कर्षों को दोहराने के बजाय अनसुलझी अनिश्चितताओं पर ध्यान देता है
समान token consumption पर अधिक context efficiency हासिल
- GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3 तक सुधार

development और API integration

Qwen Chat में तुरंत उपलब्ध, और मॉडल नाम qwen3-max-2026-01-23 है
Alibaba Cloud Model Studio के जरिए API key बनाकर उपयोग किया जा सकता है
OpenAI API के साथ पूरी तरह compatible, और Python example code भी उपलब्ध
- enable_thinking option से reasoning mode सक्रिय किया जा सकता है
Anthropic API protocol के साथ भी compatible, इसलिए Claude Code environment में भी समान रूप से काम करता है
- environment variables सेट करने के बाद claude कमांड से चलाया जा सकता है

Qwen3-Max-Thinking मॉडल जारी

Qwen3-Max-Thinking का अवलोकन

benchmark प्रदर्शन सारांश

adaptive tool use सुविधा

test-time scaling रणनीति

development और API integration

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.