Qwen3-Max-Thinking मॉडल जारी
(qwen.ai)- बड़े पैमाने के reinforcement learning और parameter scaling के जरिए तथ्यात्मक ज्ञान, जटिल reasoning, मानव वरीयता alignment जैसे कई क्षेत्रों में प्रदर्शन बढ़ाने वाला नवीनतम reasoning-केंद्रित मॉडल
- 19 benchmarks में GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro आदि के समान या कुछ क्षेत्रों में उससे बेहतर परिणाम दर्ज
- adaptive tool use सुविधा के जरिए बातचीत के दौरान अपने-आप search, memory, और code interpreter को कॉल करता है, जिससे hallucination में कमी और real-time जानकारी तक पहुंच संभव होती है
- test-time scaling रणनीति से reasoning के दौरान दोहराव वाले computation को कम करता है, और self-reflection आधारित अनुभव संचय mechanism से दक्षता बढ़ाता है
- Qwen Chat और API के जरिए तुरंत उपलब्ध, और OpenAI तथा Anthropic API के साथ compatible होने के कारण डेवलपर्स इसे मौजूदा workflow में आसानी से integrate कर सकते हैं
Qwen3-Max-Thinking का अवलोकन
- Qwen3-Max-Thinking Qwen सीरीज़ का नवीनतम flagship reasoning मॉडल है, जो reinforcement learning और बड़े पैमाने के compute resources का उपयोग करके प्रदर्शन का विस्तार करता है
- तथ्यात्मक ज्ञान, जटिल reasoning, निर्देशों का पालन, मानव वरीयता alignment, agent capabilities जैसे कई आयामों में सुधार
- 19 standard benchmarks में GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro के समान स्तर का प्रदर्शन हासिल
- इसे दो प्रमुख innovations से मजबूत किया गया है
- adaptive tool-use : जरूरत पड़ने पर search और code interpreter को अपने-आप कॉल करता है
- advanced test-time scaling : reasoning के दौरान अतिरिक्त computation का कुशल उपयोग करके Gemini 3 Pro से बेहतर प्रदर्शन सुनिश्चित करता है
benchmark प्रदर्शन सारांश
- knowledge क्षेत्र में MMLU-Pro 85.7, C-Eval 93.7 जैसे स्कोर के साथ शीर्ष मॉडलों के करीब प्रदर्शन
- STEM क्षेत्र में GPQA 87.4, HLE 30.2 के साथ कुछ मॉडलों से कम, लेकिन संतुलित प्रदर्शन बनाए रखता है
- reasoning benchmarks में HMMT Nov 25 94.7, LiveCodeBench v6 85.9 जैसे ऊंचे स्कोर दर्ज
- instruction following & alignment श्रेणी में Arena-Hard v2 90.2 के साथ शीर्ष स्तर का प्रदर्शन
- tool use और agentic search में भी प्रतिस्पर्धी मॉडलों की तुलना में कुछ बेहतर परिणाम देखे गए
adaptive tool use सुविधा
- उपयोगकर्ता को सीधे tool चुनने की जरूरत नहीं; मॉडल खुद Search, Memory, Code Interpreter का उपयोग करता है
- Search और Memory hallucination को कम करते हैं और real-time जानकारी तक पहुंच तथा personalized responses देते हैं
- Code Interpreter code execution और computation-आधारित reasoning के जरिए जटिल समस्याओं को हल करने में मदद करता है
- इस सुविधा को rule-based और model-based feedback को मिलाकर किए गए अतिरिक्त training process से और मजबूत किया गया है
- नतीजतन, यह अधिक स्वाभाविक और शक्तिशाली conversational experience प्रदान करता है
test-time scaling रणनीति
- reasoning के दौरान अतिरिक्त computation वितरित करके प्रदर्शन बढ़ाने का तरीका, जो साधारण parallel sampling की तुलना में अधिक कुशल है
- प्रस्तावित तरीका अनुभव संचय-आधारित multi-round self-reflective approach का उपयोग करता है
- “take-experience” mechanism के जरिए पिछले राउंड की मुख्य insights निकाली जाती हैं
- पहले से निकाले गए निष्कर्षों को दोहराने के बजाय अनसुलझी अनिश्चितताओं पर ध्यान देता है
- समान token consumption पर अधिक context efficiency हासिल
- GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3 तक सुधार
development और API integration
- Qwen Chat में तुरंत उपलब्ध, और मॉडल नाम
qwen3-max-2026-01-23है - Alibaba Cloud Model Studio के जरिए API key बनाकर उपयोग किया जा सकता है
- OpenAI API के साथ पूरी तरह compatible, और Python example code भी उपलब्ध
enable_thinkingoption से reasoning mode सक्रिय किया जा सकता है
- Anthropic API protocol के साथ भी compatible, इसलिए Claude Code environment में भी समान रूप से काम करता है
- environment variables सेट करने के बाद
claudeकमांड से चलाया जा सकता है
- environment variables सेट करने के बाद
1 टिप्पणियां
Hacker News की राय
एक मशहूर तस्वीर के बारे में सवाल पूछा गया, लेकिन सिस्टम ने उसे ‘अनुचित कंटेंट’ के रूप में पहचानकर त्रुटि लौटा दी। उपयोगकर्ता यह जानना चाहता था कि ऐसी छवि अंतरराष्ट्रीय स्तर पर क्यों महत्वपूर्ण है
हाल के मॉडलों की token usage को लेकर जिज्ञासा बढ़ी। ‘reasoning क्षमता में सुधार’ या ‘tools के उपयोग में वृद्धि’ मॉडल के मूलभूत सुधार से ज़्यादा, अधिक tokens खर्च करके मॉडल को बेहतर ढंग से गाइड करने का तरीका लगता है। यानी यह “कम खर्च करके ज़्यादा पाना” नहीं, बल्कि “ज़्यादा खर्च करके ज़्यादा पाना” वाली संरचना है
यह जिज्ञासा थी कि search feature बंद होने पर यह Opus 4.5 से कमजोर लगता है, लेकिन चालू करने पर बेहतर क्यों दिखता है। क्या चीनी इंटरनेट के कंटेंट की गुणवत्ता बेहतर हो सकती है?
Qwen मॉडल की pricing policy को लेकर सवाल था। पूछा गया कि क्या इसकी कीमत Qwen Max जैसी ही है, और चीन के भीतर कीमतें इतनी कम क्यों हैं
Alibaba Cloud मॉडल पेज
संबंधित लेख
HN पर Opus 4.5 को लगभग standard model माना जाता रहा है, और चीनी मॉडल 8 महीने से अधिक पीछे समझे जाते थे। जिज्ञासा थी कि क्या यह नया मॉडल उस अंतर को कम करेगा
वहीं Gemini 3 Pro/Flash अभी भी एक स्तर नीचे है, लेकिन पिछले साल की तुलना में बहुत तेज़ और सस्ता हो गया है। आखिरकार benchmarks सिर्फ संदर्भ होते हैं, वास्तविक अनुभव की quality व्यक्तिपरक होती है
पिछले साल पतझड़ में CLI agent trae के ज़रिए Qwen3-coder को एक Rust project में इस्तेमाल किया गया, और उसकी code generation और refactoring क्षमता Gemini 2.5 Pro या Claude Opus 3.5 से बेहतर लगी।
उसने Linux shared memory IPC calls जोड़ने और x86_64 SIMD optimization तक अच्छी तरह संभाला। हालांकि token cache और बड़े context window के इस्तेमाल से हर महीने सैकड़ों डॉलर का खर्च आया
Hugging Face लिंक न दिखने पर यह सवाल उठा कि क्या Qwen अब open models जारी नहीं कर रहा
कुछ लोगों ने पूछा कि क्या यह Open Router पर उपलब्ध है। Gemini 3 Flash से तुलना की उम्मीद भी जताई गई
Mafia Arena
lmarena.ai, safe.ai डैशबोर्ड,
Clock Draw Test, EQBench, OCR Arena
LLM benchmarks कुछ-कुछ developer interviews जैसे लगते हैं। जटिल distributed algorithm समस्याएँ तो अच्छे से हल कर लेते हैं, लेकिन वास्तविक काम में एक बटन जोड़ते समय Tailwind classes का reuse भूल जाने जैसी खाई दिखती है
मॉडल के आकार के बारे में भी सवाल था
आधिकारिक ब्लॉग