- Qwen3.6-Plus के उत्तराधिकारी के रूप में, पिछले मॉडल की तुलना में एजेंट-आधारित कोडिंग के साथ अधिक मजबूत world knowledge और instruction following प्रदर्शन में सुधार
- 6 प्रमुख कोडिंग बेंचमार्क में सर्वोच्च स्कोर दर्ज कर कोडिंग एजेंट प्रदर्शन में बड़े सुधार की पुष्टि
- preserve_thinking फीचर का समर्थन, जो एजेंटिक कार्यों के दौरान पिछले टर्न की विचार प्रक्रिया को संदेश में सुरक्षित रखने का तरीका उपयोग करता है
- world knowledge बेंचमार्क में SuperGPQA +2.3, QwenChineseBench +5.3 आदि के साथ सुधार, और instruction following में ToolcallFormatIFBench +2.8 दर्ज
- Qwen Studio में इंटरैक्टिव टेस्ट संभव है, और Alibaba Cloud Model Studio API के जरिए
qwen3.6-max-previewनाम से कॉल किया जाएगा
प्रमुख सुधार
- Qwen3.6-Plus की तुलना में एजेंटिक कोडिंग क्षमता में बड़ा सुधार: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
- world knowledge में मजबूती: SuperGPQA +2.3, QwenChineseBench +5.3
- instruction following में सुधार: ToolcallFormatIFBench +2.8
- 6 प्रमुख कोडिंग बेंचमार्क में सर्वोच्च स्कोर: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode
मॉडल की विशेषताएँ और दृष्टिकोण
- Alibaba Cloud Model Studio के जरिए उपलब्ध hosted-exclusive model
- वास्तविक एजेंट (real-world agent) और knowledge reliability प्रदर्शन में सुधार
- Qwen Studio में तुरंत इंटरैक्टिव परीक्षण संभव
- API मॉडल नाम
qwen3.6-max-previewहै, और जल्द ही Alibaba Cloud Model Studio API में उपलब्ध होगा
API उपयोग और फीचर्स
- OpenAI-संगत chat completions और responses API, Anthropic-संगत interface सहित industry-standard protocol का समर्थन
preserve_thinkingफीचर के जरिए पिछले टर्न की reasoning content को सुरक्षित रखा जा सकता है, और एजेंटिक कार्यों के लिए इसकी सिफारिश की जाती हैenable_thinking: Trueसेट करने पर reasoning content और response को streaming तरीके से अलग-अलग प्राप्त किया जा सकता है- API के लिए क्षेत्रवार Base URL उपलब्ध: Beijing, Singapore, United States (Virginia)
विकास स्थिति
- वर्तमान में preview release चरण में है, लगातार पुनरावृत्त सुधार जारी हैं, और आगामी संस्करणों में अतिरिक्त सुधार की योजना है
1 टिप्पणियां
Hacker News टिप्पणियाँ
लोगों का सिर्फ़ SOTA तुलना पर अटका रहना मुझे थोड़ा मज़ेदार लगता है। मैंने ऐसे मामले देखे हैं जहाँ glm 5.1 ने वो काम कर दिखाया जो Opus नहीं कर पाया, और उसे बेहतर कोड लिखते भी देखा है। मैंने अभी qwen max इस्तेमाल नहीं किया है, लेकिन मैंने यह भी देखा है कि लोकल 122b मॉडल दस्तावेज़ों को बेहतर पढ़ते हैं और ज़्यादा सटीक तरीके से प्रोसेस करते हैं। आख़िरकार benchmark पूरी तस्वीर का सिर्फ़ एक हिस्सा हैं, और असल में हर मॉडल की अपनी अलग ताकत होती है, इसलिए मुझे नहीं लगता कि उन्हें ऐसे तुलना करनी चाहिए जैसे हथौड़े और रिंच में बस कौन बेहतर है
मैं कंपनी में कई महीनों से लगातार Claude Code इस्तेमाल कर रहा हूँ, और कुछ समय पहले इसे एक छोटे पर्सनल वेबसाइट प्रोजेक्ट में भी अच्छी तरह इस्तेमाल किया। पिछले वीकेंड पहली बार self-hosting भी आज़माई। जानना चाहता हूँ कि क्या किसी ने CC या Codex को काफ़ी इस्तेमाल करने के बाद कोई संतोषजनक self-hosted setup ढूँढा है। मैंने 32GB DDR5, AMD 7800X3D, RTX 4090, Windows और WSL environment में ollama, docker desktop model runner, pi-coding-agent, opencode, और Gemma 4, Qwen, GLM-5.1 के अलग-अलग combinations टेस्ट किए। बेसिक RAM usage पहले से ही ऊँचा था, इसलिए Gemma4-31B जैसे अच्छे मॉडल नहीं चला पाया। सिर्फ़ Windows environment में file path handling बार-बार गड़बड़ा रही थी, और WSL में pi या opencode चलाकर model को docker desktop से चलाने वाला तरीका कुछ हद तक सफल रहा। लेकिन वास्तविक अनुभव में performance, CC की तुलना में बहुत धीमी लगी, और tool maturity भी CC harness की तरफ़ कहीं बेहतर महसूस हुई। setup में बहुत समय लग गया, इसलिए लंबे समय तक असली उपयोग नहीं कर पाया, लेकिन फिर भी यह एक दिलचस्प प्रयोग था
मुझे चिंता है कि यह क्षेत्र कहीं पहले मुफ़्त में चीज़ें देकर नाम बनाने और बाद में सब कुछ proprietary कर देने वाली दिशा में तो नहीं जा रहा। फिर भी उम्मीद है कि open weights आते रहें। जिस दिन कोई भी open weights जारी नहीं करेगा, वह सच में काफ़ी उदास करने वाला दिन होगा। अगर ऐसा हुआ, तो आम लोगों के लिए अपना compute खुद own करना और मुश्किल हो जाएगा
आज Kimi K2.6 भी साथ में आया है, इसलिए दोनों की तुलना करना काफ़ी स्वाभाविक है। सिर्फ़ pricing देखें तो Qwen में input 1.3 डॉलर और output 7.8 डॉलर है, जबकि Kimi में input 0.95 डॉलर और output 4 डॉलर है, इसलिए Qwen ज़्यादा महँगा दिखता है। announcement post में overlapping benchmarks भी सिर्फ़ दो ही हैं, और SWE-Bench Pro व Terminal-Bench 2.0 दोनों में Kimi, Qwen से थोड़ा आगे था। बेशक हर मॉडल की अपनी ताकत होती है और benchmark सब कुछ नहीं बताते, लेकिन सिर्फ़ numbers के आधार पर देखें तो Kimi ज़्यादा आकर्षक लगता है
इस announcement की विडंबना मुझे उसके नाम में ही दिखती है। Max-Preview proprietary है और cloud-only भी। मेरे लिए असली Qwen वह open weights series है जिसे लोग अपने hardware पर चलाते हैं। मैं dual A4000 पर 32B और 72B लोकल में चला रहा हूँ। hosted Max के साथ अभी भी अंतर है, लेकिन हर release के साथ वह gap घटता दिख रहा है। इसलिए असली दिलचस्प सवाल यह नहीं है कि Max, Opus के मुकाबले कैसा है, बल्कि यह है कि open-weight tier कब ज़्यादातर workloads में cloud tier को लगभग अप्रासंगिक बना देगा
जब सब लोग सिर्फ़ SOTA के पीछे भाग रहे हैं, मैं MiniMax M2.5 पर कई parallel sessions चलाकर महीने के 10 डॉलर में अपना सारा coding काम कर रहा हूँ, और limits से भी लगभग कभी नहीं टकराता
मैंने Qwen की context caching documentation भी देखी है और Opus, Codex, Qwen को साथ में टेस्ट किया है, और मुझे भी लगता है कि Qwen कई coding tasks में मज़बूत है। लेकिन मैं सबसे ज़्यादा जिस बात पर ध्यान देता हूँ, वह है long-running sessions में उसका व्यवहार। Qwen बड़ा context window दिखाता है, लेकिन असल long-context efficiency context caching के तरीके पर बहुत निर्भर लगती है। आधिकारिक docs के अनुसार यह implicit और explicit caching दोनों देता है, लेकिन TTL कुछ मिनटों जितना छोटा है, और prefix-based matching व minimum token conditions जैसी सीमाएँ हैं। इन सीमाओं की वजह से coding agent जैसे workflows में, जहाँ context लगातार बढ़ता रहता है, cache reuse उम्मीद जितना अच्छा नहीं हो सकता। इसलिए token के हिसाब से कीमत कम दिखे, तब भी लंबे sessions में cache hit rate गिर सकता है और recomputation बढ़ सकती है, जिससे अनुभव में लागत ज़्यादा महसूस हो सकती है। फिर भी security-related कामों में मुझे व्यक्तिगत रूप से Qwen, Opus से बेहतर लगा है। मेरे अनुभव में Qwen, individual methods या functions जैसे छोटे कामों में Opus से कहीं बेहतर है, लेकिन कुल coding अनुभव में यह Claude जैसी autonomous end-to-end coding assistant से ज़्यादा function-level generator जैसा लगा
Qwen टीम को Opus 4.5 से तुलना करते देखना मुझे थोड़ा कठिन लगता है अगर इसे अच्छे इरादे से लेना हो। यह समझ में आता है कि Opus 4.7 बहुत नया है इसलिए नहीं है, लेकिन Opus 4.6 आए काफ़ी समय हो चुका है
हाल में चीनी providers को देखते हुए मुझे एक pattern दिखता है। पहला, वे models को closed source रखने की तरफ़ बढ़ रहे हैं, और दूसरा, वे prices भी काफ़ी बढ़ा रहे हैं। कुछ मामलों में तो यह लगभग 100 प्रतिशत तक बढ़ जाता है
दिलचस्प बात यह है कि कोई व्यक्ति लोकल में चलने वाले पूरे Qwen model family को जानता हो लेकिन cloud models के बारे में बिल्कुल न जानता हो। मैं खुद 3.5 series और शायद 3.6 का एक मॉडल ही जानता था, और Plus नाम तो पहली बार अभी सुना