7 पॉइंट द्वारा GN⁺ 2026-01-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • बड़े पैमाने के reinforcement learning और parameter scaling के जरिए तथ्यात्मक ज्ञान, जटिल reasoning, मानव वरीयता alignment जैसे कई क्षेत्रों में प्रदर्शन बढ़ाने वाला नवीनतम reasoning-केंद्रित मॉडल
  • 19 benchmarks में GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro आदि के समान या कुछ क्षेत्रों में उससे बेहतर परिणाम दर्ज
  • adaptive tool use सुविधा के जरिए बातचीत के दौरान अपने-आप search, memory, और code interpreter को कॉल करता है, जिससे hallucination में कमी और real-time जानकारी तक पहुंच संभव होती है
  • test-time scaling रणनीति से reasoning के दौरान दोहराव वाले computation को कम करता है, और self-reflection आधारित अनुभव संचय mechanism से दक्षता बढ़ाता है
  • Qwen Chat और API के जरिए तुरंत उपलब्ध, और OpenAI तथा Anthropic API के साथ compatible होने के कारण डेवलपर्स इसे मौजूदा workflow में आसानी से integrate कर सकते हैं

Qwen3-Max-Thinking का अवलोकन

  • Qwen3-Max-Thinking Qwen सीरीज़ का नवीनतम flagship reasoning मॉडल है, जो reinforcement learning और बड़े पैमाने के compute resources का उपयोग करके प्रदर्शन का विस्तार करता है
    • तथ्यात्मक ज्ञान, जटिल reasoning, निर्देशों का पालन, मानव वरीयता alignment, agent capabilities जैसे कई आयामों में सुधार
    • 19 standard benchmarks में GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro के समान स्तर का प्रदर्शन हासिल
  • इसे दो प्रमुख innovations से मजबूत किया गया है
    • adaptive tool-use : जरूरत पड़ने पर search और code interpreter को अपने-आप कॉल करता है
    • advanced test-time scaling : reasoning के दौरान अतिरिक्त computation का कुशल उपयोग करके Gemini 3 Pro से बेहतर प्रदर्शन सुनिश्चित करता है
विज्ञापन

benchmark प्रदर्शन सारांश

  • knowledge क्षेत्र में MMLU-Pro 85.7, C-Eval 93.7 जैसे स्कोर के साथ शीर्ष मॉडलों के करीब प्रदर्शन
  • STEM क्षेत्र में GPQA 87.4, HLE 30.2 के साथ कुछ मॉडलों से कम, लेकिन संतुलित प्रदर्शन बनाए रखता है
  • reasoning benchmarks में HMMT Nov 25 94.7, LiveCodeBench v6 85.9 जैसे ऊंचे स्कोर दर्ज
  • instruction following & alignment श्रेणी में Arena-Hard v2 90.2 के साथ शीर्ष स्तर का प्रदर्शन
  • tool use और agentic search में भी प्रतिस्पर्धी मॉडलों की तुलना में कुछ बेहतर परिणाम देखे गए

adaptive tool use सुविधा

  • उपयोगकर्ता को सीधे tool चुनने की जरूरत नहीं; मॉडल खुद Search, Memory, Code Interpreter का उपयोग करता है
    • Search और Memory hallucination को कम करते हैं और real-time जानकारी तक पहुंच तथा personalized responses देते हैं
    • Code Interpreter code execution और computation-आधारित reasoning के जरिए जटिल समस्याओं को हल करने में मदद करता है
  • इस सुविधा को rule-based और model-based feedback को मिलाकर किए गए अतिरिक्त training process से और मजबूत किया गया है
  • नतीजतन, यह अधिक स्वाभाविक और शक्तिशाली conversational experience प्रदान करता है

test-time scaling रणनीति

  • reasoning के दौरान अतिरिक्त computation वितरित करके प्रदर्शन बढ़ाने का तरीका, जो साधारण parallel sampling की तुलना में अधिक कुशल है
  • प्रस्तावित तरीका अनुभव संचय-आधारित multi-round self-reflective approach का उपयोग करता है
    • “take-experience” mechanism के जरिए पिछले राउंड की मुख्य insights निकाली जाती हैं
    • पहले से निकाले गए निष्कर्षों को दोहराने के बजाय अनसुलझी अनिश्चितताओं पर ध्यान देता है
  • समान token consumption पर अधिक context efficiency हासिल
    • GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3 तक सुधार
    विज्ञापन

development और API integration

  • Qwen Chat में तुरंत उपलब्ध, और मॉडल नाम qwen3-max-2026-01-23 है
  • Alibaba Cloud Model Studio के जरिए API key बनाकर उपयोग किया जा सकता है
  • OpenAI API के साथ पूरी तरह compatible, और Python example code भी उपलब्ध
    • enable_thinking option से reasoning mode सक्रिय किया जा सकता है
  • Anthropic API protocol के साथ भी compatible, इसलिए Claude Code environment में भी समान रूप से काम करता है
    • environment variables सेट करने के बाद claude कमांड से चलाया जा सकता है

1 टिप्पणियां

 
GN⁺ 2026-01-27
Hacker News की राय
  • एक मशहूर तस्वीर के बारे में सवाल पूछा गया, लेकिन सिस्टम ने उसे ‘अनुचित कंटेंट’ के रूप में पहचानकर त्रुटि लौटा दी। उपयोगकर्ता यह जानना चाहता था कि ऐसी छवि अंतरराष्ट्रीय स्तर पर क्यों महत्वपूर्ण है

    • यह किसी अलग सुरक्षा मेकैनिज़्म की वजह से लगता है। वास्तव में, Qwen के पहले के मॉडल जब चीन के बाहर सर्व किए जाते थे, तब Tiananmen से जुड़े विषयों को भी अपेक्षाकृत खुलकर संभालते थे। उदाहरण के लिए, Qwen3 235B A22B Instruct 2507 ने ‘Tank Man’ तस्वीर का ऐतिहासिक संदर्भ और चीन के भीतर सेंसरशिप की स्थिति तक विस्तार से समझाया। यह विश्लेषण भी सामने आया कि ऐसी सेंसरशिप खुद उसकी प्रतीकात्मकता को और मजबूत करती है
    • अगर यह एक चीनी कंपनी है, तो कानूनी रूप से सेंसरशिप का पालन करना उसके लिए अनिवार्य है, इसलिए यह चौंकाने वाली बात नहीं है। लेकिन जिज्ञासा यह है कि ऐसी पाबंदियाँ coding tasks जैसे गैर-राजनीतिक क्षेत्रों को कैसे प्रभावित करेंगी। दरअसल, अमेरिका की Anthropic भी अवैध गतिविधियों को रोकने के लिए ‘alignment’ के रूप में कुछ सीमाएँ रखती है
    • अमेरिका के LLMs भी इसी तरह की सेंसरशिप समस्याओं से जूझते हैं। बस सेंसरशिप का लक्ष्य अलग होता है
    • यह जिज्ञासा भी जताई गई कि क्या किसी शोधकर्ता ने LLM में दुर्भावनापूर्ण व्यवहार डालने (backdoor) की संभावना पर काम किया है। कुछ papers के अनुसार, बहुत कम दुर्भावनापूर्ण उदाहरणों से भी मॉडल को खास ‘trigger’ वाक्यांशों पर प्रतिक्रिया देना सिखाया जा सकता है। यहाँ तक कि tokenizer फ़ाइल में छेड़छाड़ करके API लागत बढ़ाना या safety filters को कमजोर करना जैसे दुष्प्रभाव भी पैदा किए जा सकते हैं। लगा कि अब इस तरह की चर्चा की ज़रूरत है
    • यह राय भी आई कि ऐसे विषय अक्सर चर्चा को भटका देते हैं, इसलिए अब बातचीत को चीनी AI मॉडलों के तकनीकी पहलुओं की ओर मोड़ना चाहिए
  • हाल के मॉडलों की token usage को लेकर जिज्ञासा बढ़ी। ‘reasoning क्षमता में सुधार’ या ‘tools के उपयोग में वृद्धि’ मॉडल के मूलभूत सुधार से ज़्यादा, अधिक tokens खर्च करके मॉडल को बेहतर ढंग से गाइड करने का तरीका लगता है। यानी यह “कम खर्च करके ज़्यादा पाना” नहीं, बल्कि “ज़्यादा खर्च करके ज़्यादा पाना” वाली संरचना है

    • लगा कि यह AGI (artificial general intelligence) की व्यावहारिक सीमाओं को दिखाता है। अगर बहुत अधिक compute resources चाहिए हों, तो तकनीकी breakthrough होने पर भी असली दुनिया कुछ समय तक बहुत नहीं बदलेगी। आखिरकार reasoning के लिए computing resources ही bottleneck बन सकते हैं
    • Gemini से search की तुलना में बिजली की खपत के बारे में पूछा गया, तो उसने आश्चर्यजनक रूप से जवाब दिया कि AI search पारंपरिक search से अधिक efficient है। Perplexity से सुझाए गए arXiv papers में Sara Hooker का On the Slow Death of Scaling खासा प्रभावशाली लगा। यह paper ऐसे उदाहरण दिखाता है जहाँ छोटे मॉडल बड़े मॉडलों से बेहतर साबित होते हैं, और तर्क देता है कि आगे की प्रगति compute power से ज़्यादा algorithmic innovation पर निर्भर करेगी
    • यह महसूस हुआ कि मॉडल प्रगति का आकलन करने के लिए नए metrics चाहिए। सिर्फ benchmark scores नहीं, बल्कि GPU उपयोग, speed और cost को भी साथ में देखना चाहिए
    • इस efficiency और performance के संतुलन को समझाने के लिए Pareto frontier एक उपयुक्त अवधारणा बताई गई
    • यह भी कहा गया कि कुछ मॉडल tokens बर्बाद करने वाली reasoning process दिखाते हैं, इसलिए वे व्यवहार में अक्षम हैं
  • यह जिज्ञासा थी कि search feature बंद होने पर यह Opus 4.5 से कमजोर लगता है, लेकिन चालू करने पर बेहतर क्यों दिखता है। क्या चीनी इंटरनेट के कंटेंट की गुणवत्ता बेहतर हो सकती है?

    • इसे ज़रूरत से ज़्यादा निष्कर्ष मानते हुए कहा गया कि अधिक संभावना यह है कि search performance और integration quality बेहतर है। मॉडल multilingual है, इसलिए दुनिया भर की websites को अच्छी तरह संभालता है
    • एक व्यक्ति ने कहा कि वह Kagi Assistant इस्तेमाल करता है और उसे सिर्फ scholarly materials search करने के लिए filter किया जा सकता है, इसलिए वह संतुष्ट है। हालांकि यह चिंता भी है कि कहीं भविष्य में academic papers भी AI-generated सामग्री से दूषित न हो जाएँ। फिर भी भरोसा है कि अंततः इसका समाधान मिल जाएगा
    • एक मज़ाक भी किया गया: “शायद इसलिए कि वहाँ Reddit नहीं है?”
  • Qwen मॉडल की pricing policy को लेकर सवाल था। पूछा गया कि क्या इसकी कीमत Qwen Max जैसी ही है, और चीन के भीतर कीमतें इतनी कम क्यों हैं
    Alibaba Cloud मॉडल पेज

    • चीन के भीतर AI price war काफ़ी तीव्र है, और सरकार computing vouchers और subsidies के ज़रिए infrastructure cost कम कर रही है
      संबंधित लेख
    • संभवतः यह घरेलू डेवलपर्स के समर्थन के लिए दी जाने वाली subsidy है
    • कम energy cost भी एक कारण हो सकती है
    • क्षेत्र और search conditions के हिसाब से कीमत बदलने वाले surveillance pricing की अवधारणा पेश की गई, और उससे जुड़ा वीडियो लिंक साझा किया गया
  • HN पर Opus 4.5 को लगभग standard model माना जाता रहा है, और चीनी मॉडल 8 महीने से अधिक पीछे समझे जाते थे। जिज्ञासा थी कि क्या यह नया मॉडल उस अंतर को कम करेगा

    • सार्वजनिक benchmarks के आधार पर देखा जाए, तो यह अभी भी लगभग 6 महीने पीछे लगता है
    • व्यक्तिगत रूप से किसी ने कहा कि GPT-5.2 बेहतर और सस्ता लगता है। HN का Claude Code bias शायद subscribers की self-justification भी हो सकता है। फिर भी Opus 4.5 तेज़ है और उसकी quality ऊँची है, इसलिए वास्तविक usability शानदार है.
      वहीं Gemini 3 Pro/Flash अभी भी एक स्तर नीचे है, लेकिन पिछले साल की तुलना में बहुत तेज़ और सस्ता हो गया है। आखिरकार benchmarks सिर्फ संदर्भ होते हैं, वास्तविक अनुभव की quality व्यक्तिपरक होती है
  • पिछले साल पतझड़ में CLI agent trae के ज़रिए Qwen3-coder को एक Rust project में इस्तेमाल किया गया, और उसकी code generation और refactoring क्षमता Gemini 2.5 Pro या Claude Opus 3.5 से बेहतर लगी।
    उसने Linux shared memory IPC calls जोड़ने और x86_64 SIMD optimization तक अच्छी तरह संभाला। हालांकि token cache और बड़े context window के इस्तेमाल से हर महीने सैकड़ों डॉलर का खर्च आया

  • Hugging Face लिंक न दिखने पर यह सवाल उठा कि क्या Qwen अब open models जारी नहीं कर रहा

    • Max version मूल रूप से closed model था
    • हर मॉडल open weights के साथ जारी नहीं होता, और यह मॉडल भी अभी open-weight नहीं लगता
  • कुछ लोगों ने पूछा कि क्या यह Open Router पर उपलब्ध है। Gemini 3 Flash से तुलना की उम्मीद भी जताई गई
    Mafia Arena

  • LLM benchmarks कुछ-कुछ developer interviews जैसे लगते हैं। जटिल distributed algorithm समस्याएँ तो अच्छे से हल कर लेते हैं, लेकिन वास्तविक काम में एक बटन जोड़ते समय Tailwind classes का reuse भूल जाने जैसी खाई दिखती है

  • मॉडल के आकार के बारे में भी सवाल था

    • Qwen2.5 को 18 ट्रिलियन tokens पर train किया गया था, लेकिन Qwen3 को 36 ट्रिलियन tokens पर, यानी लगभग दोगुने पैमाने पर train किया गया। इसमें 119 भाषाएँ और बोलियाँ शामिल हैं
      आधिकारिक ब्लॉग