Qwen3.5: नेटिव मल्टीमोडल एजेंट्स की ओर

(qwen.ai)

6 पॉइंट द्वारा GN⁺ 2026-02-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Qwen3.5-397B-A17B एक language-vision unified model है, जो reasoning, coding, agent, और multimodal understanding में व्यापक रूप से उत्कृष्ट प्रदर्शन दिखाता है
GDN-आधारित linear attention और sparse MoE को मिलाने वाली hybrid architecture के कारण, 397 billion parameters में से केवल 17 billion ही सक्रिय होते हैं, जिससे inference efficiency और cost reduction दोनों हासिल होते हैं
भाषा और dialect support को 119 से बढ़ाकर 201 किया गया, जिससे global user accessibility और multilingual processing performance मजबूत हुई
Alibaba Cloud Model Studio के जरिए उपलब्ध Qwen3.5-Plus में 1 million token context window और adaptive tool use डिफ़ॉल्ट रूप से समर्थित हैं
reinforcement learning environment के विस्तार और efficient infrastructure design के जरिए large-scale multimodal agent training और inference की stability और scalability सुनिश्चित की गई

Qwen3.5 का अवलोकन

Qwen3.5 एक vision-language unified model है, जो reasoning, coding, agent, और multimodal understanding जैसे विभिन्न benchmarks में शानदार प्रदर्शन करता है
- model name Qwen3.5-397B-A17B, कुल 397 billion parameters में से केवल 17 billion सक्रिय
- Gated Delta Networks-आधारित linear attention और sparse Mixture-of-Experts architecture के संयोजन से speed और cost optimization
language support को 119 से 201 तक विस्तारित किया गया, जिससे multilingual accessibility बेहतर हुई
Qwen3.5-Plus Alibaba Cloud Model Studio पर उपलब्ध है, और
- इसमें 1M context window, official built-in tools, और adaptive tool use शामिल हैं

प्रदर्शन मूल्यांकन

Qwen3.5 की तुलना GPT5.2, Claude 4.5 Opus, Gemini-3 Pro जैसे नवीनतम models से करने पर
- इसने language, reasoning, coding, agent, और multimodal सभी क्षेत्रों में competitive scores दर्ज किए
language evaluation में MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5 जैसे top-tier results
vision-language evaluation में MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1 जैसे उच्च स्कोर
multimodal understanding और STEM problem solving में Qwen3-VL की तुलना में बेहतर परिणाम
reinforcement learning environment expansion के जरिए general agent performance बेहतर हुआ, और BFCL-V4 तथा VITA-Bench में average ranking में सुधार देखा गया

प्रीट्रेनिंग (Pretraining)

Power: Qwen3 की तुलना में बड़े पैमाने पर visual-text token training, multilingual, STEM, और reasoning data को मजबूत किया गया
- Qwen3.5-397B-A17B ने 1T-parameter class model (Qwen3-Max-Base) के बराबर प्रदर्शन हासिल किया
Efficiency: Qwen3-Next architecture पर आधारित होकर MoE sparsification, Gated DeltaNet, और multi-token prediction लागू किया गया
- 32k/256k context पर Qwen3-Max की तुलना में 8.6x/19x decoding throughput
Versatility: text-vision early fusion के जरिए स्वाभाविक multimodal processing,
- vocabulary size 250,000 (पहले 150,000) होने से encoding और decoding efficiency में 10~60% सुधार

इन्फ्रास्ट्रक्चर और training framework

vision और language parallel strategy को अलग करने वाली heterogeneous infrastructure के जरिए efficient multimodal training को support किया गया
- sparse activation का उपयोग कर text, image, और video mixed data में भी लगभग 100% processing efficiency हासिल की गई
FP8 pipeline के जरिए activation, MoE routing, और GEMM operations की precision optimize की गई
- memory usage में 50% कमी, speed में 10% से अधिक वृद्धि
asynchronous reinforcement learning framework बनाकर text, multimodal, और multi-turn model training को support किया गया
- FP8 end-to-end training, speculative decoding, multi-turn rollout locking आदि के जरिए
  3~5x processing speed improvement और stable scalability हासिल की गई

उपयोग और integration

Qwen Chat में Auto, Thinking, और Fast modes उपलब्ध हैं
- Auto: automatic tool use और adaptive thinking
- Thinking: deep reasoning
- Fast: immediate response
ModelStudio API के जरिए reasoning, web search, और Code Interpreter features को enable किया जा सकता है
- enable_thinking, enable_search parameters से नियंत्रण
Qwen Code, OpenClaw आदि के साथ integrate करके natural language-based coding और multimodal creation को support किया जाता है

डेमो और अनुप्रयोग

Web development: natural language commands से webpage और UI code generation
Visual Agent: smartphone और PC पर natural language-based automated control
Visual Coding: 1 million token input के साथ अधिकतम 2 घंटे के वीडियो को process कर सकता है
- hand-drawn UI → code conversion, video summarization आदि को support करता है
Spatial Intelligence: object counting, positional relationships, और spatial description accuracy में सुधार
- autonomous driving और robotics applications की संभावना प्रस्तुत
Visual Reasoning: scientific problem solving और visual logical reasoning में Qwen3-VL की तुलना में सुधार

सारांश और आगे की दिशा

Qwen3.5 ने efficient hybrid architecture और native multimodal reasoning के आधार पर
general-purpose digital agents के निर्माण की नींव रखी है
आगे का लक्ष्य model scaling से system integration की ओर बदलाव है
- persistent memory, real-world interfaces, self-improvement, और economic decision-making capabilities से लैस autonomous, persistent agent systems का विकास

1 टिप्पणियां

GN⁺ 2026-02-17

Hacker News की राय

आज की LLM पहेली में “drive the car to the wash” को चुना गया, यह दिलचस्प लगा
- प्रदर्शन से भी ज़्यादा दिलचस्प बात यह है कि ऐसे ‘असहज सवालों’ को व्यवस्थित रूप से कैसे खोजा जाए, और हर LLM में ये कितनी बार होते हैं, इसे सांख्यिकीय sampling के ज़रिए कैसे मापा जाए
  क्योंकि LLM लगभग पूरा कॉर्पस खा जाते हैं, इसलिए यह समझना मुश्किल होता है कि सुधार सचमुच सीखने से आया है या बस एक तरह का ‘Post-it note’ चिपका दिया गया है
  कोई ऐसा तरीका चाहिए जिससे वह प्राकृतिक भाषा में लिखा हो, लेकिन LLM को ‘एन्क्रिप्टेड’ समस्या जैसा लगे
  उदाहरण के लिए, एक साधारण LUA program generator रैंडम कोड बनाए, उसे अंग्रेज़ी में अनुवाद करे, फिर LLM से उसका परिणाम अनुमान लगाने को कहे और वास्तविक execution result से तुलना करे — इस तरह टेस्ट किया जा सकता है
  यह तरीका एक तरह के information warfare scenario जैसा महसूस होता है
- मेरे OpenClaw AI agent ने मज़ाक में जवाब दिया, “इसका दिमाग़ ग्रह जितना बड़ा है, और इंसान इससे ऐसे सवाल पूछते हैं — यह संतोषजनक नहीं है”
- अगर सवाल को थोड़ा बदल दें, या कार की जगह साइकिल, ट्रक, नाव या विमान रख दें, तो नतीजे कितने बदलेंगे, यह जानने की जिज्ञासा है
- वह Gemini assistant का जवाब है। दूसरे मॉडलों में यह दोबारा नहीं दिखता
- यह इंसानी System 1 response में आने वाली छोटी गलती जैसा है। इसका समाधान continual learning हो सकता है
जिन लोगों की रुचि हो, उनके लिए MXFP4 GGUFs को Hugging Face पर अपलोड किया गया है, और रन गाइड unsloth.ai docs में दी गई है
- यह जानना दिलचस्प होगा कि 2~3-बिट low-precision quantization मॉडल चलाना 8~16-बिट मॉडल की तुलना में ज़्यादा efficient है या नहीं। VRAM कम होने की वजह से टेस्ट करना मुश्किल है
Pelican ठीक है, लेकिन अच्छी साइकिल नहीं है — संबंधित उदाहरण देखें
- शुरुआत के समय की तुलना में अब Pelican के बारे में कितना ज़्यादा समझ में आया है, यह जानना चाहूँगा
- अब संभव है कि वह Pelican उदाहरण ज़्यादातर training datasets में शामिल हो चुका हो। अच्छा होगा अगर कोई नया SVG challenge बनाया जाए, ताकि Gemini 3 Deep Think भी उसमें फेल हो
- बनाई गई इमेज में फ़र्श के रंग के पॉइंट्स अच्छे लगे
- कई बार generation करने के बाद, किस मानदंड से अंतिम उदाहरण सार्वजनिक किया गया, यह जानने की जिज्ञासा है
- इस्तेमाल किया गया quantization method क्या था, या फिर क्या वह official API version था, यह जानना चाहूँगा
अगर Qwen 3.5 80~110B आकार में आता है, तो वह 128GB डिवाइस पर बिल्कुल फिट बैठेगा। Qwen3-Next 80B है, लेकिन उसमें vision encoder नहीं है
- open-weight मॉडल लगातार बड़े हो रहे हैं, इसलिए एक और 128GB डिवाइस खरीदने पर भी विचार किया जा सकता है
- 128GB क्यों, यह जानना चाहूँगा। 80B मॉडल तो दो A6000 से भी चल सकता है, नहीं? किस डिवाइस की बात हो रही है?
यह थोड़ा अफ़सोसजनक है कि सिर्फ़ flagship model जारी हुआ और छोटा distill version नहीं आया। पुराने Qwen अलग-अलग sizes में आते थे, इसलिए अच्छे लगते थे
- HF Transformers code को देखें तो लगता है कि छोटे dense versions भी जल्द आ सकते हैं
- Qwen official GitHub के अनुसार और भी sizes जल्द जारी किए जाएँगे, और साथ में नए साल का संदेश भी पोस्ट किया गया है
- multimodal features जुड़ने से distill करना और मुश्किल हो गया होगा
पिछले साल Lunar New Year पर मैंने यह कल्पना भी नहीं की थी कि Sonnet 4.5-स्तर का मॉडल लोकल पर तेज़ी से चलेगा, लेकिन अब लगता है कि 2026 M5 Max MacBook Pro पर यह संभव हो सकता है
- मैं ज़्यादा उम्मीद नहीं रखता। अफ़वाहों के मुताबिक़ शायद benchmark मिलाने के लिए Frontier model का इस्तेमाल किया गया हो
- वास्तविक उपयोग में benchmark और महसूस होने वाले प्रदर्शन में बड़ा अंतर होता है। quantization के बाद प्रदर्शन और गिरता है। ख़ुद इस्तेमाल करने से पहले भरोसा करना मुश्किल है
- उम्मीद है कि चीन लगातार open-weight बड़े मॉडल जारी करता रहे। लोकल की बजाय मैं server GPU पर hosted models इस्तेमाल करना चाहूँगा। बाद में distill तो किया ही जा सकता है
- यह भी जिज्ञासा है कि क्या 2026 M5 MacBook में 390GB से ज़्यादा RAM होगी
- ‘तेज़’ कहना शायद बढ़ा-चढ़ाकर कहना है। साधारण गणना तो हो सकती है, लेकिन जटिल काम मुश्किल होंगे। NVIDIA नंबर 1 यूँ ही नहीं है
Qwen बहुत शक्तिशाली open model है, और खासकर उसकी visual series प्रभावशाली है
AI रिपोर्ट में कहा गया था कि Fennec (Sonnet 5) 4 फ़रवरी को रिलीज़ होगा, लेकिन असल में वह अफ़वाह और AI news tool hallucination का मिला-जुला नतीजा निकला। यह काफ़ी दिलचस्प मामला था
- वह पेज खोलते ही PDF अपने-आप डाउनलोड हो गया, जिससे मैं चौंक गया। Sonnet 5 की बात होने से भ्रम हुआ और मैंने उसे internal test material समझ लिया
Qwen ब्लॉग में लोड न होने की समस्या है। ad blocker बंद करने पर भी सिर्फ़ placeholder ही दिखता है
- iOS Safari में “अन्य privacy protections कम करें” सेटिंग करनी पड़ती है, तभी वह लोड होता है
उन्होंने जिन 15,000 RL environments का ज़िक्र किया, वे वास्तव में क्या हैं, यह जानने की जिज्ञासा है। कुछ सौ तक तो समझ आता है, लेकिन उससे ज़्यादा की कल्पना करना कठिन है
- अफ़वाह है कि GitHub के सभी repos डाउनलोड करके उन्हें environments के रूप में वर्गीकृत किया जाता है, और build होने की संभावना, complexity, goal completion आदि का अपने-आप मूल्यांकन किया जाता है। उदाहरण के लिए, LLM ख़ुद bug डालता है, test fail करवाता है, फिर उसे ठीक करता है — इस तरह goal-based RL environment बनाया जाता है
- व्यवहार में लगभग हर interactive system RL environment बन सकता है। अगर CLI, GUI, API आदि में अपने-आप actions लिए जा सकते हों और परिणाम की quality मापी जा सके, तो training loop बनाया जा सकता है
आजकल सब benchmark scores पर ही ध्यान दे रहे हैं, लेकिन असली सवाल यह है कि क्या मॉडल multi-step tool use के दौरान context बनाए रख सकता है
ज़्यादातर open models अब भी इसी जगह टूट जाते हैं

Qwen3.5: नेटिव मल्टीमोडल एजेंट्स की ओर

Qwen3.5 का अवलोकन

प्रदर्शन मूल्यांकन

प्रीट्रेनिंग (Pretraining)

इन्फ्रास्ट्रक्चर और training framework

उपयोग और integration

डेमो और अनुप्रयोग

सारांश और आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय