यह Alibaba Qwen टीम द्वारा अप्रैल 2026 में open source के रूप में जारी किया गया एक large language model है। यह MoE(Mixture-of-Experts) architecture का उपयोग करता है। MoE वह तरीका है जिसमें मॉडल के अंदर कई "expert networks" होते हैं, और हर बार इनपुट आने पर उनमें से केवल कुछ को चुनकर सक्रिय किया जाता है। कुल parameters 35 billion हैं, लेकिन वास्तविक inference के समय केवल 3 billion का उपयोग होता है, इसलिए यह कुल क्षमता के लगभग 8.6% पर काम करता है। यह केवल text ही नहीं, बल्कि image और video को भी समझने वाला multimodal model है, और सोचने की प्रक्रिया दिखाने वाला Thinking mode तथा सीधे उत्तर देने वाला Non-thinking mode दोनों को support करता है.

मुख्य बातें

  • पिछले Qwen3.5-35B-A3B की तुलना में agentic coding (AI द्वारा स्वयं files खोजना, terminal चलाना, और bugs का निदान व सुधार करना) का प्रदर्शन काफी बेहतर हुआ है
  • SWE-bench Verified (वास्तविक software bug fixing evaluation) में 73.4 और Terminal-Bench 2.0 में 51.5 स्कोर के साथ, इससे कहीं बड़े parameter वाले Dense models (पारंपरिक संरचना जिसमें सभी parameters का उपयोग होता है) जैसे Qwen3.5-27B को कई मापदंडों में पीछे छोड़ता है
  • mathematics competition (AIME 2026) में 92.7 और real-time coding (LiveCodeBench v6) में 80.4 स्कोर के साथ 27B Dense model के बराबर है
  • multimodal क्षेत्र में MMMU 81.7 और RealWorldQA 85.3 स्कोर के साथ Claude Sonnet 4.5 (paid commercial model) से आगे है, और image के भीतर object location recognition (RefCOCO 92.0) जैसे spatial intelligence में विशेष रूप से मजबूत है
  • OpenClaw, Claude Code, Qwen Code जैसे third-party coding tools के साथ तुरंत integration संभव है, और Anthropic API protocol के साथ भी compatible है

फायदे

  • 3B active parameters के साथ 27~31B Dense models जैसी performance देता है, इसलिए GPU memory और power consumption कम होती है और छोटे environments में भी इसे चलाया जा सकता है
  • agentic coding benchmarks में कुल मिलाकर अपनी श्रेणी के सर्वश्रेष्ठ स्तर का प्रदर्शन
  • text, image, video और documents — सबको एक ही model से process कर सकता है
  • पूरी तरह open source होने के कारण कोई भी इसे download, further training और customize कर सकता है

कमियाँ

  • general-purpose agent tasks (VITA-Bench 35.6) में यह पिछले 27B Dense model (41.8) से कम है, इसलिए अभी सुधार की गुंजाइश है
  • सबसे कठिन academic reasoning (HLE 21.4) में भी बड़े Dense models (24.3) से पीछे है
  • knowledge benchmark (MMLU-Pro) में थोड़ा कमजोर है
  • API अभी भी "coming soon" स्थिति में है, इसलिए इसे तुरंत बड़े पैमाने की service में लागू करना कठिन है

अलग क्या है

  • समान MoE संरचना वाले Google Gemma4-26B-A4B को लगभग सभी benchmarks में स्पष्ट रूप से पीछे छोड़ता है
  • agent tasks के दौरान previous conversation turns की thinking content को सुरक्षित रखने वाली preserve_thinking सुविधा, लंबी अवधि के context को बनाए रखने में मदद करती है
  • Anthropic API protocol compatibility के कारण Claude Code ecosystem में भी सीधे प्रवेश संभव है

निहितार्थ

  • 3B active parameters के साथ 27B model के बराबर परिणाम दिखाते हैं कि MoE architecture AI efficiency का नया standard बनता जा रहा है
  • open source model का Claude Sonnet 4.5 जैसे paid model को कई मापदंडों में हराना इस बात का संकेत है कि कंपनियों के लिए महंगे APIs के बजाय self-hosting की ओर जाने की प्रेरणा बढ़ रही है
  • benchmarks की संरचना में agentic coding का हिस्सा बहुत बड़ा होना यह दिखाता है कि उद्योग AI की autonomous software development capability को सबसे महत्वपूर्ण evaluation criterion के रूप में देख रहा है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.