Alibaba के ओपन सोर्स Qwen3.5-Medium मॉडल अब लोकल पर Sonnet 4.5 स्तर का प्रदर्शन देते हैं

(venturebeat.com)

22 पॉइंट द्वारा GN⁺ 2026-03-02 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Qwen3.5 सीरीज़ में 35B, 122B, 27B सहित चार बड़े language models शामिल हैं, जिनमें से तीन Apache 2.0 open source license के तहत जारी किए गए हैं
बेंचमार्क में ये OpenAI GPT-5-mini और Anthropic Claude Sonnet 4.5 से बेहतर प्रदर्शन दिखाते हैं, और लोकल GPU environment में भी high-performance execution संभव है
4-bit quantization के साथ लगभग समान accuracy बनाए रखते हुए 10 लाख से अधिक tokens की context window को support करते हैं, जिससे desktop GPU पर भी बड़े पैमाने का data processing संभव है
Gated Delta Networks और Mixture-of-Experts(MoE) संरचना को मिलाकर efficiency बढ़ाई गई है, और ‘Thinking Mode’ के जरिए internal reasoning process के बाद उत्तर तैयार किया जाता है
कंपनियाँ इसके जरिए privacy-protecting on-premise AI बना सकती हैं, और महंगे cloud पर निर्भर हुए बिना autonomous agent development कर सकती हैं

Qwen3.5-Medium मॉडल का परिचय

Alibaba की Qwen AI टीम द्वारा जारी Qwen3.5-Medium सीरीज़, agentic tool calling को support करने वाले चार LLMs से बनी है
- public models: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- proprietary model: Qwen3.5-Flash (केवल Alibaba Cloud Model Studio API के लिए)
तीन open source models को Hugging Face और ModelScope से डाउनलोड किया जा सकता है
Qwen3.5-Flash एक commercial API के रूप में उपलब्ध है, और पश्चिमी मॉडलों की तुलना में इसका operating cost कम है

Qwen3.5 मॉडल बेंचमार्क में OpenAI GPT-5-mini और Claude Sonnet 4.5 से आगे हैं
quantization के बाद भी ये high accuracy बनाए रखते हैं, और लोकल GPU(32GB VRAM) environment में 10 लाख tokens से अधिक की context window को support करते हैं
4-bit weight और KV cache quantization के जरिए accuracy loss के बिना बड़े पैमाने के data processing को संभव बनाया गया है
hybrid architecture: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- कुल 35 अरब parameters में से केवल 30 करोड़ सक्रिय होते हैं
- MoE layer में 256 experts (8 routing + 1 shared) शामिल हैं
- 4-bit compression के बाद भी accuracy बरकरार रहती है, जिससे local deployment में memory की बचत होती है
research support के लिए Qwen3.5-35B-A3B-Base मॉडल भी साथ में जारी किया गया है

Thinking Mode: मॉडल उत्तर देने से पहले `` टैग के भीतर internal reasoning process बनाता है
अलग-अलग मॉडलों की विशेषताएँ
- Qwen3.5-27B: efficiency-केंद्रित, 8 लाख tokens से अधिक context support
- Qwen3.5-Flash: 10 लाख tokens का default context, official tools built-in
- Qwen3.5-122B-A10B: server-grade GPU(80GB VRAM) के लिए, 10 लाख+ context support
benchmark results: Qwen3.5-35B-A3B, Qwen3-235B, GPT-5-mini और Sonnet 4.5 की तुलना में knowledge(MMMLU) और visual reasoning(MMMU-Pro) में बेहतर है

Qwen3.5-Flash API pricing
- input: $0.1 / 10 लाख tokens
- output: $0.4 / 10 लाख tokens
- cache creation: $0.125 / 10 लाख tokens
- cache read: $0.01 / 10 लाख tokens
tool calling pricing: Web Search $10/1,000 बार, Code Interpreter मुफ़्त (सीमित अवधि के लिए)
प्रमुख LLMs की तुलना में यह सबसे सस्ते APIs में से एक है
- उदाहरण: Claude Sonnet 4.5 की कुल लागत $18/10 लाख tokens, GPT-5.2 की $15.75, जबकि Qwen3.5-Flash की $0.5

Qwen3.5-Medium की रिलीज़ से बड़े research lab स्तर की model fine-tuning और deployment अब सामान्य कंपनियों के लिए भी संभव हो सकती है
on-premise environment में बड़े दस्तावेज़ और वीडियो analysis संभव है, जिससे data privacy मजबूत होती है
Mixture-of-Experts संरचना को कंपनी के firewall के भीतर चलाकर data sovereignty बनाए रखी जा सकती है
Thinking Mode और Tool Calling फीचर्स का उपयोग कर autonomous AI agents बनाए जा सकते हैं
शुरुआती उपयोगकर्ताओं का कहना है कि इसने “बड़े closed-source models के साथ अंतर को कम कर दिया है”
efficiency-focused design के कारण AI integration में लागत घटाने, सुरक्षा मजबूत करने और operational agility बढ़ाने में मदद मिल सकती है