Alibaba के ओपन सोर्स Qwen3.5-Medium मॉडल अब लोकल पर Sonnet 4.5 स्तर का प्रदर्शन देते हैं

(venturebeat.com)

22 पॉइंट द्वारा GN⁺ 2026-03-02 | 4 टिप्पणियां | WhatsApp पर शेयर करें

Qwen3.5 सीरीज़ में 35B, 122B, 27B सहित चार बड़े language models शामिल हैं, जिनमें से तीन Apache 2.0 open source license के तहत जारी किए गए हैं
बेंचमार्क में ये OpenAI GPT-5-mini और Anthropic Claude Sonnet 4.5 से बेहतर प्रदर्शन दिखाते हैं, और लोकल GPU environment में भी high-performance execution संभव है
4-bit quantization के साथ लगभग समान accuracy बनाए रखते हुए 10 लाख से अधिक tokens की context window को support करते हैं, जिससे desktop GPU पर भी बड़े पैमाने का data processing संभव है
Gated Delta Networks और Mixture-of-Experts(MoE) संरचना को मिलाकर efficiency बढ़ाई गई है, और ‘Thinking Mode’ के जरिए internal reasoning process के बाद उत्तर तैयार किया जाता है
कंपनियाँ इसके जरिए privacy-protecting on-premise AI बना सकती हैं, और महंगे cloud पर निर्भर हुए बिना autonomous agent development कर सकती हैं

Qwen3.5-Medium मॉडल का परिचय

Alibaba की Qwen AI टीम द्वारा जारी Qwen3.5-Medium सीरीज़, agentic tool calling को support करने वाले चार LLMs से बनी है
- public models: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- proprietary model: Qwen3.5-Flash (केवल Alibaba Cloud Model Studio API के लिए)
तीन open source models को Hugging Face और ModelScope से डाउनलोड किया जा सकता है
Qwen3.5-Flash एक commercial API के रूप में उपलब्ध है, और पश्चिमी मॉडलों की तुलना में इसका operating cost कम है

प्रदर्शन और तकनीकी संरचना

Qwen3.5 मॉडल बेंचमार्क में OpenAI GPT-5-mini और Claude Sonnet 4.5 से आगे हैं
quantization के बाद भी ये high accuracy बनाए रखते हैं, और लोकल GPU(32GB VRAM) environment में 10 लाख tokens से अधिक की context window को support करते हैं
4-bit weight और KV cache quantization के जरिए accuracy loss के बिना बड़े पैमाने के data processing को संभव बनाया गया है
hybrid architecture: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- कुल 35 अरब parameters में से केवल 30 करोड़ सक्रिय होते हैं
- MoE layer में 256 experts (8 routing + 1 shared) शामिल हैं
- 4-bit compression के बाद भी accuracy बरकरार रहती है, जिससे local deployment में memory की बचत होती है
research support के लिए Qwen3.5-35B-A3B-Base मॉडल भी साथ में जारी किया गया है

उत्पाद संरचना और फीचर्स

Thinking Mode: मॉडल उत्तर देने से पहले `` टैग के भीतर internal reasoning process बनाता है
अलग-अलग मॉडलों की विशेषताएँ
- Qwen3.5-27B: efficiency-केंद्रित, 8 लाख tokens से अधिक context support
- Qwen3.5-Flash: 10 लाख tokens का default context, official tools built-in
- Qwen3.5-122B-A10B: server-grade GPU(80GB VRAM) के लिए, 10 लाख+ context support
benchmark results: Qwen3.5-35B-A3B, Qwen3-235B, GPT-5-mini और Sonnet 4.5 की तुलना में knowledge(MMMLU) और visual reasoning(MMMU-Pro) में बेहतर है

कीमत और API integration

Qwen3.5-Flash API pricing
- input: $0.1 / 10 लाख tokens
- output: $0.4 / 10 लाख tokens
- cache creation: $0.125 / 10 लाख tokens
- cache read: $0.01 / 10 लाख tokens
tool calling pricing: Web Search $10/1,000 बार, Code Interpreter मुफ़्त (सीमित अवधि के लिए)
प्रमुख LLMs की तुलना में यह सबसे सस्ते APIs में से एक है
- उदाहरण: Claude Sonnet 4.5 की कुल लागत $18/10 लाख tokens, GPT-5.2 की $15.75, जबकि Qwen3.5-Flash की $0.5

एंटरप्राइज़ उपयोग और महत्व

Qwen3.5-Medium की रिलीज़ से बड़े research lab स्तर की model fine-tuning और deployment अब सामान्य कंपनियों के लिए भी संभव हो सकती है
on-premise environment में बड़े दस्तावेज़ और वीडियो analysis संभव है, जिससे data privacy मजबूत होती है
Mixture-of-Experts संरचना को कंपनी के firewall के भीतर चलाकर data sovereignty बनाए रखी जा सकती है
Thinking Mode और Tool Calling फीचर्स का उपयोग कर autonomous AI agents बनाए जा सकते हैं
शुरुआती उपयोगकर्ताओं का कहना है कि इसने “बड़े closed-source models के साथ अंतर को कम कर दिया है”
efficiency-focused design के कारण AI integration में लागत घटाने, सुरक्षा मजबूत करने और operational agility बढ़ाने में मदद मिल सकती है

4 टिप्पणियां

chcv0313 2026-03-02

मेरे पास RTX Pro 6000 (96GB, असल में 94GB) है, लेकिन ollama में 122B मॉडल लोड नहीं हो रहा। शायद यह vision model होने की वजह से है, क्योंकि इसमें vision transformer वाला हिस्सा भी शामिल है। GPT OSS 120b मॉडल तो आराम से लोड हो जाता है।

ng0301 2026-03-02

सही है.. vision encoder इस्तेमाल होने पर 1B model भी 9G VRAM खा जाता है।

kensin2 2026-03-02

परफ़ॉर्मेंस तभी मिलती है जब इसे CUDA-आधारित llama.cpp सर्वर पर चलाया जाए।

GN⁺ 2026-03-02

Hacker News टिप्पणियाँ

ज़्यादातर open source मॉडल benchmark optimization game खेल रहे हैं
हर नया मॉडल कुछ महीने पहले के SOTA स्तर का होने का दावा करता है, लेकिन असल इस्तेमाल में अक्सर निराशा होती है
मैंने Qwen3-Coder-Next और Qwen3.5 इस्तेमाल किए हैं, और ये Sonnet 4.5 के स्तर तक नहीं पहुँचते
हालांकि अगर लक्ष्य स्पष्ट रूप से बताया जाए और टेस्ट के ज़रिए सीमाएँ दी जाएँ, तो ये लगातार कोशिश करते रहते हैं और आखिरकार समस्या हल कर देते हैं
फिर भी open source मॉडल के हिसाब से यह प्रभावशाली है, और self-hosted environment में इस स्तर तक पहुँचना चौंकाने वाली बात है
लेकिन Sonnet 4.5-स्तर जैसा बढ़ा-चढ़ाकर किया गया दावा नहीं मानना चाहिए
- मेरे अनुभव में कुछ open source मॉडल सचमुच मज़बूत और व्यावहारिक हैं
  खासकर StepFun-3.5-flash जटिल Rust codebase में भी शानदार काम करता है
  मेरा StepFun से कोई संबंध नहीं है, लेकिन 196B/11B आर्किटेक्चर से ऐसा प्रदर्शन निकालने वाली टीम के लिए मेरे मन में गहरा सम्मान है
- “पिछली पीढ़ी” के मॉडल अब भी open source से बेहतर हैं, लेकिन GLM-5 जैसे मॉडल pattern matching क्षमता को अच्छी तरह पकड़ते दिखते हैं
  मॉडल्स को आपस में प्रतिस्पर्धा करवाने वाला GertLabs benchmark छेड़छाड़ करना कठिन है, इसलिए काफी भरोसेमंद लगता है
- सच कहें तो ऐसी benchmark optimization हर मॉडल करता है
  बल्कि cloud मॉडल runtime तक भी adjust कर सकते हैं, इसलिए वहाँ यह और ज़्यादा हो सकता है
- मैं Qwen 3.5 27B को 4090 पर चला रहा हूँ, और local मॉडल में इतनी अच्छी coding performance मैंने पहली बार देखी है
  पहले ये लगभग इस्तेमाल लायक नहीं थे, लेकिन इस बार सचमुच हैरानी हुई
- मैं सोच रहा था कि कोई नया offline/private coding benchmark है या नहीं, और Apex Testing काफी अच्छा लग रहा है
  अगर टेस्ट standard problems से अलग हैं, तो शायद overfitting के खिलाफ भी मज़बूत होंगे
मैं MBP M3 Max 128G पर local मॉडल चलाकर performance की तुलना कर रहा हूँ
Opus 4.6 और Gemini Pro तेज़ और सटीक थे, लेकिन qwen3.5:35b-a3b 45 मिनट तक चलता रहा और गलत जवाब देता रहा
फैन की आवाज़ इतनी तेज़ थी कि जैसे विमान उड़ान भर रहा हो
इतने धीमे मॉडल से large codebase संभालना संभव है या नहीं, इस पर संदेह है
- सच तो यह है कि 100B parameter वाले open मॉडल को laptop पर चलाने की एक सीमा है
  cloud मॉडल 1T से ज़्यादा parameters और लाखों डॉलर के GPU पर चलते हैं
  local coding की वास्तविक सीमा फिलहाल “Android app boilerplate generate करना” जैसी है
- Opus और Gemini लाखों डॉलर वाले H200-स्तर के GPU पर चलते हैं
  local मॉडल अभी भी दो पीढ़ी पुरानी performance के स्तर पर हैं, और अगर कोई Sonnet 4.5-स्तर का दावा करता है, तो Opus 4.6 से उसका बड़ा अंतर रहेगा
- इंडस्ट्री “बड़ा मॉडल हमेशा बेहतर होता है” जैसी logical fallacy में फँसी हुई है
  असल में, किसी संकीर्ण समस्या के लिए specialized छोटा मॉडल बेहतर काम कर सकता है
  हमारी टीम coding पर केंद्रित एक छोटा मॉडल M2 16GB पर चला रही है, और हमें लगता है कि यह Sonnet 4.5 से बेहतर है
  हम जल्द rig.ai beta जारी करने वाले हैं
- MacBook में thermal limitations बहुत ज़्यादा हैं, इसलिए लंबे समय के काम के लिए यह उपयुक्त नहीं है
  servers में भी अगर fan speed को 100% पर fix कर दिया जाए, तो GPU performance 30% बढ़ जाती है
  local मॉडल हल्के कामों के लिए ठीक हैं, और भारी काम cloud में करना ज़्यादा efficient है
- qwen3.5-35b-a3b में context छोटा होने पर inference पर ज़्यादा समय खर्च करने की प्रवृत्ति है
  कुछ रिपोर्ट्स के मुताबिक लंबा system prompt या file contents देने पर यह कहीं ज़्यादा efficient हो जाता है
मैंने M1 MacBook Pro पर llama.cpp, OpenCode, Qwen3-Coder-30B-A3B-Instruct(GGUF, Q4_K_M quantization) सेटअप करने की गाइड लिखी है
इंस्टॉल करना काफ़ी मुश्किल था, लेकिन यह नए मॉडल्स पर भी लागू हो सकती है
install guide link
- LM Studio इस्तेमाल करें तो एक search और click में इंस्टॉल हो जाता है, और यह OpenAI-compatible API के रूप में expose भी होता है
- मैंने यही सेटअप Ryzen 32GB desktop पर भी किया, और Qwen सबसे प्रभावशाली लगा
  MoE architecture की वजह से inference speed भी तेज़ है
  मैंने Q4_K_M quantization चुना, लेकिन यह सबसे अच्छा विकल्प है या नहीं, यह जानना चाहता हूँ
- मैं इंतज़ार कर रहा हूँ कि 16GB RAM पर भी उपयोगी local मॉडल आएँ
- M1 पर run speed कितनी मिलती है, यह जानने की उत्सुकता है
मैंने हाल ही में LLM के अंदरूनी हिस्सों का अध्ययन शुरू किया है, और समझ आया कि float32 बहुत उदार precision है
ब्लॉग्स के ज़रिए मैंने quantization सीखी, और Claude से 1~8-bit quantization की accuracy का analysis करवाया
4-bit लगभग बिना नुकसान के 99% समानता देता दिखा, जबकि आकार 8-bit का आधा है, इसलिए यह एक sweet spot जैसा लगा
असली experts भी 4-bit इस्तेमाल करते हैं, यह देखना दिलचस्प है
- नए NVIDIA hardware में 4-bit training भी support होती है
  GPT-OSS मॉडल MXFP4 format में train किया गया था
  OCP standardization document, MX format spec
- ternary मॉडल पर शोध भी दिलचस्प है
  computation बहुत तेज़ होता है और cache efficiency भी ऊँची होती है, इसलिए इसे explore करना चाहिए
- मैं इस विषय पर और सीखना चाहता हूँ, कोई अच्छा resource हो तो जानना चाहूँगा
- 1% precision के अंतर का असल cognitive effect क्या होता है, इसका मुझे अंदाज़ा नहीं है
  सिस्टम इतना black box है कि इसे सहज रूप से समझना मुश्किल है
मैंने Qwen3.5 122B को LM Studio और Opencode के साथ चलाकर देखा, और यह काफ़ी प्रभावशाली था
M4 Max/128GB environment में भी यह धीमा नहीं था, और Claude Code-स्तर की code analysis क्षमता दिखाता था
पूरी तरह local alternative का इस हद तक आगे बढ़ जाना चौंकाने वाला है
open मॉडल लगातार बेहतर हो रहे हैं, लेकिन अभी भी Sonnet 4.5 के स्तर पर नहीं हैं
narrow domains में ये शानदार हैं, लेकिन ambiguous समस्याएँ हल करने में कमज़ोर हैं
Qwen 3.5 अब तक इस्तेमाल किए गए OSS में सबसे अच्छा था, और इसमें धीरे-धीरे असली intelligence दिखने लगी है
मैं इसे RTX 6000 Pro पर मुफ़्त में चलाता हूँ, लेकिन Composer 1.5 ज़्यादा बार इस्तेमाल करता हूँ
फिर भी उम्मीद है कि इस साल के भीतर local GPT 5.2-स्तर का मॉडल आ जाएगा
बढ़ा-चढ़ाकर किए गए दावे बहुत हैं
वास्तव में इस्तेमाल करने वाले लोग कम हैं, और realistic standards की कमी भी अक्सर होती है
पहले तो हमेशा यह शर्त जुड़ी रहती थी कि “कुछ K tokens से ज़्यादा इस्तेमाल नहीं किया जा सकता”
- मैंने Qwen 3.5 122B/a10B(q3, unsloth dynamic quant) से RPN calculator web app बनाया, और local मॉडल्स में पहली बार यह पूरी तरह काम करता हुआ मिला
  दूसरे मॉडल stack implementation ग़लत करते थे या UI बुरी तरह बिगाड़ देते थे
  Claude Sonnet 4.6 ने भी यह समस्या सही तरह हल की, लेकिन उसके अलावा लगभग सब असफल रहे
- Qwen3-Coder-30B-A3B-Instruct IDE integration या छोटे function-स्तर के कामों के लिए अच्छा है, लेकिन large feature implementation में इसकी सीमाएँ हैं
- 35B मॉडल से मैंने Polars-आधारित PCA implementation 10 मिनट में पूरी कर ली
  पहले के मॉडल हमेशा pandas code hallucinate करते थे, इसलिए यह बड़ी प्रगति है
SWE chart में Claude का न होना तुरंत ध्यान खींचता है
इससे जानबूझकर data manipulate करने जैसा प्रभाव पड़ता है
सिर्फ इस रवैये से ही भरोसा उठ जाता है
उस दिन का इंतज़ार है जब मैं इसे local में खुद चला सकूँ
मैं अमेरिकी services पर निर्भरता कम करना चाहता हूँ
क्या यूरोप में open मॉडल टेस्ट करने के लिए कोई service है?
- Koyeb को Mistral ने acquire करने के बाद वहाँ GPU को minute-level rental पर लिया जा सकता है, और one-click मॉडल deployment भी संभव है