- Qwen3.5 सीरीज़ में 35B, 122B, 27B सहित चार बड़े language models शामिल हैं, जिनमें से तीन Apache 2.0 open source license के तहत जारी किए गए हैं
- बेंचमार्क में ये OpenAI GPT-5-mini और Anthropic Claude Sonnet 4.5 से बेहतर प्रदर्शन दिखाते हैं, और लोकल GPU environment में भी high-performance execution संभव है
- 4-bit quantization के साथ लगभग समान accuracy बनाए रखते हुए 10 लाख से अधिक tokens की context window को support करते हैं, जिससे desktop GPU पर भी बड़े पैमाने का data processing संभव है
- Gated Delta Networks और Mixture-of-Experts(MoE) संरचना को मिलाकर efficiency बढ़ाई गई है, और ‘Thinking Mode’ के जरिए internal reasoning process के बाद उत्तर तैयार किया जाता है
- कंपनियाँ इसके जरिए privacy-protecting on-premise AI बना सकती हैं, और महंगे cloud पर निर्भर हुए बिना autonomous agent development कर सकती हैं
Qwen3.5-Medium मॉडल का परिचय
- Alibaba की Qwen AI टीम द्वारा जारी Qwen3.5-Medium सीरीज़, agentic tool calling को support करने वाले चार LLMs से बनी है
- public models: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- proprietary model: Qwen3.5-Flash (केवल Alibaba Cloud Model Studio API के लिए)
- तीन open source models को Hugging Face और ModelScope से डाउनलोड किया जा सकता है
- Qwen3.5-Flash एक commercial API के रूप में उपलब्ध है, और पश्चिमी मॉडलों की तुलना में इसका operating cost कम है
प्रदर्शन और तकनीकी संरचना
- Qwen3.5 मॉडल बेंचमार्क में OpenAI GPT-5-mini और Claude Sonnet 4.5 से आगे हैं
- quantization के बाद भी ये high accuracy बनाए रखते हैं, और लोकल GPU(32GB VRAM) environment में 10 लाख tokens से अधिक की context window को support करते हैं
- 4-bit weight और KV cache quantization के जरिए accuracy loss के बिना बड़े पैमाने के data processing को संभव बनाया गया है
- hybrid architecture: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- कुल 35 अरब parameters में से केवल 30 करोड़ सक्रिय होते हैं
- MoE layer में 256 experts (8 routing + 1 shared) शामिल हैं
- 4-bit compression के बाद भी accuracy बरकरार रहती है, जिससे local deployment में memory की बचत होती है
- research support के लिए Qwen3.5-35B-A3B-Base मॉडल भी साथ में जारी किया गया है
उत्पाद संरचना और फीचर्स
- Thinking Mode: मॉडल उत्तर देने से पहले `` टैग के भीतर internal reasoning process बनाता है
- अलग-अलग मॉडलों की विशेषताएँ
- Qwen3.5-27B: efficiency-केंद्रित, 8 लाख tokens से अधिक context support
- Qwen3.5-Flash: 10 लाख tokens का default context, official tools built-in
- Qwen3.5-122B-A10B: server-grade GPU(80GB VRAM) के लिए, 10 लाख+ context support
- benchmark results: Qwen3.5-35B-A3B, Qwen3-235B, GPT-5-mini और Sonnet 4.5 की तुलना में knowledge(MMMLU) और visual reasoning(MMMU-Pro) में बेहतर है
कीमत और API integration
- Qwen3.5-Flash API pricing
- input: $0.1 / 10 लाख tokens
- output: $0.4 / 10 लाख tokens
- cache creation: $0.125 / 10 लाख tokens
- cache read: $0.01 / 10 लाख tokens
- tool calling pricing: Web Search $10/1,000 बार, Code Interpreter मुफ़्त (सीमित अवधि के लिए)
- प्रमुख LLMs की तुलना में यह सबसे सस्ते APIs में से एक है
- उदाहरण: Claude Sonnet 4.5 की कुल लागत $18/10 लाख tokens, GPT-5.2 की $15.75, जबकि Qwen3.5-Flash की $0.5
एंटरप्राइज़ उपयोग और महत्व
- Qwen3.5-Medium की रिलीज़ से बड़े research lab स्तर की model fine-tuning और deployment अब सामान्य कंपनियों के लिए भी संभव हो सकती है
- on-premise environment में बड़े दस्तावेज़ और वीडियो analysis संभव है, जिससे data privacy मजबूत होती है
- Mixture-of-Experts संरचना को कंपनी के firewall के भीतर चलाकर data sovereignty बनाए रखी जा सकती है
- Thinking Mode और Tool Calling फीचर्स का उपयोग कर autonomous AI agents बनाए जा सकते हैं
- शुरुआती उपयोगकर्ताओं का कहना है कि इसने “बड़े closed-source models के साथ अंतर को कम कर दिया है”
- efficiency-focused design के कारण AI integration में लागत घटाने, सुरक्षा मजबूत करने और operational agility बढ़ाने में मदद मिल सकती है
4 टिप्पणियां
मेरे पास RTX Pro 6000 (96GB, असल में 94GB) है, लेकिन ollama में 122B मॉडल लोड नहीं हो रहा। शायद यह vision model होने की वजह से है, क्योंकि इसमें vision transformer वाला हिस्सा भी शामिल है। GPT OSS 120b मॉडल तो आराम से लोड हो जाता है।
सही है.. vision encoder इस्तेमाल होने पर 1B model भी 9G VRAM खा जाता है।
परफ़ॉर्मेंस तभी मिलती है जब इसे CUDA-आधारित llama.cpp सर्वर पर चलाया जाए।
Hacker News टिप्पणियाँ
ज़्यादातर open source मॉडल benchmark optimization game खेल रहे हैं
हर नया मॉडल कुछ महीने पहले के SOTA स्तर का होने का दावा करता है, लेकिन असल इस्तेमाल में अक्सर निराशा होती है
मैंने Qwen3-Coder-Next और Qwen3.5 इस्तेमाल किए हैं, और ये Sonnet 4.5 के स्तर तक नहीं पहुँचते
हालांकि अगर लक्ष्य स्पष्ट रूप से बताया जाए और टेस्ट के ज़रिए सीमाएँ दी जाएँ, तो ये लगातार कोशिश करते रहते हैं और आखिरकार समस्या हल कर देते हैं
फिर भी open source मॉडल के हिसाब से यह प्रभावशाली है, और self-hosted environment में इस स्तर तक पहुँचना चौंकाने वाली बात है
लेकिन Sonnet 4.5-स्तर जैसा बढ़ा-चढ़ाकर किया गया दावा नहीं मानना चाहिए
खासकर StepFun-3.5-flash जटिल Rust codebase में भी शानदार काम करता है
मेरा StepFun से कोई संबंध नहीं है, लेकिन 196B/11B आर्किटेक्चर से ऐसा प्रदर्शन निकालने वाली टीम के लिए मेरे मन में गहरा सम्मान है
मॉडल्स को आपस में प्रतिस्पर्धा करवाने वाला GertLabs benchmark छेड़छाड़ करना कठिन है, इसलिए काफी भरोसेमंद लगता है
बल्कि cloud मॉडल runtime तक भी adjust कर सकते हैं, इसलिए वहाँ यह और ज़्यादा हो सकता है
पहले ये लगभग इस्तेमाल लायक नहीं थे, लेकिन इस बार सचमुच हैरानी हुई
अगर टेस्ट standard problems से अलग हैं, तो शायद overfitting के खिलाफ भी मज़बूत होंगे
मैं MBP M3 Max 128G पर local मॉडल चलाकर performance की तुलना कर रहा हूँ
Opus 4.6 और Gemini Pro तेज़ और सटीक थे, लेकिन qwen3.5:35b-a3b 45 मिनट तक चलता रहा और गलत जवाब देता रहा
फैन की आवाज़ इतनी तेज़ थी कि जैसे विमान उड़ान भर रहा हो
इतने धीमे मॉडल से large codebase संभालना संभव है या नहीं, इस पर संदेह है
cloud मॉडल 1T से ज़्यादा parameters और लाखों डॉलर के GPU पर चलते हैं
local coding की वास्तविक सीमा फिलहाल “Android app boilerplate generate करना” जैसी है
local मॉडल अभी भी दो पीढ़ी पुरानी performance के स्तर पर हैं, और अगर कोई Sonnet 4.5-स्तर का दावा करता है, तो Opus 4.6 से उसका बड़ा अंतर रहेगा
असल में, किसी संकीर्ण समस्या के लिए specialized छोटा मॉडल बेहतर काम कर सकता है
हमारी टीम coding पर केंद्रित एक छोटा मॉडल M2 16GB पर चला रही है, और हमें लगता है कि यह Sonnet 4.5 से बेहतर है
हम जल्द rig.ai beta जारी करने वाले हैं
servers में भी अगर fan speed को 100% पर fix कर दिया जाए, तो GPU performance 30% बढ़ जाती है
local मॉडल हल्के कामों के लिए ठीक हैं, और भारी काम cloud में करना ज़्यादा efficient है
कुछ रिपोर्ट्स के मुताबिक लंबा system prompt या file contents देने पर यह कहीं ज़्यादा efficient हो जाता है
मैंने M1 MacBook Pro पर llama.cpp, OpenCode, Qwen3-Coder-30B-A3B-Instruct(GGUF, Q4_K_M quantization) सेटअप करने की गाइड लिखी है
इंस्टॉल करना काफ़ी मुश्किल था, लेकिन यह नए मॉडल्स पर भी लागू हो सकती है
install guide link
MoE architecture की वजह से inference speed भी तेज़ है
मैंने Q4_K_M quantization चुना, लेकिन यह सबसे अच्छा विकल्प है या नहीं, यह जानना चाहता हूँ
मैंने हाल ही में LLM के अंदरूनी हिस्सों का अध्ययन शुरू किया है, और समझ आया कि float32 बहुत उदार precision है
ब्लॉग्स के ज़रिए मैंने quantization सीखी, और Claude से 1~8-bit quantization की accuracy का analysis करवाया
4-bit लगभग बिना नुकसान के 99% समानता देता दिखा, जबकि आकार 8-bit का आधा है, इसलिए यह एक sweet spot जैसा लगा
असली experts भी 4-bit इस्तेमाल करते हैं, यह देखना दिलचस्प है
GPT-OSS मॉडल MXFP4 format में train किया गया था
OCP standardization document, MX format spec
computation बहुत तेज़ होता है और cache efficiency भी ऊँची होती है, इसलिए इसे explore करना चाहिए
सिस्टम इतना black box है कि इसे सहज रूप से समझना मुश्किल है
मैंने Qwen3.5 122B को LM Studio और Opencode के साथ चलाकर देखा, और यह काफ़ी प्रभावशाली था
M4 Max/128GB environment में भी यह धीमा नहीं था, और Claude Code-स्तर की code analysis क्षमता दिखाता था
पूरी तरह local alternative का इस हद तक आगे बढ़ जाना चौंकाने वाला है
open मॉडल लगातार बेहतर हो रहे हैं, लेकिन अभी भी Sonnet 4.5 के स्तर पर नहीं हैं
narrow domains में ये शानदार हैं, लेकिन ambiguous समस्याएँ हल करने में कमज़ोर हैं
Qwen 3.5 अब तक इस्तेमाल किए गए OSS में सबसे अच्छा था, और इसमें धीरे-धीरे असली intelligence दिखने लगी है
मैं इसे RTX 6000 Pro पर मुफ़्त में चलाता हूँ, लेकिन Composer 1.5 ज़्यादा बार इस्तेमाल करता हूँ
फिर भी उम्मीद है कि इस साल के भीतर local GPT 5.2-स्तर का मॉडल आ जाएगा
बढ़ा-चढ़ाकर किए गए दावे बहुत हैं
वास्तव में इस्तेमाल करने वाले लोग कम हैं, और realistic standards की कमी भी अक्सर होती है
पहले तो हमेशा यह शर्त जुड़ी रहती थी कि “कुछ K tokens से ज़्यादा इस्तेमाल नहीं किया जा सकता”
दूसरे मॉडल stack implementation ग़लत करते थे या UI बुरी तरह बिगाड़ देते थे
Claude Sonnet 4.6 ने भी यह समस्या सही तरह हल की, लेकिन उसके अलावा लगभग सब असफल रहे
पहले के मॉडल हमेशा pandas code hallucinate करते थे, इसलिए यह बड़ी प्रगति है
SWE chart में Claude का न होना तुरंत ध्यान खींचता है
इससे जानबूझकर data manipulate करने जैसा प्रभाव पड़ता है
सिर्फ इस रवैये से ही भरोसा उठ जाता है
उस दिन का इंतज़ार है जब मैं इसे local में खुद चला सकूँ
मैं अमेरिकी services पर निर्भरता कम करना चाहता हूँ
क्या यूरोप में open मॉडल टेस्ट करने के लिए कोई service है?