- Alibaba की Qwen3.5 मॉडल श्रृंखला 0.8B से 397B तक कई आकारों में उपलब्ध है, और मल्टीमॉडल हाइब्रिड reasoning फीचर तथा 256K context को सपोर्ट करती है
- Unsloth सभी Qwen3.5 मॉडलों को Dynamic 2.0 GGUF quantization के साथ उपलब्ध कराता है, और इन्हें llama.cpp या LM Studio के जरिए लोकल में चलाया जा सकता है
- Thinking मोड और non-thinking मोड के बीच स्विच किया जा सकता है, और छोटे मॉडल (0.8B~9B) डिफ़ॉल्ट रूप से non-thinking मोड पर सेट हैं
- हर मॉडल के लिए आवश्यक RAM/VRAM क्षमता और recommended settings (temperature, top_p आदि) दिए गए हैं, और Mac 22GB वातावरण में भी 27B·35B मॉडल चलाए जा सकते हैं
- Unsloth GGUF ने बेहतर quantization algorithm और imatrix data लागू करके प्रदर्शन सुधारा है, लेकिन यह Ollama के साथ compatible नहीं है
Qwen3.5 अवलोकन
- Qwen3.5, Alibaba द्वारा जारी की गई नई LLM श्रृंखला है, जिसमें 0.8B·2B·4B·9B (छोटे) से लेकर 27B·35B·122B·397B (बड़े) तक शामिल हैं
- यह मल्टीमॉडल हाइब्रिड reasoning को सपोर्ट करती है और 201 भाषाओं तथा 256K context length को संभाल सकती है
- agent coding, vision, conversation, long-context tasks में यह उच्च प्रदर्शन दिखाती है
- 35B और 27B मॉडल को 22GB RAM वाले Mac पर भी चलाया जा सकता है
- सभी GGUF फ़ाइलें बेहतर quantization algorithm और नए imatrix data का उपयोग करती हैं
- chat, coding, long-context, और tool-calling में बेहतर प्रदर्शन
- MXFP4 layers को कुछ GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL) से हटाया गया है
हार्डवेयर आवश्यकताएँ
- तालिका के अनुसार मॉडल आकार के हिसाब से न्यूनतम memory requirements दी गई हैं
- उदाहरण: 0.8B~2B मॉडल के लिए 3GB, 9B के लिए 5.5GB (3-bit आधार), 35B-A3B के लिए 17GB आवश्यक
- 397B-A17B के लिए 3-bit आधार पर 180GB, और 4-bit आधार पर 214GB आवश्यक
- कुल memory (RAM+VRAM) मॉडल फ़ाइल के आकार से अधिक होनी चाहिए ताकि सर्वोत्तम प्रदर्शन मिल सके
- यदि memory कम हो, तो SSD/HDD offloading के साथ चलाया जा सकता है, लेकिन गति कम हो जाएगी
- 27B सटीकता-प्राथमिकता वाला विकल्प है, जबकि 35B-A3B गति-प्राथमिकता वाला विकल्प है
recommended settings
- अधिकतम context window: 262,144 (YaRN के साथ 1M तक बढ़ाया जा सकता है)
- presence_penalty: 0.0~2.0 (repetition घटाने के लिए, ज्यादा होने पर प्रदर्शन थोड़ा कम हो सकता है)
- output length: 32,768 tokens recommended
- Thinking मोड और Non-thinking मोड के अनुसार setting values अलग हैं
- Thinking मोड: सामान्य कार्यों के लिए temperature=1.0, coding के लिए 0.6
- Non-thinking मोड: सामान्य कार्यों के लिए temperature=0.7, reasoning tasks के लिए 1.0
- छोटे मॉडल (0.8B~9B) में reasoning डिफ़ॉल्ट रूप से disabled है
- सक्षम करने के लिए
--chat-template-kwargs '{"enable_thinking":true}' का उपयोग करें
रनिंग और inference ट्यूटोरियल
- सभी मॉडल Dynamic 4-bit MXFP4_MOE GGUF संस्करण में उपलब्ध हैं
- llama.cpp का उपयोग करके लोकल inference प्रक्रिया
- GitHub से latest version install करने के बाद,
-DGGML_CUDA विकल्प से GPU/CPU चुनें
- Hugging Face से मॉडल डाउनलोड करें (
hf download unsloth/Qwen3.5-XXB-GGUF)
llama-cli या llama-server कमांड से चलाएँ
- LM Studio में भी चलाया जा सकता है
- मॉडल खोजने के बाद GGUF डाउनलोड करें, और YAML फ़ाइल के जरिए Thinking toggle सक्रिय करें
- restart के बाद toggle फीचर उपलब्ध होगा
मॉडल-वार रनिंग सारांश
- Qwen3.5-35B-A3B: 24GB RAM/Mac पर Dynamic 4-bit के साथ तेज inference संभव
- Qwen3.5-27B: 18GB RAM/Mac पर चल सकता है
- Qwen3.5-122B-A10B: 70GB RAM/Mac वातावरण में चलता है
- Qwen3.5-397B-A17B:
- 3-bit: 192GB RAM, 4-bit: 256GB RAM आवश्यक
- 24GB GPU + 256GB RAM संयोजन पर प्रति सेकंड 25 tokens से अधिक generate करता है
- Gemini 3 Pro, Claude Opus 4.5, GPT-5.2 के समान प्रदर्शन स्तर
inference server और API integration
llama-server के जरिए इसे OpenAI-compatible API के रूप में deploy किया जा सकता है
- Tool Calling फीचर सपोर्ट करता है
- Python code execution, terminal commands, math operations आदि के लिए function calling संभव
unsloth_inference() उदाहरण कोड उपलब्ध है
benchmark परिणाम
- Unsloth GGUF benchmark
- Qwen3.5-35B Dynamic quant ने अधिकांश bit ranges में SOTA प्रदर्शन दिखाया
- 150 से अधिक KL Divergence tests, कुल 9TB GGUF data उपयोग
- 99.9% KLD पर Pareto Frontier में सर्वोच्च प्रदर्शन
- Qwen3.5-397B-A17B
- Benjamin Marie के third-party test में
- मूल 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
- accuracy में 1 point से कम गिरावट, और लगभग 500GB memory की बचत
- Q3 को memory-saving विकल्प, और Q4 को stability विकल्प के रूप में सुझाया गया है
अन्य फीचर्स
- Reasoning enable/disable कमांड उपलब्ध (
--chat-template-kwargs)
- Claude Code / OpenAI Codex के साथ integration संभव
- Tool Calling Guide के जरिए लोकल LLM tool-calling configuration संभव
- Ollama compatible नहीं, केवल llama.cpp-आधारित backend सपोर्टेड है
अभी कोई टिप्पणी नहीं है.