Qwen3.5 लोकल रनिंग गाइड
(unsloth.ai)- Alibaba की Qwen3.5 मॉडल श्रृंखला 0.8B से 397B तक कई आकारों में उपलब्ध है, और मल्टीमॉडल हाइब्रिड reasoning फीचर तथा 256K context को सपोर्ट करती है
- Unsloth सभी Qwen3.5 मॉडलों को Dynamic 2.0 GGUF quantization के साथ उपलब्ध कराता है, और इन्हें llama.cpp या LM Studio के जरिए लोकल में चलाया जा सकता है
- Thinking मोड और non-thinking मोड के बीच स्विच किया जा सकता है, और छोटे मॉडल (0.8B~9B) डिफ़ॉल्ट रूप से non-thinking मोड पर सेट हैं
- हर मॉडल के लिए आवश्यक RAM/VRAM क्षमता और recommended settings (temperature, top_p आदि) दिए गए हैं, और Mac 22GB वातावरण में भी 27B·35B मॉडल चलाए जा सकते हैं
- Unsloth GGUF ने बेहतर quantization algorithm और imatrix data लागू करके प्रदर्शन सुधारा है, लेकिन यह Ollama के साथ compatible नहीं है
Qwen3.5 अवलोकन
- Qwen3.5, Alibaba द्वारा जारी की गई नई LLM श्रृंखला है, जिसमें 0.8B·2B·4B·9B (छोटे) से लेकर 27B·35B·122B·397B (बड़े) तक शामिल हैं
- यह मल्टीमॉडल हाइब्रिड reasoning को सपोर्ट करती है और 201 भाषाओं तथा 256K context length को संभाल सकती है
- agent coding, vision, conversation, long-context tasks में यह उच्च प्रदर्शन दिखाती है
- 35B और 27B मॉडल को 22GB RAM वाले Mac पर भी चलाया जा सकता है
- सभी GGUF फ़ाइलें बेहतर quantization algorithm और नए imatrix data का उपयोग करती हैं
- chat, coding, long-context, और tool-calling में बेहतर प्रदर्शन
- MXFP4 layers को कुछ GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL) से हटाया गया है
हार्डवेयर आवश्यकताएँ
- तालिका के अनुसार मॉडल आकार के हिसाब से न्यूनतम memory requirements दी गई हैं
- उदाहरण: 0.8B~2B मॉडल के लिए 3GB, 9B के लिए 5.5GB (3-bit आधार), 35B-A3B के लिए 17GB आवश्यक
- 397B-A17B के लिए 3-bit आधार पर 180GB, और 4-bit आधार पर 214GB आवश्यक
- कुल memory (RAM+VRAM) मॉडल फ़ाइल के आकार से अधिक होनी चाहिए ताकि सर्वोत्तम प्रदर्शन मिल सके
- यदि memory कम हो, तो SSD/HDD offloading के साथ चलाया जा सकता है, लेकिन गति कम हो जाएगी
- 27B सटीकता-प्राथमिकता वाला विकल्प है, जबकि 35B-A3B गति-प्राथमिकता वाला विकल्प है
recommended settings
- अधिकतम context window: 262,144 (YaRN के साथ 1M तक बढ़ाया जा सकता है)
- presence_penalty: 0.0~2.0 (repetition घटाने के लिए, ज्यादा होने पर प्रदर्शन थोड़ा कम हो सकता है)
- output length: 32,768 tokens recommended
- Thinking मोड और Non-thinking मोड के अनुसार setting values अलग हैं
- Thinking मोड: सामान्य कार्यों के लिए temperature=1.0, coding के लिए 0.6
- Non-thinking मोड: सामान्य कार्यों के लिए temperature=0.7, reasoning tasks के लिए 1.0
- छोटे मॉडल (0.8B~9B) में reasoning डिफ़ॉल्ट रूप से disabled है
- सक्षम करने के लिए
--chat-template-kwargs '{"enable_thinking":true}'का उपयोग करें
- सक्षम करने के लिए
रनिंग और inference ट्यूटोरियल
- सभी मॉडल Dynamic 4-bit MXFP4_MOE GGUF संस्करण में उपलब्ध हैं
- llama.cpp का उपयोग करके लोकल inference प्रक्रिया
- GitHub से latest version install करने के बाद,
-DGGML_CUDAविकल्प से GPU/CPU चुनें - Hugging Face से मॉडल डाउनलोड करें (
hf download unsloth/Qwen3.5-XXB-GGUF) llama-cliयाllama-serverकमांड से चलाएँ
- GitHub से latest version install करने के बाद,
- LM Studio में भी चलाया जा सकता है
- मॉडल खोजने के बाद GGUF डाउनलोड करें, और YAML फ़ाइल के जरिए Thinking toggle सक्रिय करें
- restart के बाद toggle फीचर उपलब्ध होगा
मॉडल-वार रनिंग सारांश
- Qwen3.5-35B-A3B: 24GB RAM/Mac पर Dynamic 4-bit के साथ तेज inference संभव
- Qwen3.5-27B: 18GB RAM/Mac पर चल सकता है
- Qwen3.5-122B-A10B: 70GB RAM/Mac वातावरण में चलता है
- Qwen3.5-397B-A17B:
- 3-bit: 192GB RAM, 4-bit: 256GB RAM आवश्यक
- 24GB GPU + 256GB RAM संयोजन पर प्रति सेकंड 25 tokens से अधिक generate करता है
- Gemini 3 Pro, Claude Opus 4.5, GPT-5.2 के समान प्रदर्शन स्तर
inference server और API integration
llama-serverके जरिए इसे OpenAI-compatible API के रूप में deploy किया जा सकता हैopenaiPython library से लोकल server पर request भेजी जा सकती है- उदाहरण:
"http://127.0.0.1:8001/v1"endpoint का उपयोग
- Tool Calling फीचर सपोर्ट करता है
- Python code execution, terminal commands, math operations आदि के लिए function calling संभव
unsloth_inference()उदाहरण कोड उपलब्ध है
benchmark परिणाम
- Unsloth GGUF benchmark
- Qwen3.5-35B Dynamic quant ने अधिकांश bit ranges में SOTA प्रदर्शन दिखाया
- 150 से अधिक KL Divergence tests, कुल 9TB GGUF data उपयोग
- 99.9% KLD पर Pareto Frontier में सर्वोच्च प्रदर्शन
- Qwen3.5-397B-A17B
- Benjamin Marie के third-party test में
- मूल 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
- accuracy में 1 point से कम गिरावट, और लगभग 500GB memory की बचत
- Q3 को memory-saving विकल्प, और Q4 को stability विकल्प के रूप में सुझाया गया है
- Benjamin Marie के third-party test में
अन्य फीचर्स
- Reasoning enable/disable कमांड उपलब्ध (
--chat-template-kwargs) - Claude Code / OpenAI Codex के साथ integration संभव
- Tool Calling Guide के जरिए लोकल LLM tool-calling configuration संभव
- Ollama compatible नहीं, केवल llama.cpp-आधारित backend सपोर्टेड है
2 टिप्पणियां
मैं hx370 पर 27b इस्तेमाल कर रहा हूँ, और नतीजे काफ़ी अच्छे हैं।
Hacker News की राय
ASUS 5070ti 16G पर Qwen3.5 9B को lm studio से चलाकर देखा, और यह लगभग 100 tok/s पर बहुत स्थिर रूप से चला
यह ज़्यादातर ऑनलाइन LLM services से तेज़ है, और output quality भी benchmark स्तर के अनुरूप है
consumer hardware पर इतना वास्तव में उपयोगी मॉडल चलाना मैंने पहली बार देखा है
मुझे नहीं लगता कि यह Sonnet या Opus जैसे top-tier models के साथ usability comparison होगा
coding काम के लिए कम-से-कम 100k context चाहिए
मेरे यहाँ infinite loop लग रहा था, इसलिए मैंने इसे बंद कर दिया, और कई parameters बदलने पर भी समस्या हल नहीं हुई
quality 2025 की गर्मियों वाले Sonnet 4.0 के स्तर की है, और ik_llama.cpp में speed भी बहुत अच्छी है
orchestration काफ़ी महत्वपूर्ण लगती है
इसमें लिखा है “All uploads use Unsloth Dynamic 2.0”, लेकिन असल options में IQ4_XS, Q4_K_S, Q4_K_M जैसी कई variants हैं
हर एक के trade-off की व्याख्या नहीं है, इसलिए भ्रम होता है
मैं Mac mini M4 16GB पर मुख्य रूप से Qwen3-4B-Instruct-2507-Q4_K_M इस्तेमाल करता हूँ, लेकिन Qwen3.5-4B-UD-Q4_K_XL काफ़ी ज़्यादा बातूनी है
हर उपयोगकर्ता की ज़रूरत अलग हो सकती है, लेकिन model/hardware के हिसाब से settings और memory usage का सारांश देने वाली table हो तो अच्छा होगा
Reddit पर भी ठोस settings examples लगभग नहीं हैं
मैं पिछले 3 महीनों से इस विषय को लगातार follow कर रहा हूँ, लेकिन स्पष्ट जानकारी से ज़्यादा भ्रम ही मिला है
अभी मैं cloud में qwen CLI का coder-model इस्तेमाल कर रहा हूँ, और low-power local model का इंतज़ार कर रहा हूँ
इसमें Q4_K_XL और Q4_K_M का disk space के मुकाबले KL Divergence comparison है
Q4_0 और Q4_1 speed में तेज़ हैं, लेकिन accuracy गिरती है, इसलिए अब इनकी सिफारिश नहीं की जाती
Q4_K_M और UD-Q4_K_XL लगभग एक जैसे हैं, बस _XL थोड़ा बड़ा है
लेकिन अभी इसमें Qwen3.5 से जुड़ा data नहीं है
शायद Rust code के साथ काम करना इसका कारण हो सकता है
6bit quantized qwen3.5-35b-a3b को 4090 पर चलाने पर काफ़ी अच्छे नतीजे मिले
अभी मैं 8bit qwen3.5-27b को main engine की तरह इस्तेमाल कर रहा हूँ और संतुष्ट हूँ
जब भी नया open model आता है, मैं llama-cpp/server से PP(prompt processing) और TG(token generation) speed test करता हूँ
M1 Max 64GB MacBook पर Claude Code environment (15~30K context) में परीक्षण किया
Qwen3.5-30B-A3B की TG speed, Qwen3-30B-A3B की तुलना में लगभग आधी है
Qwen3.5 में sliding window attention की वजह से RAM usage कम है और response quality अच्छी है, लेकिन 33k context पर speed धीमी हो जाती है
विस्तृत settings इस दस्तावेज़ में दी गई हैं
व्यक्तिगत benchmark में DeepSeek API को baseline मानकर Claude Opus से evaluation किया
Qwen3.5 35B A3B(q8_0, thinking) 92.5% पर था, और Q4_K_M(thinking) लगभग 90% स्तर पर
मुझे लगा था 27B dense model का score ज़्यादा होगा, इसलिए यह थोड़ा अप्रत्याशित था
हालांकि, यह आँकड़ा one-shot response evaluation पर आधारित है, इसलिए agent iteration वाली स्थितियाँ इसमें शामिल नहीं हैं
संभव है कि prompt की logical inconsistency ने 27B की reasoning में बाधा डाली हो
thinking trace देखने पर कारण debug किया जा सकता है
Qwen3.5 9B को CPU पर OCR और text cleanup के लिए चलाकर देखा, और यह काफ़ी उपयोगी लगा
लेकिन GPU offloading ठीक से नहीं होने के कारण 4GB VRAM वाली 1650 Ti पर memory overflow हो गया
sudo apt install nvidia-driver-570कमांड से यह किया जा सकता था35B model, 4B model जैसी ही speed पर चलकर भी कहीं ज़्यादा ताकतवर है
हालांकि qwen3.5, qwen3 की तुलना में speed में लगभग आधा है
फिर भी कुल मिलाकर मैं संतुष्ट हूँ
Qwen3.5:0.8b को Orangepi Zero 2w पर सिर्फ CPU से अच्छी तरह चला रहा हूँ
और जब Vulkan GPU इस्तेमाल करना हो, तो Meta Quest 3 पर qwen3.5:2b को zeroclaw से चलाता हूँ
इससे low-power environment में सैकड़ों डॉलर की बचत हुई
मैं used Android phone पर local model चलाकर देखने की सलाह दूँगा
क्या कहीं 9B model को hosted form में उपलब्ध कराया जा रहा है?
business environment में GPU किराए पर लेना मुश्किल है, इसलिए OpenRouter पर छोटे models नहीं हैं
अच्छा होगा अगर runpod serverless template आ जाए
यह भी जानना है कि 9B model को 4090 पर 8bit या 6bit में low-latency के साथ चलाया जा सकता है या नहीं
RTX 3050 8GB पर Qwen3.5 35B-A3B चलाकर देखा, और यह काफ़ी responsive था तथा coding tasks भी अच्छे से संभालता था
पिछले version में tool use के दौरान loop में फँसने की समस्या थी, लेकिन लगता है नए version में यह ठीक कर दी गई है
tok/s का आँकड़ा भी जानना चाहूँगा
RTX 3060 laptop पर भी यह local server के रूप में अच्छी तरह चल सकता है
मुझे उम्मीद नहीं थी कि local model इतना अच्छा कर लेगा
397B-A17B model की Frontier से तुलना कैसी है, यह जानना चाहूँगा
शायद इसे चलाने के लिए ऐसा hardware चाहिए होगा जो अधिकांश लोगों की पहुँच से बाहर है
व्यक्तिगत रूप से 122B model privacy और cost savings के लिहाज़ से मेरे लिए काफ़ी संतोषजनक है
मैं जानना चाहता हूँ कि क्या यह model पुराने 4xV100 Tesla server पर चल पाएगा
fp से जुड़ी settings काफ़ी जटिल हैं, इसलिए beginner के नज़रिए से समझना मुश्किल है