33 पॉइंट द्वारा GN⁺ 2026-03-09 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Alibaba की Qwen3.5 मॉडल श्रृंखला 0.8B से 397B तक कई आकारों में उपलब्ध है, और मल्टीमॉडल हाइब्रिड reasoning फीचर तथा 256K context को सपोर्ट करती है
  • Unsloth सभी Qwen3.5 मॉडलों को Dynamic 2.0 GGUF quantization के साथ उपलब्ध कराता है, और इन्हें llama.cpp या LM Studio के जरिए लोकल में चलाया जा सकता है
  • Thinking मोड और non-thinking मोड के बीच स्विच किया जा सकता है, और छोटे मॉडल (0.8B~9B) डिफ़ॉल्ट रूप से non-thinking मोड पर सेट हैं
  • हर मॉडल के लिए आवश्यक RAM/VRAM क्षमता और recommended settings (temperature, top_p आदि) दिए गए हैं, और Mac 22GB वातावरण में भी 27B·35B मॉडल चलाए जा सकते हैं
  • Unsloth GGUF ने बेहतर quantization algorithm और imatrix data लागू करके प्रदर्शन सुधारा है, लेकिन यह Ollama के साथ compatible नहीं है

Qwen3.5 अवलोकन

  • Qwen3.5, Alibaba द्वारा जारी की गई नई LLM श्रृंखला है, जिसमें 0.8B·2B·4B·9B (छोटे) से लेकर 27B·35B·122B·397B (बड़े) तक शामिल हैं
    • यह मल्टीमॉडल हाइब्रिड reasoning को सपोर्ट करती है और 201 भाषाओं तथा 256K context length को संभाल सकती है
    • agent coding, vision, conversation, long-context tasks में यह उच्च प्रदर्शन दिखाती है
  • 35B और 27B मॉडल को 22GB RAM वाले Mac पर भी चलाया जा सकता है
  • सभी GGUF फ़ाइलें बेहतर quantization algorithm और नए imatrix data का उपयोग करती हैं
    • chat, coding, long-context, और tool-calling में बेहतर प्रदर्शन
    • MXFP4 layers को कुछ GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL) से हटाया गया है

हार्डवेयर आवश्यकताएँ

  • तालिका के अनुसार मॉडल आकार के हिसाब से न्यूनतम memory requirements दी गई हैं
    • उदाहरण: 0.8B~2B मॉडल के लिए 3GB, 9B के लिए 5.5GB (3-bit आधार), 35B-A3B के लिए 17GB आवश्यक
    • 397B-A17B के लिए 3-bit आधार पर 180GB, और 4-bit आधार पर 214GB आवश्यक
  • कुल memory (RAM+VRAM) मॉडल फ़ाइल के आकार से अधिक होनी चाहिए ताकि सर्वोत्तम प्रदर्शन मिल सके
    • यदि memory कम हो, तो SSD/HDD offloading के साथ चलाया जा सकता है, लेकिन गति कम हो जाएगी
  • 27B सटीकता-प्राथमिकता वाला विकल्प है, जबकि 35B-A3B गति-प्राथमिकता वाला विकल्प है

recommended settings

  • अधिकतम context window: 262,144 (YaRN के साथ 1M तक बढ़ाया जा सकता है)
  • presence_penalty: 0.0~2.0 (repetition घटाने के लिए, ज्यादा होने पर प्रदर्शन थोड़ा कम हो सकता है)
  • output length: 32,768 tokens recommended
  • Thinking मोड और Non-thinking मोड के अनुसार setting values अलग हैं
    • Thinking मोड: सामान्य कार्यों के लिए temperature=1.0, coding के लिए 0.6
    • Non-thinking मोड: सामान्य कार्यों के लिए temperature=0.7, reasoning tasks के लिए 1.0
  • छोटे मॉडल (0.8B~9B) में reasoning डिफ़ॉल्ट रूप से disabled है
    • सक्षम करने के लिए --chat-template-kwargs '{"enable_thinking":true}' का उपयोग करें

रनिंग और inference ट्यूटोरियल

  • सभी मॉडल Dynamic 4-bit MXFP4_MOE GGUF संस्करण में उपलब्ध हैं
  • llama.cpp का उपयोग करके लोकल inference प्रक्रिया
    • GitHub से latest version install करने के बाद, -DGGML_CUDA विकल्प से GPU/CPU चुनें
    • Hugging Face से मॉडल डाउनलोड करें (hf download unsloth/Qwen3.5-XXB-GGUF)
    • llama-cli या llama-server कमांड से चलाएँ
  • LM Studio में भी चलाया जा सकता है
    • मॉडल खोजने के बाद GGUF डाउनलोड करें, और YAML फ़ाइल के जरिए Thinking toggle सक्रिय करें
    • restart के बाद toggle फीचर उपलब्ध होगा

मॉडल-वार रनिंग सारांश

  • Qwen3.5-35B-A3B: 24GB RAM/Mac पर Dynamic 4-bit के साथ तेज inference संभव
  • Qwen3.5-27B: 18GB RAM/Mac पर चल सकता है
  • Qwen3.5-122B-A10B: 70GB RAM/Mac वातावरण में चलता है
  • Qwen3.5-397B-A17B:
    • 3-bit: 192GB RAM, 4-bit: 256GB RAM आवश्यक
    • 24GB GPU + 256GB RAM संयोजन पर प्रति सेकंड 25 tokens से अधिक generate करता है
    • Gemini 3 Pro, Claude Opus 4.5, GPT-5.2 के समान प्रदर्शन स्तर

inference server और API integration

  • llama-server के जरिए इसे OpenAI-compatible API के रूप में deploy किया जा सकता है
    • openai Python library से लोकल server पर request भेजी जा सकती है
    • उदाहरण: "http://127.0.0.1:8001/v1"; endpoint का उपयोग
  • Tool Calling फीचर सपोर्ट करता है
    • Python code execution, terminal commands, math operations आदि के लिए function calling संभव
    • unsloth_inference() उदाहरण कोड उपलब्ध है

benchmark परिणाम

  • Unsloth GGUF benchmark
    • Qwen3.5-35B Dynamic quant ने अधिकांश bit ranges में SOTA प्रदर्शन दिखाया
    • 150 से अधिक KL Divergence tests, कुल 9TB GGUF data उपयोग
    • 99.9% KLD पर Pareto Frontier में सर्वोच्च प्रदर्शन
  • Qwen3.5-397B-A17B
    • Benjamin Marie के third-party test में
      • मूल 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
      • accuracy में 1 point से कम गिरावट, और लगभग 500GB memory की बचत
    • Q3 को memory-saving विकल्प, और Q4 को stability विकल्प के रूप में सुझाया गया है

अन्य फीचर्स

  • Reasoning enable/disable कमांड उपलब्ध (--chat-template-kwargs)
  • Claude Code / OpenAI Codex के साथ integration संभव
  • Tool Calling Guide के जरिए लोकल LLM tool-calling configuration संभव
  • Ollama compatible नहीं, केवल llama.cpp-आधारित backend सपोर्टेड है

2 टिप्पणियां

 
tensun 2026-03-09

मैं hx370 पर 27b इस्तेमाल कर रहा हूँ, और नतीजे काफ़ी अच्छे हैं।

 
GN⁺ 2026-03-09
Hacker News की राय
  • ASUS 5070ti 16G पर Qwen3.5 9B को lm studio से चलाकर देखा, और यह लगभग 100 tok/s पर बहुत स्थिर रूप से चला
    यह ज़्यादातर ऑनलाइन LLM services से तेज़ है, और output quality भी benchmark स्तर के अनुरूप है
    consumer hardware पर इतना वास्तव में उपयोगी मॉडल चलाना मैंने पहली बार देखा है

    • “ऑनलाइन services से बेहतर” से मतलब speed के हिसाब से है, या model की quality की तुलना है, यह जानना चाहूँगा
      मुझे नहीं लगता कि यह Sonnet या Opus जैसे top-tier models के साथ usability comparison होगा
    • इस setup में context length और performance कितनी है, यह जानना चाहूँगा
      coding काम के लिए कम-से-कम 100k context चाहिए
    • क्या Thinking mode की समस्या हल हो गई?
      मेरे यहाँ infinite loop लग रहा था, इसलिए मैंने इसे बंद कर दिया, और कई parameters बदलने पर भी समस्या हल नहीं हुई
    • Qwen3.5 27B को 4bit quantization करने पर यह 16G VRAM में आ जाता है
      quality 2025 की गर्मियों वाले Sonnet 4.0 के स्तर की है, और ik_llama.cpp में speed भी बहुत अच्छी है
    • क्या आप इसे Claude Code के साथ जोड़कर इस्तेमाल कर रहे हैं?
      orchestration काफ़ी महत्वपूर्ण लगती है
  • इसमें लिखा है “All uploads use Unsloth Dynamic 2.0”, लेकिन असल options में IQ4_XS, Q4_K_S, Q4_K_M जैसी कई variants हैं
    हर एक के trade-off की व्याख्या नहीं है, इसलिए भ्रम होता है
    मैं Mac mini M4 16GB पर मुख्य रूप से Qwen3-4B-Instruct-2507-Q4_K_M इस्तेमाल करता हूँ, लेकिन Qwen3.5-4B-UD-Q4_K_XL काफ़ी ज़्यादा बातूनी है
    हर उपयोगकर्ता की ज़रूरत अलग हो सकती है, लेकिन model/hardware के हिसाब से settings और memory usage का सारांश देने वाली table हो तो अच्छा होगा
    Reddit पर भी ठोस settings examples लगभग नहीं हैं
    मैं पिछले 3 महीनों से इस विषय को लगातार follow कर रहा हूँ, लेकिन स्पष्ट जानकारी से ज़्यादा भ्रम ही मिला है
    अभी मैं cloud में qwen CLI का coder-model इस्तेमाल कर रहा हूँ, और low-power local model का इंतज़ार कर रहा हूँ

    • Unsloth Qwen3.5 GGUF benchmark मददगार हो सकता है
      इसमें Q4_K_XL और Q4_K_M का disk space के मुकाबले KL Divergence comparison है
      Q4_0 और Q4_1 speed में तेज़ हैं, लेकिन accuracy गिरती है, इसलिए अब इनकी सिफारिश नहीं की जाती
      Q4_K_M और UD-Q4_K_XL लगभग एक जैसे हैं, बस _XL थोड़ा बड़ा है
    • LocalScore.ai Mozilla Builders द्वारा बनाया गया site है, जिसका लक्ष्य ऐसे model/hardware mapping देना है
      लेकिन अभी इसमें Qwen3.5 से जुड़ा data नहीं है
    • Mac M1 पर ollama से qwen3.5:4b चलाकर देखा, tool calling ठीक था, लेकिन speed धीमी थी और complex tasks में यह भ्रमित हो जाता था
      शायद Rust code के साथ काम करना इसका कारण हो सकता है
      6bit quantized qwen3.5-35b-a3b को 4090 पर चलाने पर काफ़ी अच्छे नतीजे मिले
      अभी मैं 8bit qwen3.5-27b को main engine की तरह इस्तेमाल कर रहा हूँ और संतुष्ट हूँ
    • model quantization selection guide भी देखने लायक है
  • जब भी नया open model आता है, मैं llama-cpp/server से PP(prompt processing) और TG(token generation) speed test करता हूँ
    M1 Max 64GB MacBook पर Claude Code environment (15~30K context) में परीक्षण किया
    Qwen3.5-30B-A3B की TG speed, Qwen3-30B-A3B की तुलना में लगभग आधी है
    Qwen3.5 में sliding window attention की वजह से RAM usage कम है और response quality अच्छी है, लेकिन 33k context पर speed धीमी हो जाती है
    विस्तृत settings इस दस्तावेज़ में दी गई हैं

  • व्यक्तिगत benchmark में DeepSeek API को baseline मानकर Claude Opus से evaluation किया
    Qwen3.5 35B A3B(q8_0, thinking) 92.5% पर था, और Q4_K_M(thinking) लगभग 90% स्तर पर
    मुझे लगा था 27B dense model का score ज़्यादा होगा, इसलिए यह थोड़ा अप्रत्याशित था
    हालांकि, यह आँकड़ा one-shot response evaluation पर आधारित है, इसलिए agent iteration वाली स्थितियाँ इसमें शामिल नहीं हैं

    • 35B A3B का 27B से ऊपर आना दिलचस्प है
      संभव है कि prompt की logical inconsistency ने 27B की reasoning में बाधा डाली हो
      thinking trace देखने पर कारण debug किया जा सकता है
    • यह भी जानना चाहूँगा कि क्या कोई thinking model है जो latency लगभग बढ़ाए बिना काम करता हो
  • Qwen3.5 9B को CPU पर OCR और text cleanup के लिए चलाकर देखा, और यह काफ़ी उपयोगी लगा
    लेकिन GPU offloading ठीक से नहीं होने के कारण 4GB VRAM वाली 1650 Ti पर memory overflow हो गया

    • मुझे भी यही समस्या हुई थी, लेकिन driver update से हल हो गई
      sudo apt install nvidia-driver-570 कमांड से यह किया जा सकता था
    • 1660ti + cachyos + llama.cpp-cuda के combination में यह ठीक चलता है
      35B model, 4B model जैसी ही speed पर चलकर भी कहीं ज़्यादा ताकतवर है
      हालांकि qwen3.5, qwen3 की तुलना में speed में लगभग आधा है
      फिर भी कुल मिलाकर मैं संतुष्ट हूँ
    • source build करते समय Vulkan backend GPU offloading के लिए सबसे आसान है
  • Qwen3.5:0.8b को Orangepi Zero 2w पर सिर्फ CPU से अच्छी तरह चला रहा हूँ
    और जब Vulkan GPU इस्तेमाल करना हो, तो Meta Quest 3 पर qwen3.5:2b को zeroclaw से चलाता हूँ
    इससे low-power environment में सैकड़ों डॉलर की बचत हुई
    मैं used Android phone पर local model चलाकर देखने की सलाह दूँगा

  • क्या कहीं 9B model को hosted form में उपलब्ध कराया जा रहा है?
    business environment में GPU किराए पर लेना मुश्किल है, इसलिए OpenRouter पर छोटे models नहीं हैं
    अच्छा होगा अगर runpod serverless template आ जाए
    यह भी जानना है कि 9B model को 4090 पर 8bit या 6bit में low-latency के साथ चलाया जा सकता है या नहीं

  • RTX 3050 8GB पर Qwen3.5 35B-A3B चलाकर देखा, और यह काफ़ी responsive था तथा coding tasks भी अच्छे से संभालता था
    पिछले version में tool use के दौरान loop में फँसने की समस्या थी, लेकिन लगता है नए version में यह ठीक कर दी गई है

    • क्या यह system RAM में offloading कर रहा है?
      tok/s का आँकड़ा भी जानना चाहूँगा
      RTX 3060 laptop पर भी यह local server के रूप में अच्छी तरह चल सकता है
    • आपने कौन से coding task examples चलाए, यह जानना चाहूँगा
      मुझे उम्मीद नहीं थी कि local model इतना अच्छा कर लेगा
    • क्या इस्तेमाल किए गए model name को थोड़ा विस्तार से बता सकते हैं?
  • 397B-A17B model की Frontier से तुलना कैसी है, यह जानना चाहूँगा
    शायद इसे चलाने के लिए ऐसा hardware चाहिए होगा जो अधिकांश लोगों की पहुँच से बाहर है

    • मैंने इसे OpenRouter के ज़रिए इस्तेमाल किया है; यह बहुत अच्छा है, लेकिन कुछ कामों में Frontier अब भी बेहतर है
      व्यक्तिगत रूप से 122B model privacy और cost savings के लिहाज़ से मेरे लिए काफ़ी संतोषजनक है
  • मैं जानना चाहता हूँ कि क्या यह model पुराने 4xV100 Tesla server पर चल पाएगा
    fp से जुड़ी settings काफ़ी जटिल हैं, इसलिए beginner के नज़रिए से समझना मुश्किल है