Qwen3.5 फाइन-ट्यूनिंग गाइड

(unsloth.ai)

16 पॉइंट द्वारा GN⁺ 2026-03-06 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Qwen3.5 मॉडल परिवार (0.8B~122B) को LLM फाइन-ट्यूनिंग और reinforcement learning के लिए बने open source framework Unsloth के साथ टेक्स्ट और विज़न-आधारित फाइन-ट्यूनिंग के लिए इस्तेमाल किया जा सकता है
Unsloth FlashAttention-2 की तुलना में 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है, और bf16 LoRA सेटिंग के साथ efficient training संभव बनाता है
Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को मुफ्त में आज़माया जा सकता है, और A100 environments के लिए 27B·35B मॉडल notebooks भी उपलब्ध हैं
MoE मॉडल्स (35B, 122B आदि) नए kernels के साथ 12x तेज़ training, 35% कम VRAM, और 6x लंबी context length को सपोर्ट करते हैं
Training के बाद मॉडल्स को GGUF, vLLM, Ollama, LM Studio, SGLang जैसी कई deployment formats में export किया जा सकता है

Qwen3.5 फाइन-ट्यूनिंग का अवलोकन

Qwen3.5 मॉडल परिवार (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) को Unsloth के साथ फाइन-ट्यून किया जा सकता है
- टेक्स्ट और विज़न, दोनों समर्थित हैं
- Qwen3.5‑35B‑A3B bf16 LoRA 74GB VRAM पर चलता है
Unsloth 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है
- VRAM उपयोग: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
मुफ्त Google Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को आज़माया जा सकता है
Inference क्षमता बनाए रखने के लिए ऐसा dataset सुझाया जाता है जिसमें 75% से अधिक reasoning examples हों
Full Fine-Tuning(FFT) भी संभव है, लेकिन VRAM उपयोग 4x बढ़ जाता है

Qwen3.5 201 भाषाओं को सपोर्ट करने वाला multilingual model है
Reinforcement Learning(RL) और Vision RL(VLM RL) भी Unsloth के जरिए समर्थित हैं
A100 Colab notebooks उपलब्ध: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
लोकल training करते समय latest version में update करना ज़रूरी है
- कमांड: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 अनिवार्य है, पुराने versions काम नहीं करेंगे
Mamba Triton kernel compile होने के कारण शुरुआती training धीमी हो सकती है (खासकर T4 GPU पर)
QLoRA(4-bit) training की सिफारिश नहीं की जाती

Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B मॉडल्स समर्थित हैं
- 12x तेज़ training, 35% कम VRAM, 6x लंबी context length
bf16 LoRA या Full Fine-Tuning की सिफारिश की जाती है
MoE QLoRA 4-bit को BitsandBytes की सीमाओं के कारण सुझाया नहीं जाता
Unsloth MoE kernel डिफॉल्ट रूप से enabled है, backend को UNSLOTH_MOE_BACKEND से बदला जा सकता है
Router-layer fine-tuning स्थिरता कारणों से डिफॉल्ट रूप से disabled है
Qwen3.5‑122B‑A10B bf16 LoRA के लिए 256GB VRAM चाहिए
- मल्टी-GPU उपयोग करते समय device_map = "balanced" सेट करें या multiGPU guide देखें

टेक्स्ट-ओनली SFT(supervised fine-tuning) का उदाहरण दिया गया है
Qwen3.5 की संरचना Causal Language Model + Vision Encoder है
- विज़न dependencies (torchvision, pillow) install करनी होंगी
latest Transformers version इस्तेमाल करने की सिफारिश की जाती है
GRPO training fast vLLM को disable करने के बाद Unsloth inference के साथ की जा सकती है
OOM(मेमोरी खत्म होना) होने पर
- per_device_train_batch_size=1, max_seq_length कम करें
- VRAM बचाने और context बढ़ाने के लिए gradient_checkpointing="unsloth" बनाए रखें
MoE bf16 LoRA loader example दिया गया है

Multimodal Qwen3.5 मॉडल्स की विज़न फाइन-ट्यूनिंग समर्थित है
- Qwen3-VL GRPO/GSPO RL notebooks इस्तेमाल की जा सकती हैं (सिर्फ मॉडल नाम बदलें)
विज़न/टेक्स्ट-ओनली training चुनी जा सकती है
- Vision, Language, Attention, MLP layers में से selective fine-tuning संभव है
- डिफॉल्ट रूप से सभी enabled रहते हैं
Multi-image training के लिए अलग multi-image vision guide देखें

llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang जैसी कई deployment methods समर्थित हैं

Unsloth में GGUF format में direct save और Hugging Face upload सपोर्ट है
Inference के दौरान performance गिरने पर गलत chat template या EOS token इसका मुख्य कारण हो सकता है

vLLM 0.16.0 Qwen3.5 को सपोर्ट नहीं करता
- 0.170 या उससे ऊपर या Nightly version चाहिए
16-bit save और केवल LoRA adapter save करना संभव है
अधिक जानकारी के लिए Unsloth की inference guide देखें