- Qwen3.5 मॉडल परिवार (0.8B~122B) को LLM फाइन-ट्यूनिंग और reinforcement learning के लिए बने open source framework Unsloth के साथ टेक्स्ट और विज़न-आधारित फाइन-ट्यूनिंग के लिए इस्तेमाल किया जा सकता है
- Unsloth FlashAttention-2 की तुलना में 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है, और bf16 LoRA सेटिंग के साथ efficient training संभव बनाता है
- Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को मुफ्त में आज़माया जा सकता है, और A100 environments के लिए 27B·35B मॉडल notebooks भी उपलब्ध हैं
- MoE मॉडल्स (35B, 122B आदि) नए kernels के साथ 12x तेज़ training, 35% कम VRAM, और 6x लंबी context length को सपोर्ट करते हैं
- Training के बाद मॉडल्स को GGUF, vLLM, Ollama, LM Studio, SGLang जैसी कई deployment formats में export किया जा सकता है
Qwen3.5 फाइन-ट्यूनिंग का अवलोकन
- Qwen3.5 मॉडल परिवार (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) को Unsloth के साथ फाइन-ट्यून किया जा सकता है
- टेक्स्ट और विज़न, दोनों समर्थित हैं
- Qwen3.5‑35B‑A3B bf16 LoRA 74GB VRAM पर चलता है
- Unsloth 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है
- VRAM उपयोग: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
- मुफ्त Google Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को आज़माया जा सकता है
- Inference क्षमता बनाए रखने के लिए ऐसा dataset सुझाया जाता है जिसमें 75% से अधिक reasoning examples हों
- Full Fine-Tuning(FFT) भी संभव है, लेकिन VRAM उपयोग 4x बढ़ जाता है
Training environment और settings
- Qwen3.5 201 भाषाओं को सपोर्ट करने वाला multilingual model है
- Reinforcement Learning(RL) और Vision RL(VLM RL) भी Unsloth के जरिए समर्थित हैं
- A100 Colab notebooks उपलब्ध: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- लोकल training करते समय latest version में update करना ज़रूरी है
- कमांड:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- transformers v5 अनिवार्य है, पुराने versions काम नहीं करेंगे
- Mamba Triton kernel compile होने के कारण शुरुआती training धीमी हो सकती है (खासकर T4 GPU पर)
- QLoRA(4-bit) training की सिफारिश नहीं की जाती
MoE मॉडल फाइन-ट्यूनिंग (35B, 122B)
- Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B मॉडल्स समर्थित हैं
- 12x तेज़ training, 35% कम VRAM, 6x लंबी context length
- bf16 LoRA या Full Fine-Tuning की सिफारिश की जाती है
- MoE QLoRA 4-bit को BitsandBytes की सीमाओं के कारण सुझाया नहीं जाता
- Unsloth MoE kernel डिफॉल्ट रूप से enabled है, backend को
UNSLOTH_MOE_BACKEND से बदला जा सकता है
- Router-layer fine-tuning स्थिरता कारणों से डिफॉल्ट रूप से disabled है
- Qwen3.5‑122B‑A10B bf16 LoRA के लिए 256GB VRAM चाहिए
- मल्टी-GPU उपयोग करते समय
device_map = "balanced" सेट करें या multiGPU guide देखें
Quickstart
- टेक्स्ट-ओनली SFT(supervised fine-tuning) का उदाहरण दिया गया है
- Qwen3.5 की संरचना Causal Language Model + Vision Encoder है
- विज़न dependencies (
torchvision, pillow) install करनी होंगी
- latest Transformers version इस्तेमाल करने की सिफारिश की जाती है
- GRPO training fast vLLM को disable करने के बाद Unsloth inference के साथ की जा सकती है
- OOM(मेमोरी खत्म होना) होने पर
per_device_train_batch_size=1, max_seq_length कम करें
- VRAM बचाने और context बढ़ाने के लिए
gradient_checkpointing="unsloth" बनाए रखें
- MoE bf16 LoRA loader example दिया गया है
Vision फाइन-ट्यूनिंग
- Multimodal Qwen3.5 मॉडल्स की विज़न फाइन-ट्यूनिंग समर्थित है
- Qwen3-VL GRPO/GSPO RL notebooks इस्तेमाल की जा सकती हैं (सिर्फ मॉडल नाम बदलें)
- विज़न/टेक्स्ट-ओनली training चुनी जा सकती है
- Vision, Language, Attention, MLP layers में से selective fine-tuning संभव है
- डिफॉल्ट रूप से सभी enabled रहते हैं
- Multi-image training के लिए अलग multi-image vision guide देखें
मॉडल सेव और डिप्लॉयमेंट
- llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang जैसी कई deployment methods समर्थित हैं
GGUF सेव
- Unsloth में GGUF format में direct save और Hugging Face upload सपोर्ट है
- Inference के दौरान performance गिरने पर गलत chat template या EOS token इसका मुख्य कारण हो सकता है
vLLM सेव
- vLLM 0.16.0 Qwen3.5 को सपोर्ट नहीं करता
- 0.170 या उससे ऊपर या Nightly version चाहिए
- 16-bit save और केवल LoRA adapter save करना संभव है
- अधिक जानकारी के लिए Unsloth की inference guide देखें
अभी कोई टिप्पणी नहीं है.