• Qwen3.5 मॉडल परिवार (0.8B~122B) को LLM फाइन-ट्यूनिंग और reinforcement learning के लिए बने open source framework Unsloth के साथ टेक्स्ट और विज़न-आधारित फाइन-ट्यूनिंग के लिए इस्तेमाल किया जा सकता है
  • Unsloth FlashAttention-2 की तुलना में 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है, और bf16 LoRA सेटिंग के साथ efficient training संभव बनाता है
  • Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को मुफ्त में आज़माया जा सकता है, और A100 environments के लिए 27B·35B मॉडल notebooks भी उपलब्ध हैं
  • MoE मॉडल्स (35B, 122B आदि) नए kernels के साथ 12x तेज़ training, 35% कम VRAM, और 6x लंबी context length को सपोर्ट करते हैं
  • Training के बाद मॉडल्स को GGUF, vLLM, Ollama, LM Studio, SGLang जैसी कई deployment formats में export किया जा सकता है

Qwen3.5 फाइन-ट्यूनिंग का अवलोकन

  • Qwen3.5 मॉडल परिवार (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) को Unsloth के साथ फाइन-ट्यून किया जा सकता है
    • टेक्स्ट और विज़न, दोनों समर्थित हैं
    • Qwen3.5‑35B‑A3B bf16 LoRA 74GB VRAM पर चलता है
  • Unsloth 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है
    • VRAM उपयोग: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
  • मुफ्त Google Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को आज़माया जा सकता है
  • Inference क्षमता बनाए रखने के लिए ऐसा dataset सुझाया जाता है जिसमें 75% से अधिक reasoning examples हों
  • Full Fine-Tuning(FFT) भी संभव है, लेकिन VRAM उपयोग 4x बढ़ जाता है

Training environment और settings

  • Qwen3.5 201 भाषाओं को सपोर्ट करने वाला multilingual model है
  • Reinforcement Learning(RL) और Vision RL(VLM RL) भी Unsloth के जरिए समर्थित हैं
  • A100 Colab notebooks उपलब्ध: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • लोकल training करते समय latest version में update करना ज़रूरी है
    • कमांड: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 अनिवार्य है, पुराने versions काम नहीं करेंगे
  • Mamba Triton kernel compile होने के कारण शुरुआती training धीमी हो सकती है (खासकर T4 GPU पर)
  • QLoRA(4-bit) training की सिफारिश नहीं की जाती

MoE मॉडल फाइन-ट्यूनिंग (35B, 122B)

  • Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B मॉडल्स समर्थित हैं
    • 12x तेज़ training, 35% कम VRAM, 6x लंबी context length
  • bf16 LoRA या Full Fine-Tuning की सिफारिश की जाती है
  • MoE QLoRA 4-bit को BitsandBytes की सीमाओं के कारण सुझाया नहीं जाता
  • Unsloth MoE kernel डिफॉल्ट रूप से enabled है, backend को UNSLOTH_MOE_BACKEND से बदला जा सकता है
  • Router-layer fine-tuning स्थिरता कारणों से डिफॉल्ट रूप से disabled है
  • Qwen3.5‑122B‑A10B bf16 LoRA के लिए 256GB VRAM चाहिए
    • मल्टी-GPU उपयोग करते समय device_map = "balanced" सेट करें या multiGPU guide देखें

Quickstart

  • टेक्स्ट-ओनली SFT(supervised fine-tuning) का उदाहरण दिया गया है
  • Qwen3.5 की संरचना Causal Language Model + Vision Encoder है
    • विज़न dependencies (torchvision, pillow) install करनी होंगी
  • latest Transformers version इस्तेमाल करने की सिफारिश की जाती है
  • GRPO training fast vLLM को disable करने के बाद Unsloth inference के साथ की जा सकती है
  • OOM(मेमोरी खत्म होना) होने पर
    • per_device_train_batch_size=1, max_seq_length कम करें
    • VRAM बचाने और context बढ़ाने के लिए gradient_checkpointing="unsloth" बनाए रखें
  • MoE bf16 LoRA loader example दिया गया है

Vision फाइन-ट्यूनिंग

  • Multimodal Qwen3.5 मॉडल्स की विज़न फाइन-ट्यूनिंग समर्थित है
    • Qwen3-VL GRPO/GSPO RL notebooks इस्तेमाल की जा सकती हैं (सिर्फ मॉडल नाम बदलें)
  • विज़न/टेक्स्ट-ओनली training चुनी जा सकती है
    • Vision, Language, Attention, MLP layers में से selective fine-tuning संभव है
    • डिफॉल्ट रूप से सभी enabled रहते हैं
  • Multi-image training के लिए अलग multi-image vision guide देखें

मॉडल सेव और डिप्लॉयमेंट

  • llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang जैसी कई deployment methods समर्थित हैं

GGUF सेव

  • Unsloth में GGUF format में direct save और Hugging Face upload सपोर्ट है
  • Inference के दौरान performance गिरने पर गलत chat template या EOS token इसका मुख्य कारण हो सकता है

vLLM सेव

  • vLLM 0.16.0 Qwen3.5 को सपोर्ट नहीं करता
    • 0.170 या उससे ऊपर या Nightly version चाहिए
  • 16-bit save और केवल LoRA adapter save करना संभव है
  • अधिक जानकारी के लिए Unsloth की inference guide देखें

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.