Qwen3.5 फाइन-ट्यूनिंग गाइड
(unsloth.ai)- Qwen3.5 मॉडल परिवार (0.8B~122B) को LLM फाइन-ट्यूनिंग और reinforcement learning के लिए बने open source framework Unsloth के साथ टेक्स्ट और विज़न-आधारित फाइन-ट्यूनिंग के लिए इस्तेमाल किया जा सकता है
- Unsloth FlashAttention-2 की तुलना में 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है, और bf16 LoRA सेटिंग के साथ efficient training संभव बनाता है
- Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को मुफ्त में आज़माया जा सकता है, और A100 environments के लिए 27B·35B मॉडल notebooks भी उपलब्ध हैं
- MoE मॉडल्स (35B, 122B आदि) नए kernels के साथ 12x तेज़ training, 35% कम VRAM, और 6x लंबी context length को सपोर्ट करते हैं
- Training के बाद मॉडल्स को GGUF, vLLM, Ollama, LM Studio, SGLang जैसी कई deployment formats में export किया जा सकता है
Qwen3.5 फाइन-ट्यूनिंग का अवलोकन
- Qwen3.5 मॉडल परिवार (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) को Unsloth के साथ फाइन-ट्यून किया जा सकता है
- टेक्स्ट और विज़न, दोनों समर्थित हैं
- Qwen3.5‑35B‑A3B bf16 LoRA 74GB VRAM पर चलता है
- Unsloth 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है
- VRAM उपयोग: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
- मुफ्त Google Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को आज़माया जा सकता है
- Inference क्षमता बनाए रखने के लिए ऐसा dataset सुझाया जाता है जिसमें 75% से अधिक reasoning examples हों
- Full Fine-Tuning(FFT) भी संभव है, लेकिन VRAM उपयोग 4x बढ़ जाता है
Training environment और settings
- Qwen3.5 201 भाषाओं को सपोर्ट करने वाला multilingual model है
- Reinforcement Learning(RL) और Vision RL(VLM RL) भी Unsloth के जरिए समर्थित हैं
- A100 Colab notebooks उपलब्ध: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- लोकल training करते समय latest version में update करना ज़रूरी है
- कमांड:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- कमांड:
- transformers v5 अनिवार्य है, पुराने versions काम नहीं करेंगे
- Mamba Triton kernel compile होने के कारण शुरुआती training धीमी हो सकती है (खासकर T4 GPU पर)
- QLoRA(4-bit) training की सिफारिश नहीं की जाती
MoE मॉडल फाइन-ट्यूनिंग (35B, 122B)
- Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B मॉडल्स समर्थित हैं
- 12x तेज़ training, 35% कम VRAM, 6x लंबी context length
- bf16 LoRA या Full Fine-Tuning की सिफारिश की जाती है
- MoE QLoRA 4-bit को BitsandBytes की सीमाओं के कारण सुझाया नहीं जाता
- Unsloth MoE kernel डिफॉल्ट रूप से enabled है, backend को
UNSLOTH_MOE_BACKENDसे बदला जा सकता है - Router-layer fine-tuning स्थिरता कारणों से डिफॉल्ट रूप से disabled है
- Qwen3.5‑122B‑A10B bf16 LoRA के लिए 256GB VRAM चाहिए
- मल्टी-GPU उपयोग करते समय
device_map = "balanced"सेट करें या multiGPU guide देखें
- मल्टी-GPU उपयोग करते समय
Quickstart
- टेक्स्ट-ओनली SFT(supervised fine-tuning) का उदाहरण दिया गया है
- Qwen3.5 की संरचना Causal Language Model + Vision Encoder है
- विज़न dependencies (
torchvision,pillow) install करनी होंगी
- विज़न dependencies (
- latest Transformers version इस्तेमाल करने की सिफारिश की जाती है
- GRPO training fast vLLM को disable करने के बाद Unsloth inference के साथ की जा सकती है
- OOM(मेमोरी खत्म होना) होने पर
per_device_train_batch_size=1,max_seq_lengthकम करें- VRAM बचाने और context बढ़ाने के लिए
gradient_checkpointing="unsloth"बनाए रखें
- MoE bf16 LoRA loader example दिया गया है
Vision फाइन-ट्यूनिंग
- Multimodal Qwen3.5 मॉडल्स की विज़न फाइन-ट्यूनिंग समर्थित है
- Qwen3-VL GRPO/GSPO RL notebooks इस्तेमाल की जा सकती हैं (सिर्फ मॉडल नाम बदलें)
- विज़न/टेक्स्ट-ओनली training चुनी जा सकती है
- Vision, Language, Attention, MLP layers में से selective fine-tuning संभव है
- डिफॉल्ट रूप से सभी enabled रहते हैं
- Multi-image training के लिए अलग multi-image vision guide देखें
मॉडल सेव और डिप्लॉयमेंट
- llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang जैसी कई deployment methods समर्थित हैं
GGUF सेव
- Unsloth में GGUF format में direct save और Hugging Face upload सपोर्ट है
- Inference के दौरान performance गिरने पर गलत chat template या EOS token इसका मुख्य कारण हो सकता है
vLLM सेव
- vLLM 0.16.0 Qwen3.5 को सपोर्ट नहीं करता
- 0.170 या उससे ऊपर या Nightly version चाहिए
- 16-bit save और केवल LoRA adapter save करना संभव है
- अधिक जानकारी के लिए Unsloth की inference guide देखें
2 टिप्पणियां
पिछली बार जब मैंने agent के ज़रिए fine-tuning चलाकर देखा था, तो डेटा के हिसाब से overfitting की समस्या काफ़ी बार होती दिखी थी। इस बार इस notebook में LoRA/QLoRA के combination के साथ यह संभव होगा या नहीं, यह जानने की उत्सुकता है।
Hacker News की राय
मैंने Qwen मॉडल को NVIDIA Jetson हार्डवेयर पर fine-tune करके देखा, और प्रदर्शन हैरान करने वाला अच्छा था
कई 7B वेरिएंट मॉडल edge AI उपयोग के लिए deploy किए, और वे खास तौर पर industrial inspection या retail analytics जैसे माहौल में उपयोगी रहे, जहाँ accuracy से ज़्यादा latency महत्वपूर्ण होती है
LoRA fine-tuning की वजह से मॉडल छोटे हो गए, इसलिए वे unified memory में अच्छी तरह फिट हो गए, और real-time inference की गति भी काफी तेज रही
सबसे ज़्यादा हैरानी power efficiency ने दी — Jetson Orin 15W से कम पर लगातार inference चला पा रहा था, और यह cloud round-trip की तुलना में काफी ज़्यादा energy-efficient था
आजकल Twitter या Reddit पर भी इस तरह के नकली किस्सानुमा फ़ॉर्मैट वाले कमेंट अक्सर दिखते हैं। देखने में वे असली इंसान के जैसे लगते हैं, लेकिन सब कुछ गढ़ी हुई कहानी जैसा लगता है
Nano(40 TOPS), NX(100), AGX(275) में से कौन-सा, और क्या आपने Thor(2070) पर बड़े मॉडल भी आज़माए हैं?
जिज्ञासा है कि लोग वास्तव में छोटे/मध्यम मॉडल को fine-tune करके किन-किन मामलों में इस्तेमाल कर रहे हैं
संबंधित पोस्ट
उदाहरण के लिए,
Llama-70B, Gemma-4B, Ministral-14B आदि मॉडलों की accuracy और cost की तुलना की,
और 4B मॉडल भी काफी ठीक-ठाक प्रदर्शन करते दिखे।
लेकिन डेटा की मात्रा और प्रदर्शन सुधार के बीच के संबंध को लेकर जो सहज समझ थी, वह जैसे गायब हो गई है
सोच रहा हूँ कि खुद fine-tuning करके देखूँ
base model अच्छा काम करता है, लेकिन मेरी खराब लिखावट की वजह से कभी-कभी पहचान में गलती हो जाती है
आजकल ऐसा लगता है कि LLM fine-tuning की ज़रूरत धीरे-धीरे कम हो रही है
नए मॉडल सिर्फ few-shot learning से भी जटिल काम अच्छी तरह कर लेते हैं
Qwen3.5 जैसे बड़े context window वाले मॉडल में मजबूत prompt design से काफी कुछ बदला जा सकता है
image models या पुराने LLMs में इसका महत्व अभी भी है, लेकिन text LLMs में यह धीरे-धीरे अप्रभावी होता जा रहा है
बड़े मॉडल का context बढ़ाना बहुत महँगा पड़ता है
Unsloth guide की तरह vision+text fine-tuning भी संभव है
आगे चलकर शायद model routing आम हो जाएगा, जहाँ local पर छोटे LoRA मॉडल चलेंगे और जटिल काम cloud को भेजे जाएँगे
वास्तव में DoorDash, Vercel, NASA, Cursor आदि भी अपना fine-tuning कर रहे हैं
Claude, Qwen, Llama, Gemma आदि से कोशिश की, लेकिन style transfer ठीक से काम नहीं कर पाया
मेरे सैकड़ों कमेंट training data के रूप में इस्तेमाल करने पर भी, Instruct मॉडल पहले से इतना ज़्यादा tuned था कि अतिरिक्त training लगभग बेअसर रही
Qwen ने training के दौरान ऐसे data को फ़िल्टर कर दिया था, इसलिए उसे सिर्फ fine-tuning से ही वापस लाया जा सकता है
संबंधित कार्य का उदाहरण: chenrm का Qwen3 LoRA मॉडल
deterministic और auditable behavior, hallucination में कमी, और cost-saving LoRA/QLoRA का संयोजन उपयोगी है
RAG को FAISS vector DB के साथ इस्तेमाल करने पर context के बेकाबू फैलाव को रोका जा सकता है
लंबे समय में prompt adjustment की तुलना में छोटे adapters को manage करना कहीं ज़्यादा कुशल है
अफसोस है कि Qwen टीम के कुछ lead बदल गए
चिंता है कि नई management business-केंद्रित होते हुए open source भावना को कमज़ोर न कर दे
Alibaba CEO/CTO की आपात बैठक की खबर
उम्मीद है कि सब ठीक हो जाएगा
सिर्फ document-केंद्रित RAG approach ही काफी लगती है, इसलिए जिज्ञासा है कि क्या fine-tuning सच में बेहतर परिणाम देती है
उदाहरण: FlashCheck
लगता है यह सामग्री सिर्फ बड़े MoE मॉडल पर केंद्रित है
अधिकांश उपयोगकर्ता शायद छोटे मॉडल (जैसे 9B) को लक्ष्य बनाएँगे,
और यह मॉडल hybrid Mamba architecture इस्तेमाल करता है, इसलिए शायद इसे अलग तरह से देखना होगा