16 पॉइंट द्वारा GN⁺ 2026-03-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen3.5 मॉडल परिवार (0.8B~122B) को LLM फाइन-ट्यूनिंग और reinforcement learning के लिए बने open source framework Unsloth के साथ टेक्स्ट और विज़न-आधारित फाइन-ट्यूनिंग के लिए इस्तेमाल किया जा सकता है
  • Unsloth FlashAttention-2 की तुलना में 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है, और bf16 LoRA सेटिंग के साथ efficient training संभव बनाता है
  • Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को मुफ्त में आज़माया जा सकता है, और A100 environments के लिए 27B·35B मॉडल notebooks भी उपलब्ध हैं
  • MoE मॉडल्स (35B, 122B आदि) नए kernels के साथ 12x तेज़ training, 35% कम VRAM, और 6x लंबी context length को सपोर्ट करते हैं
  • Training के बाद मॉडल्स को GGUF, vLLM, Ollama, LM Studio, SGLang जैसी कई deployment formats में export किया जा सकता है

Qwen3.5 फाइन-ट्यूनिंग का अवलोकन

  • Qwen3.5 मॉडल परिवार (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) को Unsloth के साथ फाइन-ट्यून किया जा सकता है
    • टेक्स्ट और विज़न, दोनों समर्थित हैं
    • Qwen3.5‑35B‑A3B bf16 LoRA 74GB VRAM पर चलता है
  • Unsloth 1.5x तेज़ training speed और 50% कम VRAM उपयोग देता है
    • VRAM उपयोग: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
  • मुफ्त Google Colab notebooks के जरिए 0.8B, 2B, 4B मॉडल्स को आज़माया जा सकता है
  • Inference क्षमता बनाए रखने के लिए ऐसा dataset सुझाया जाता है जिसमें 75% से अधिक reasoning examples हों
  • Full Fine-Tuning(FFT) भी संभव है, लेकिन VRAM उपयोग 4x बढ़ जाता है

Training environment और settings

  • Qwen3.5 201 भाषाओं को सपोर्ट करने वाला multilingual model है
  • Reinforcement Learning(RL) और Vision RL(VLM RL) भी Unsloth के जरिए समर्थित हैं
  • A100 Colab notebooks उपलब्ध: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • लोकल training करते समय latest version में update करना ज़रूरी है
    • कमांड: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 अनिवार्य है, पुराने versions काम नहीं करेंगे
  • Mamba Triton kernel compile होने के कारण शुरुआती training धीमी हो सकती है (खासकर T4 GPU पर)
  • QLoRA(4-bit) training की सिफारिश नहीं की जाती

MoE मॉडल फाइन-ट्यूनिंग (35B, 122B)

  • Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B मॉडल्स समर्थित हैं
    • 12x तेज़ training, 35% कम VRAM, 6x लंबी context length
  • bf16 LoRA या Full Fine-Tuning की सिफारिश की जाती है
  • MoE QLoRA 4-bit को BitsandBytes की सीमाओं के कारण सुझाया नहीं जाता
  • Unsloth MoE kernel डिफॉल्ट रूप से enabled है, backend को UNSLOTH_MOE_BACKEND से बदला जा सकता है
  • Router-layer fine-tuning स्थिरता कारणों से डिफॉल्ट रूप से disabled है
  • Qwen3.5‑122B‑A10B bf16 LoRA के लिए 256GB VRAM चाहिए
    • मल्टी-GPU उपयोग करते समय device_map = "balanced" सेट करें या multiGPU guide देखें

Quickstart

  • टेक्स्ट-ओनली SFT(supervised fine-tuning) का उदाहरण दिया गया है
  • Qwen3.5 की संरचना Causal Language Model + Vision Encoder है
    • विज़न dependencies (torchvision, pillow) install करनी होंगी
  • latest Transformers version इस्तेमाल करने की सिफारिश की जाती है
  • GRPO training fast vLLM को disable करने के बाद Unsloth inference के साथ की जा सकती है
  • OOM(मेमोरी खत्म होना) होने पर
    • per_device_train_batch_size=1, max_seq_length कम करें
    • VRAM बचाने और context बढ़ाने के लिए gradient_checkpointing="unsloth" बनाए रखें
  • MoE bf16 LoRA loader example दिया गया है

Vision फाइन-ट्यूनिंग

  • Multimodal Qwen3.5 मॉडल्स की विज़न फाइन-ट्यूनिंग समर्थित है
    • Qwen3-VL GRPO/GSPO RL notebooks इस्तेमाल की जा सकती हैं (सिर्फ मॉडल नाम बदलें)
  • विज़न/टेक्स्ट-ओनली training चुनी जा सकती है
    • Vision, Language, Attention, MLP layers में से selective fine-tuning संभव है
    • डिफॉल्ट रूप से सभी enabled रहते हैं
  • Multi-image training के लिए अलग multi-image vision guide देखें

मॉडल सेव और डिप्लॉयमेंट

  • llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang जैसी कई deployment methods समर्थित हैं

GGUF सेव

  • Unsloth में GGUF format में direct save और Hugging Face upload सपोर्ट है
  • Inference के दौरान performance गिरने पर गलत chat template या EOS token इसका मुख्य कारण हो सकता है

vLLM सेव

  • vLLM 0.16.0 Qwen3.5 को सपोर्ट नहीं करता
    • 0.170 या उससे ऊपर या Nightly version चाहिए
  • 16-bit save और केवल LoRA adapter save करना संभव है
  • अधिक जानकारी के लिए Unsloth की inference guide देखें

2 टिप्पणियां

 
hmmhmmhm 2026-03-06

पिछली बार जब मैंने agent के ज़रिए fine-tuning चलाकर देखा था, तो डेटा के हिसाब से overfitting की समस्या काफ़ी बार होती दिखी थी। इस बार इस notebook में LoRA/QLoRA के combination के साथ यह संभव होगा या नहीं, यह जानने की उत्सुकता है।

 
GN⁺ 2026-03-06
Hacker News की राय
  • मैंने Qwen मॉडल को NVIDIA Jetson हार्डवेयर पर fine-tune करके देखा, और प्रदर्शन हैरान करने वाला अच्छा था
    कई 7B वेरिएंट मॉडल edge AI उपयोग के लिए deploy किए, और वे खास तौर पर industrial inspection या retail analytics जैसे माहौल में उपयोगी रहे, जहाँ accuracy से ज़्यादा latency महत्वपूर्ण होती है
    LoRA fine-tuning की वजह से मॉडल छोटे हो गए, इसलिए वे unified memory में अच्छी तरह फिट हो गए, और real-time inference की गति भी काफी तेज रही
    सबसे ज़्यादा हैरानी power efficiency ने दी — Jetson Orin 15W से कम पर लगातार inference चला पा रहा था, और यह cloud round-trip की तुलना में काफी ज़्यादा energy-efficient था

    • यह टिप्पणी AI द्वारा बनाई हुई लगती है
      आजकल Twitter या Reddit पर भी इस तरह के नकली किस्सानुमा फ़ॉर्मैट वाले कमेंट अक्सर दिखते हैं। देखने में वे असली इंसान के जैसे लगते हैं, लेकिन सब कुछ गढ़ी हुई कहानी जैसा लगता है
    • दिलचस्प। क्या ऐसे industrial कामों के उदाहरण दिए जा सकते हैं जहाँ accuracy थोड़ी कम हो तो भी चलता हो?
    • जिज्ञासा है कि वास्तव में ऐसे मॉडल किस तरह के कामों में इस्तेमाल होते हैं, कोई ठोस उदाहरण जानना चाहूँगा
    • यह एक साधारण सवाल है, लेकिन क्या ऐसे उपयोगों के लिए पारंपरिक neural network ही काफी नहीं होंगे?
    • आपने कहा 7B मॉडल 15W पर चल रहा था, तो Orin सीरीज़ का कौन-सा मॉडल था?
      Nano(40 TOPS), NX(100), AGX(275) में से कौन-सा, और क्या आपने Thor(2070) पर बड़े मॉडल भी आज़माए हैं?
  • जिज्ञासा है कि लोग वास्तव में छोटे/मध्यम मॉडल को fine-tune करके किन-किन मामलों में इस्तेमाल कर रहे हैं

    • इस विषय पर X पर एक अच्छा संकलन है
      संबंधित पोस्ट
      उदाहरण के लिए,
      1. Cursor ने online RL से approval rate में 28% सुधार किया (लिंक)
      2. Vercel ने AutoFix मॉडल पर RFT लागू किया (लिंक)
      3. Perplexity Sonar Deep Research Reasoning के लिए fine-tuned मॉडल है (लिंक)
      4. DoorDash ने LoRA/QLoRA से attribute extraction मॉडल बनाया (लिंक)
      5. NASA का flood detection मॉडल (लिंक)
      6. robotics के लिए online RL
      7. OpenAI RFT use cases का संग्रह (लिंक)
      8. Mercor ने expert data के आधार पर मॉडल प्रदर्शन सुधारा (लिंक)
    • मैंने एक साधारण document classification task पर कई मॉडलों का benchmark किया
      Llama-70B, Gemma-4B, Ministral-14B आदि मॉडलों की accuracy और cost की तुलना की,
      और 4B मॉडल भी काफी ठीक-ठाक प्रदर्शन करते दिखे।
      लेकिन डेटा की मात्रा और प्रदर्शन सुधार के बीच के संबंध को लेकर जो सहज समझ थी, वह जैसे गायब हो गई है
      सोच रहा हूँ कि खुद fine-tuning करके देखूँ
    • अपनी handwriting recognition accuracy बढ़ाने के लिए मैं fine-tuning पर विचार कर रहा हूँ
      base model अच्छा काम करता है, लेकिन मेरी खराब लिखावट की वजह से कभी-कभी पहचान में गलती हो जाती है
    • एक अच्छे उदाहरण के तौर पर Atredis ब्लॉग की LLM training guide सुझाऊँगा
  • आजकल ऐसा लगता है कि LLM fine-tuning की ज़रूरत धीरे-धीरे कम हो रही है
    नए मॉडल सिर्फ few-shot learning से भी जटिल काम अच्छी तरह कर लेते हैं
    Qwen3.5 जैसे बड़े context window वाले मॉडल में मजबूत prompt design से काफी कुछ बदला जा सकता है
    image models या पुराने LLMs में इसका महत्व अभी भी है, लेकिन text LLMs में यह धीरे-धीरे अप्रभावी होता जा रहा है

    • अगर छोटे मॉडल को किसी खास structured output के लिए fine-tune किया जाए, तो कम लागत पर बड़े पैमाने का inference चलाया जा सकता है
      बड़े मॉडल का context बढ़ाना बहुत महँगा पड़ता है
    • LLM आगे बढ़ रहे हैं, लेकिन robot का continual learning या multimodal LoRA fine-tuning जैसे क्षेत्रों में अभी भी काफी संभावना है
      Unsloth guide की तरह vision+text fine-tuning भी संभव है
      आगे चलकर शायद model routing आम हो जाएगा, जहाँ local पर छोटे LoRA मॉडल चलेंगे और जटिल काम cloud को भेजे जाएँगे
      वास्तव में DoorDash, Vercel, NASA, Cursor आदि भी अपना fine-tuning कर रहे हैं
    • मैंने मॉडल को अपनी writing style के हिसाब से fine-tune करने की कोशिश की थी
      Claude, Qwen, Llama, Gemma आदि से कोशिश की, लेकिन style transfer ठीक से काम नहीं कर पाया
      मेरे सैकड़ों कमेंट training data के रूप में इस्तेमाल करने पर भी, Instruct मॉडल पहले से इतना ज़्यादा tuned था कि अतिरिक्त training लगभग बेअसर रही
    • संक्षेप में कहें तो वजह adult content data है
      Qwen ने training के दौरान ऐसे data को फ़िल्टर कर दिया था, इसलिए उसे सिर्फ fine-tuning से ही वापस लाया जा सकता है
      संबंधित कार्य का उदाहरण: chenrm का Qwen3 LoRA मॉडल
    • वास्तविक सेवाओं में fine-tuning अब भी महत्वपूर्ण है
      deterministic और auditable behavior, hallucination में कमी, और cost-saving LoRA/QLoRA का संयोजन उपयोगी है
      RAG को FAISS vector DB के साथ इस्तेमाल करने पर context के बेकाबू फैलाव को रोका जा सकता है
      लंबे समय में prompt adjustment की तुलना में छोटे adapters को manage करना कहीं ज़्यादा कुशल है
  • अफसोस है कि Qwen टीम के कुछ lead बदल गए
    चिंता है कि नई management business-केंद्रित होते हुए open source भावना को कमज़ोर न कर दे

  • सिर्फ document-केंद्रित RAG approach ही काफी लगती है, इसलिए जिज्ञासा है कि क्या fine-tuning सच में बेहतर परिणाम देती है

    • विशेषीकृत मॉडल निश्चित रूप से SOTA से आगे निकलते हैं
      उदाहरण: FlashCheck
    • पहले Cursor का tab-next-action मॉडल बहुत चर्चा में था, लेकिन असल में वह 70B मॉडल का fine-tuned संस्करण था
  • लगता है यह सामग्री सिर्फ बड़े MoE मॉडल पर केंद्रित है
    अधिकांश उपयोगकर्ता शायद छोटे मॉडल (जैसे 9B) को लक्ष्य बनाएँगे,
    और यह मॉडल hybrid Mamba architecture इस्तेमाल करता है, इसलिए शायद इसे अलग तरह से देखना होगा