Qwen3.5 मॉडल quantization: कम्युनिटी वर्ज़न की परफ़ॉर्मेंस क्यों गिरती है
(x.com/Brooooook_lyn)AI मॉडल को छोटा और तेज़ बनाने के लिए compress करने की तकनीक 'quantization' में, कम्युनिटी द्वारा वितरित MLX फ़ॉर्मैट के Qwen3.5 मॉडलों में tool calling errors, निरर्थक output, और hallucination जैसी समस्याएँ क्यों दिखती हैं, इसका तकनीकी कारण स्पष्ट किया गया है। यह AI fine-tuning टूल कंपनी Unsloth द्वारा 150 से अधिक benchmark experiments के आधार पर कारण और समाधान पेश करने वाली सामग्री है.
मुख्य सार
- quantization वह तकनीक है जिसमें मॉडल के संख्यात्मक डेटा को कम precision (bit count) में compress करके file size और computation को घटाया जाता है
- अधिकतर कम्युनिटी quantization tools सभी layers पर समान bit count लागू करने वाली 'uniform quantization' का उपयोग करते हैं
- Qwen3.5 एक hybrid संरचना है जिसमें सामान्य self-attention layers और GatedDeltaNet नामक linear attention layers बारी-बारी से बने हैं
- समस्या का केंद्र
linear_attn.out_projlayer है, और 4-bit compression में इस layer की information loss sensitivity output layer (lm_head) की तुलना में लगभग 120 गुना अधिक है - uniform quantization में कम महत्वपूर्ण हिस्सों पर precision व्यर्थ होती है, जबकि वास्तव में sensitive layers नष्ट हो जाती हैं; यही इसकी संरचनात्मक समस्या है
Unsloth का समाधान
- हर layer की वास्तविक sensitivity के अनुसार अलग-अलग bit count बाँटने वाली 'mixed-bit quantization' पद्धति लागू की गई
- कम sensitivity वाली MLP layers को 3-bit, attention Q/K/V layers को 5-bit के साथ AWQ (weight correction technique), और सबसे sensitive output layer को bf16 full precision में रखा गया
- calibration data के लिए Wikipedia के बजाय conversation, coding, और tool-calling examples का उपयोग किया गया, ताकि वास्तविक उपयोग परिवेश के अनुसार importance की गणना की जा सके
फ़ायदे और सीमाएँ
- फ़ायदा: tool calling, structured output, और code generation की quality मौजूदा कम्युनिटी वर्ज़न की तुलना में काफ़ी बेहतर होती है। MLX में समान GGUF वर्ज़न के बराबर performance हासिल की गई
- सीमा: कुछ sensitive layers को bf16 में बनाए रखना पड़ता है, इसलिए disk usage शुद्ध low-bit मॉडल की तुलना में अधिक होता है
अंतर
- जहाँ मौजूदा कम्युनिटी tools संरचना को ध्यान में रखे बिना एकसाथ compress करते हैं, वहीं Unsloth ने 150 से अधिक KLD (information loss measurement metric) experiments और 121 settings comparisons के ज़रिए layer-wise optimal bit count को वैज्ञानिक तरीके से निकाला
- यह बात भी अनुभवजन्य रूप से दिखाई गई कि calibration data की quality ही compression quality तय करती है
निहितार्थ
- AI मॉडल compression केवल bit count घटाने का मामला नहीं है; मॉडल की आंतरिक संरचना को समझना एक आवश्यक तकनीक है, यह फिर से स्पष्ट हुआ
- कम्युनिटी में वितरित lightweight मॉडलों को व्यावहारिक उपयोग में लेने से पहले, वितरक की quantization method और calibration data को ज़रूर जाँचना चाहिए—यह एक उपयोगी व्यावहारिक सबक है
अभी कोई टिप्पणी नहीं है.