18 पॉइंट द्वारा ragingwind 2026-04-18 | 4 टिप्पणियां | WhatsApp पर शेयर करें

AI मॉडल को छोटा और तेज़ बनाने के लिए compress करने की तकनीक 'quantization' में, कम्युनिटी द्वारा वितरित MLX फ़ॉर्मैट के Qwen3.5 मॉडलों में tool calling errors, निरर्थक output, और hallucination जैसी समस्याएँ क्यों दिखती हैं, इसका तकनीकी कारण स्पष्ट किया गया है। यह AI fine-tuning टूल कंपनी Unsloth द्वारा 150 से अधिक benchmark experiments के आधार पर कारण और समाधान पेश करने वाली सामग्री है.

मुख्य सार

  • quantization वह तकनीक है जिसमें मॉडल के संख्यात्मक डेटा को कम precision (bit count) में compress करके file size और computation को घटाया जाता है
  • अधिकतर कम्युनिटी quantization tools सभी layers पर समान bit count लागू करने वाली 'uniform quantization' का उपयोग करते हैं
  • Qwen3.5 एक hybrid संरचना है जिसमें सामान्य self-attention layers और GatedDeltaNet नामक linear attention layers बारी-बारी से बने हैं
  • समस्या का केंद्र linear_attn.out_proj layer है, और 4-bit compression में इस layer की information loss sensitivity output layer (lm_head) की तुलना में लगभग 120 गुना अधिक है
  • uniform quantization में कम महत्वपूर्ण हिस्सों पर precision व्यर्थ होती है, जबकि वास्तव में sensitive layers नष्ट हो जाती हैं; यही इसकी संरचनात्मक समस्या है

Unsloth का समाधान

  • हर layer की वास्तविक sensitivity के अनुसार अलग-अलग bit count बाँटने वाली 'mixed-bit quantization' पद्धति लागू की गई
  • कम sensitivity वाली MLP layers को 3-bit, attention Q/K/V layers को 5-bit के साथ AWQ (weight correction technique), और सबसे sensitive output layer को bf16 full precision में रखा गया
  • calibration data के लिए Wikipedia के बजाय conversation, coding, और tool-calling examples का उपयोग किया गया, ताकि वास्तविक उपयोग परिवेश के अनुसार importance की गणना की जा सके

फ़ायदे और सीमाएँ

  • फ़ायदा: tool calling, structured output, और code generation की quality मौजूदा कम्युनिटी वर्ज़न की तुलना में काफ़ी बेहतर होती है। MLX में समान GGUF वर्ज़न के बराबर performance हासिल की गई
  • सीमा: कुछ sensitive layers को bf16 में बनाए रखना पड़ता है, इसलिए disk usage शुद्ध low-bit मॉडल की तुलना में अधिक होता है

अंतर

  • जहाँ मौजूदा कम्युनिटी tools संरचना को ध्यान में रखे बिना एकसाथ compress करते हैं, वहीं Unsloth ने 150 से अधिक KLD (information loss measurement metric) experiments और 121 settings comparisons के ज़रिए layer-wise optimal bit count को वैज्ञानिक तरीके से निकाला
  • यह बात भी अनुभवजन्य रूप से दिखाई गई कि calibration data की quality ही compression quality तय करती है

निहितार्थ

  • AI मॉडल compression केवल bit count घटाने का मामला नहीं है; मॉडल की आंतरिक संरचना को समझना एक आवश्यक तकनीक है, यह फिर से स्पष्ट हुआ
  • कम्युनिटी में वितरित lightweight मॉडलों को व्यावहारिक उपयोग में लेने से पहले, वितरक की quantization method और calibration data को ज़रूर जाँचना चाहिए—यह एक उपयोगी व्यावहारिक सबक है

4 टिप्पणियां

 
iiiiiiiiiiiii 2026-04-21

असल में, जो layers इतने महत्वपूर्ण नहीं होते, उन्हें बेझिझक compress कर देने पर भी नुकसान ज़्यादा नहीं होता। कुछ layers के मामले में 2bit quantization करने पर भी कोई खास दिखने वाला loss नहीं होता।
लेकिन community models में सभी layers को एक साथ uniform तरीके से quantize कर दिया जाता है, इसलिए समस्या पैदा होती है।

 
jeeeyul 2026-04-19

ऐसा इसलिए है क्योंकि मॉडल के dimensions और layers समान रूप से bake नहीं किए गए थे। हमेशा की तरह।

 
ryj0902 2026-04-20

वाह......!

 
mammal 2026-04-18

लगता है Unsloth के संस्थापक Daniel Han सचमुच जीनियस हैं। जब भी कोई open-weight model आता है, वे model structure से लेकर tokenizing bugs, quantization errors, और template errors तक सबका विश्लेषण करके साझा करते हैं, जो वाकई बेहद प्रभावित करने वाला है।