Qwen2-72B में बीच की 7 लेयरों की कॉपी से लीडरबोर्ड में नंबर 1, बिना एक भी weight बदले
(dnhkng.github.io)डेवलपर David Noel Ng ने Qwen2-72B मॉडल में बीच की 7 लेयरों के हिस्से से एक बार अतिरिक्त पास कराने की बेहद सरल विधि से, बिना किसी weight बदलाव या fine-tuning के 2024 HuggingFace Open LLM लीडरबोर्ड में नंबर 1 हासिल किया।
मुख्य बिंदु
-
Qwen2-72B (कुल 80 लेयर) में एक खास मध्य खंड (लेयर 45~51, कुल 7) को एक बार और पास कराने के तरीके से मॉडल में बदलाव किया गया
→ पैरामीटर 72B → लगभग 78B हो जाते हैं, लेकिन नए weight 0 जोड़े जाते हैं -
बेंचमार्क नतीजे
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- 6 प्रमुख बेंचमार्क में से 5 में प्रदर्शन बढ़ा → औसत स्कोर के आधार पर लीडरबोर्ड में नंबर 1
यह असरदार क्यों रहा?
- यह परिकल्पना कि transformer मॉडल के भीतर फ़ंक्शन के हिसाब से अलग-अलग ‘circuit’ मौजूद होते हैं (LLM Neuroanatomy)
- शुरुआती लेयर: input encoding
- मध्य लेयर: वास्तविक reasoning/सोचने का हिस्सा (गणित, भावना-समझ आदि के लिए विशिष्ट circuit मौजूद)
- अंतिम लेयर: output decoding
→ बीच वाले reasoning circuit को एक बार और चलाने से वह क्षमता मज़बूत होती है
प्रयोग का तरीका
RTX 4090 की 2 GPUs से 3,241 लेयर-रेंज संयोजनों की exhaustive जाँच की गई → heatmap विश्लेषण
→ पता चला कि सिर्फ़ एक खास रेंज (45~52) को दोहराने पर प्रदर्शन तेज़ी से बढ़ता है
अतिरिक्त इनसाइट
- एकल लेयर दोहराने पर → प्रदर्शन गिरा
- कई लेयरों के ब्लॉक को दोहराने पर → खास फ़ंक्शन मज़बूत हुए
- बाद में इसी विचार पर आधारित मॉडल (RYS-XLarge → calme-3.2 आदि) ने 2026 की शुरुआत में लीडरबोर्ड के ऊपरी स्थान भी हासिल किए
निष्कर्ष
LLM सिर्फ़ लेयरों का ढेर नहीं है, बल्कि इसमें दिमाग़ की तरह फ़ंक्शनल रूप से विभाजित circuit होते हैं।
इन circuit को पहचानकर उन्हें दोबारा चलाना भर, बिना weights छुए भी प्रदर्शन को काफ़ी ऊपर ले जा सकता है।
1 टिप्पणियां
> छोटे मॉडल जितने होते हैं, वे उतने ही अधिक जटिल दिखाई देते हैं। encoding, inference और decoding की क्षमताएँ अधिक जटिल रूप से आपस में उलझी होती हैं और पूरे मॉडल में फैली रहती हैं। मुझे ऐसा कोई भी फ़ंक्शनल ओवरलैप नहीं मिला जो कई tasks में generalize हो सके, लेकिन यह बात स्पष्ट थी कि किसी एक 'क्षमता' को मज़बूत करने से दूसरी क्षमता कमज़ोर हो सकती है। लेकिन जैसे-जैसे मॉडल बड़ा होता है, उसकी functional structure अधिक अलग-अलग हो जाती है। बड़े मॉडलों में generalized 'thinking' circuits विकसित करने के लिए अधिक 'space' होता है, और शायद यही वजह है कि मेरी विधि 72B मॉडल पर बहुत प्रभावी रही। एक निश्चित threshold से कम parameters पर, 'reasoning cortex' मस्तिष्क के बाकी हिस्सों से पूरी तरह विभेदित नहीं होता।
अगर यह सच है, तो छोटे और बड़े मॉडलों के प्रदर्शन के बीच का अंतर और भी ज़्यादा चरम हो सकता है।