Qwen2-72B में बीच की 7 लेयरों की कॉपी से लीडरबोर्ड में नंबर 1, बिना एक भी weight बदले
(dnhkng.github.io)डेवलपर David Noel Ng ने Qwen2-72B मॉडल में बीच की 7 लेयरों के हिस्से से एक बार अतिरिक्त पास कराने की बेहद सरल विधि से, बिना किसी weight बदलाव या fine-tuning के 2024 HuggingFace Open LLM लीडरबोर्ड में नंबर 1 हासिल किया।
मुख्य बिंदु
-
Qwen2-72B (कुल 80 लेयर) में एक खास मध्य खंड (लेयर 45~51, कुल 7) को एक बार और पास कराने के तरीके से मॉडल में बदलाव किया गया
→ पैरामीटर 72B → लगभग 78B हो जाते हैं, लेकिन नए weight 0 जोड़े जाते हैं -
बेंचमार्क नतीजे
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- 6 प्रमुख बेंचमार्क में से 5 में प्रदर्शन बढ़ा → औसत स्कोर के आधार पर लीडरबोर्ड में नंबर 1
यह असरदार क्यों रहा?
- यह परिकल्पना कि transformer मॉडल के भीतर फ़ंक्शन के हिसाब से अलग-अलग ‘circuit’ मौजूद होते हैं (LLM Neuroanatomy)
- शुरुआती लेयर: input encoding
- मध्य लेयर: वास्तविक reasoning/सोचने का हिस्सा (गणित, भावना-समझ आदि के लिए विशिष्ट circuit मौजूद)
- अंतिम लेयर: output decoding
→ बीच वाले reasoning circuit को एक बार और चलाने से वह क्षमता मज़बूत होती है
प्रयोग का तरीका
RTX 4090 की 2 GPUs से 3,241 लेयर-रेंज संयोजनों की exhaustive जाँच की गई → heatmap विश्लेषण
→ पता चला कि सिर्फ़ एक खास रेंज (45~52) को दोहराने पर प्रदर्शन तेज़ी से बढ़ता है
अतिरिक्त इनसाइट
- एकल लेयर दोहराने पर → प्रदर्शन गिरा
- कई लेयरों के ब्लॉक को दोहराने पर → खास फ़ंक्शन मज़बूत हुए
- बाद में इसी विचार पर आधारित मॉडल (RYS-XLarge → calme-3.2 आदि) ने 2026 की शुरुआत में लीडरबोर्ड के ऊपरी स्थान भी हासिल किए
निष्कर्ष
LLM सिर्फ़ लेयरों का ढेर नहीं है, बल्कि इसमें दिमाग़ की तरह फ़ंक्शनल रूप से विभाजित circuit होते हैं।
इन circuit को पहचानकर उन्हें दोबारा चलाना भर, बिना weights छुए भी प्रदर्शन को काफ़ी ऊपर ले जा सकता है।
1 टिप्पणियां
अगर यह सच है, तो छोटे और बड़े मॉडलों के प्रदर्शन के बीच का अंतर और भी ज़्यादा चरम हो सकता है।