Qwen2-72B में बीच की 7 लेयरों की कॉपी से लीडरबोर्ड में नंबर 1, बिना एक भी weight बदले

(dnhkng.github.io)

11 पॉइंट द्वारा davespark 2026-03-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें

डेवलपर David Noel Ng ने Qwen2-72B मॉडल में बीच की 7 लेयरों के हिस्से से एक बार अतिरिक्त पास कराने की बेहद सरल विधि से, बिना किसी weight बदलाव या fine-tuning के 2024 HuggingFace Open LLM लीडरबोर्ड में नंबर 1 हासिल किया।

मुख्य बिंदु

Qwen2-72B (कुल 80 लेयर) में एक खास मध्य खंड (लेयर 45~51, कुल 7) को एक बार और पास कराने के तरीके से मॉडल में बदलाव किया गया
→ पैरामीटर 72B → लगभग 78B हो जाते हैं, लेकिन नए weight 0 जोड़े जाते हैं
बेंचमार्क नतीजे
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- 6 प्रमुख बेंचमार्क में से 5 में प्रदर्शन बढ़ा → औसत स्कोर के आधार पर लीडरबोर्ड में नंबर 1

यह असरदार क्यों रहा?

यह परिकल्पना कि transformer मॉडल के भीतर फ़ंक्शन के हिसाब से अलग-अलग ‘circuit’ मौजूद होते हैं (LLM Neuroanatomy)
शुरुआती लेयर: input encoding
मध्य लेयर: वास्तविक reasoning/सोचने का हिस्सा (गणित, भावना-समझ आदि के लिए विशिष्ट circuit मौजूद)
अंतिम लेयर: output decoding
→ बीच वाले reasoning circuit को एक बार और चलाने से वह क्षमता मज़बूत होती है

प्रयोग का तरीका
RTX 4090 की 2 GPUs से 3,241 लेयर-रेंज संयोजनों की exhaustive जाँच की गई → heatmap विश्लेषण
→ पता चला कि सिर्फ़ एक खास रेंज (45~52) को दोहराने पर प्रदर्शन तेज़ी से बढ़ता है

अतिरिक्त इनसाइट

एकल लेयर दोहराने पर → प्रदर्शन गिरा
कई लेयरों के ब्लॉक को दोहराने पर → खास फ़ंक्शन मज़बूत हुए
बाद में इसी विचार पर आधारित मॉडल (RYS-XLarge → calme-3.2 आदि) ने 2026 की शुरुआत में लीडरबोर्ड के ऊपरी स्थान भी हासिल किए

निष्कर्ष
LLM सिर्फ़ लेयरों का ढेर नहीं है, बल्कि इसमें दिमाग़ की तरह फ़ंक्शनल रूप से विभाजित circuit होते हैं।
इन circuit को पहचानकर उन्हें दोबारा चलाना भर, बिना weights छुए भी प्रदर्शन को काफ़ी ऊपर ले जा सकता है।

https://aisparkup.com/posts/9997

1 टिप्पणियां

sygys10293 2026-03-13

> छोटे मॉडल जितने होते हैं, वे उतने ही अधिक जटिल दिखाई देते हैं। encoding, inference और decoding की क्षमताएँ अधिक जटिल रूप से आपस में उलझी होती हैं और पूरे मॉडल में फैली रहती हैं। मुझे ऐसा कोई भी फ़ंक्शनल ओवरलैप नहीं मिला जो कई tasks में generalize हो सके, लेकिन यह बात स्पष्ट थी कि किसी एक 'क्षमता' को मज़बूत करने से दूसरी क्षमता कमज़ोर हो सकती है। लेकिन जैसे-जैसे मॉडल बड़ा होता है, उसकी functional structure अधिक अलग-अलग हो जाती है। बड़े मॉडलों में generalized 'thinking' circuits विकसित करने के लिए अधिक 'space' होता है, और शायद यही वजह है कि मेरी विधि 72B मॉडल पर बहुत प्रभावी रही। एक निश्चित threshold से कम parameters पर, 'reasoning cortex' मस्तिष्क के बाकी हिस्सों से पूरी तरह विभेदित नहीं होता।

अगर यह सच है, तो छोटे और बड़े मॉडलों के प्रदर्शन के बीच का अंतर और भी ज़्यादा चरम हो सकता है।

Qwen2-72B में बीच की 7 लेयरों की कॉपी से लीडरबोर्ड में नंबर 1, बिना एक भी weight बदले

संबंधित पढ़ाई

1 टिप्पणियां