- विशाल 72B parameter LLM की बीच की 7 layers को कॉपी करके दोबारा संयोजित किया गया, और बिना किसी training के leaderboard में पहला स्थान हासिल किया गया
- प्रयोग दो RTX 4090 पर किया गया, और model के weights बदले बिना केवल middle layers को बार-बार चलाने वाली संरचना बदली गई
- गणितीय reasoning और भावनात्मक reasoning (EQ) जैसे दो छोटे proxy tasks के जरिए सबसे उपयुक्त layer range खोजी गई
- नतीजे में Qwen2-72B आधारित RYS-XLarge model ने औसतन +2.61% सुधार दिखाया; खासकर MuSR +17.72% और MATH +8.16% बेहतर रहे
- यह तरीका LLM के भीतर 'functional circuits' की संभावित मौजूदगी दिखाता है और बड़े models की 'neuroanatomical structure' पर शोध की दिशा खोलता है
Open LLM Leaderboard और प्रयोग की पृष्ठभूमि
- 2024 के मध्य में HuggingFace का Open LLM Leaderboard public-weight models की प्रतिस्पर्धा का प्रमुख मंच था
- मूल्यांकन आइटम: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- लेखक ने नया model train या fine-tune किए बिना, मौजूदा model की कुछ middle layers को कॉपी करने के तरीके से प्रयोग किया
- अनुमान यह था कि कॉपी की गई layers model की 'thinking' प्रक्रिया का हिस्सा हैं
संकेत 1 – Base64 conversation experiment
- यह देखा गया कि LLM Base64 में encode किए गए प्रश्न को समझकर सही उत्तर भी Base64 में लौटाता है
- इस आधार पर यह परिकल्पना दी गई कि input format बदलने पर भी model reasoning कर लेता है, यानी शुरुआती layers input interpretation (translation) और अंतिम layers output transformation (re-translation) का काम करती हैं
- इसके अनुसार middle layers abstract thinking करने वाला क्षेत्र हो सकती हैं
संकेत 2 – Goliath-120B model की असामान्य संरचना
- HuggingFace का Goliath-120B दो Llama-2 70B models को interleave करके बनाया गया था, जिसमें बाद की layers का output फिर शुरुआती layers के input में feedback किया जाता है
- सामान्य training distribution से बाहर होने के बावजूद model के काम करने की पुष्टि हुई
- इससे संकेत मिला कि layers के बीच representations परस्पर compatible हो सकते हैं, और Transformer की internal representation अपेक्षाकृत homogeneous हो सकती है
'Brain scanner' बनाना
- Qwen2-72B model में सभी (i, j) layer-range combinations (कुल 3,241) को test करने वाली pipeline बनाई गई
- हर combination में किसी खास layer range को दो बार pass कराकर model को फिर से संरचित किया गया
- मूल्यांकन के लिए तीन शर्तें रखी गईं
- न्यूनतम output (speed के लिए)
- objective scoring की क्षमता
- cognitive independence (अगर दोनों tasks साथ बेहतर हों, तो उसे structural improvement माना जाए)
Proxy task design
- Hard Math Probe: जटिल arithmetic समस्याओं के सही उत्तर का प्रत्यक्ष अनुमान
- EQ-Bench Probe: सामाजिक परिस्थितियों में भावनात्मक तीव्रता को 0~100 के बीच predict करना
- दोनों tasks छोटे outputs और स्पष्ट सही उत्तर देते हैं, इसलिए structural बदलाव मापने के लिए उपयुक्त हैं
Math scoring function और partial-credit evaluation
- LLM की numeric errors (जैसे digit omission, transposition) को ध्यान में रखकर partial-match scoring function बनाया गया
- छोटे उत्तरों को padding देकर और relative error की गणना कर accuracy को continuous score में बदला गया
- इससे performance के सूक्ष्म अंतर को मात्रात्मक रूप से अलग किया जा सका
RYS-XLarge model की संरचना
- सबसे अच्छा combination (45, 52) निकला, यानी 45~51 layers को एक बार और दोहराया गया
- नतीजतन 7 middle layers की duplication हुई और कुल parameters 72B → 78B हो गए
- weights बदले बिना केवल structure बदली गई, और अतिरिक्त VRAM के बिना pointer duplication से इसे लागू किया गया
Leaderboard पर प्रदर्शन
| आइटम |
स्कोर |
बेसलाइन की तुलना में सुधार |
| औसत |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- 5 आइटम में सुधार हुआ, और औसत स्कोर के आधार पर leaderboard में पहला स्थान मिला
- क्योंकि development के दौरान leaderboard के आइटम इस्तेमाल नहीं किए गए, इसे शुद्ध structural generalization effect माना गया
Transformer के 'functional circuits' की खोज
- किसी एक layer को दोहराने से असर नहीं हुआ, लेकिन लगातार जुड़े block को दोहराने पर ही performance बेहतर हुई
- इसका मतलब है कि middle layers अलग-अलग repeat होने वाले operations नहीं, बल्कि multi-stage computational circuit की तरह काम करती हैं
- उदाहरण: 46~52 layers किसी 'recipe' की तरह चरण-दर-चरण reasoning करती हैं
- पूरे block को दोहराने से reasoning एक बार और चलने जैसा प्रभाव होता है
Heatmap analysis और 'LLM Neuroanatomy'
- हर (i, j) combination की performance को visualise करने वाला heatmap fMRI जैसे pattern दिखाता है
- math task में middle-layer repetition से सुधार दिखा, जबकि EQ task में दूसरे क्षेत्र बेहतर रहे
- यह संकेत देता है कि Transformer के भीतर task-specific functional circuits मौजूद हो सकते हैं
गलत duplication के दुष्प्रभाव
- कुछ combinations में model ने असामान्य भाषा दोहराव और भ्रमपूर्ण output दिखाया
- इसे किसी खास circuit को जरूरत से ज्यादा बढ़ा देने का परिणाम माना गया, और 'artificial brain damage' से तुलना की गई
- उदाहरण के तौर पर, सामाजिक उपयुक्तता वाला circuit बिगड़ने पर असामान्य संवाद पैटर्न दिखे
आगे के शोध और derived models
- RYS-XLarge के आधार पर कई शोधकर्ताओं ने fine-tuning और ORPO training भी की
- 2026 की शुरुआत तक leaderboard के शीर्ष 4 models सभी RYS structure आधारित 78B models थे
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys आदि
Structural scaling और उसका अर्थ
- layer duplication fine-tuning से स्वतंत्र है और उसके साथ समानांतर भी चल सकती है
- यह model क्या जानता है, उससे ज्यादा वह कैसे सोचता है उसे बदलने का तरीका है
- बड़े models में functional regions ज्यादा विभाजित होते हैं, इसलिए circuit-level duplication ज्यादा असरदार हो सकती है
- छोटे models में encoding, reasoning और decoding एक-दूसरे में उलझे रहते हैं, इसलिए वही प्रभाव सीमित हो सकता है
आगे की योजना
- यही तकनीक Qwen, MiniMax, GLM जैसे नए models पर लागू की जा रही है
- हर model में अलग 'neuroanatomical structure' होने की पुष्टि हुई
- आगे code public करने और RYS series के और releases की योजना है
- लेखक ने इसे इस तरह व्यक्त किया: “अब हम चूहे के दिमाग की जगह कृत्रिम मस्तिष्क का विच्छेदन कर रहे हैं।”
निष्कर्ष
- weights बदले बिना केवल layer duplication से LLM performance बेहतर करने का प्रयोग
- इससे Transformer के भीतर functional circuits और structural differentiation की मौजूदगी का प्रत्यक्ष संकेत मिला
- यह mechanistic interpretability और efficient architecture scaling के लिए नई दिशा प्रस्तुत करता है
1 टिप्पणियां
Hacker News टिप्पणियाँ
points के मुकाबले comments की संख्या का इतना असंतुलित होना हैरान करने वाला है
लेख की सामग्री सच में बहुत समृद्ध थी, और तकनीकी बातों को आम लोगों के लिए भी समझने लायक ढंग से समझाया गया था, यह प्रभावशाली लगा
खासकर “Goliath का काम कर जाना अपने-आप में ही चौंकाने वाला है” वाला हिस्सा मुझे सबसे अहम लगा। समझ नहीं आता कि और ज़्यादा शोधकर्ताओं ने इस पर ध्यान क्यों नहीं दिया
और यह भी दिलचस्प लगा कि लेखक biotechnology में brain research करते-करते कैसे GPU basement(?) में AI तक पहुँच गया
जैसे CNN की शुरुआती layer kernels Gabor filters पर converge करती हैं, वैसे ही LLM की आंतरिक layers भी energy efficiency, information compression, entropy optimization जैसी सार्वभौमिक गणितीय अनुकूलनों की ओर converge करती होंगी
discovery process को इतनी detail में दिखाना बहुत अच्छा लगा। result से भी ज़्यादा वह process दिलचस्प है
खासकर abstract reasoning को stack करके performance बढ़ाने और heatmap से probability distribution को visualize करने वाला हिस्सा प्रभावशाली था
संबंधित papers भी धीरे-धीरे इसकी दिशा में पहुँच रहे हैं
लेकिन SOLAR जैसे models आख़िरकार सीमा पर पहुँचेंगे, ऐसा लगता है। heatmap देखने पर transformer stack शुरुआत में random weights से शुरू होता है और training के दौरान धीरे-धीरे ‘organs’ जैसी specialized structure में बदलता है
‘token-to-thought’ और ‘thought-to-token’ जैसे organs की केवल एक-एक copy होनी चाहिए। आख़िर में specialized structure ही हमेशा जीतेगी, ऐसा मेरा मानना है
“Goliath का काम करना ही चौंकाने वाला है” इस बात से मैं सहमत हूँ
पहले भी कई models को मिलाने वाले experiments हुए थे, लेकिन उनमें से ज़्यादातर Reddit या Discord के community experiments स्तर के थे। academia या company researchers ने उन पर ज़्यादा ध्यान नहीं दिया
फिर भी यह जानने की जिज्ञासा है कि Llama और Qwen जैसे बिल्कुल अलग models की layers मिलाने पर भी क्या यह काम करेगा
और यह भी दिलचस्प है कि LLM arithmetic problems में आख़िरी digit छोड़ देता है या order उलट देता है जैसी अजीब गलतियाँ क्यों करता है। grammar parsing को force करने से क्या सुधार होगा, यह आज़माना चाहूँगा
यह विचार दिलचस्प है कि LLM के भीतर कोई cognitive lingua franca छिपी हो सकती है
इसका उपयोग करके शायद plug-in knowledge bank बनाया जा सके।
अगर सिर्फ़ ज़रूरत का knowledge जोड़कर slim model बनाया जाए, तो पूरे retraining के बिना भी उसे up-to-date रखा जा सकता है
लेखक ने जिस latent space reasoning की बात की, वह सचमुच प्रभावशाली थी
सिर्फ़ layers को duplicate करने से training का backpropagation हो जाना चौंकाने वाला है।
यह भी जिज्ञासा है कि duplicated layers को बार-बार loop करने पर performance कैसे बदलेगी। MoE models से तुलना करें तो शायद पता चल सके कि क्या हर layer एक independent expert की तरह काम करती है
लेकिन कई sections में layers को multiple copies में duplicate करके, और XGBoost-based metamodel से merge की भविष्यवाणी करने वाला experiment दिलचस्प था। यह MoE के साथ भी अच्छी तरह काम करता है
हाँ, मेरी पत्नी को यह समय की बर्बादी(?) ज़्यादा पसंद नहीं है
LLM के अंदर ‘brain surgery’ की अवधारणा आकर्षक है। जब llama.cpp ने vision models को support करना शुरू किया था, तब मैंने projector से बने embeddings के कुछ हिस्सों को 0 कर दिया और LLM से image describe करने को कहा
तब उसने ऐसी लोगों या backgrounds गढ़ दिए जो असल में वहाँ थे ही नहीं — नतीजे चौंकाने वाले थे।
कभी vector dimensions और meaning के बीच संबंध पर व्यवस्थित experiment करना चाहूँगा
मेरे पास भी middle layers के उपयोग को लेकर कुछ ऐसा ही intuition था।
यह YouTube वीडियो देखकर मैंने अपने विचार व्यवस्थित किए, और इस निष्कर्ष पर पहुँचा कि layer को बार-बार loop करने पर उनका fixed order होना ज़रूरी नहीं रह जाता
अगर repetition के दौरान कुछ layers की ज़रूरत न हो तो उन्हें skip किया जा सके, और सिर्फ़ ज़रूरी layers को ही दोहराया जाए, तो आख़िरकार बात single-layer MOE model तक पहुँच सकती है।
‘कितनी गहराई से सोचना है’ को नियंत्रित करने वाले reasoning intensity knob जैसी अवधारणा भी संभव है
फिर भी transformer block call order को randomize करके performance change पर experiment करना दिलचस्प होगा
लेख पढ़ते हुए ज्ञान की ज्यामितीय संरचना वाली बात से सहमति महसूस हुई।
अलग-अलग क्षेत्रों में आने-जाने वाली generalist सोच शायद ऐसी neural structure को दर्शाती है।
इसकी वजह से मेरा दिन अच्छा बन गया
लगभग 7 layer blocks का ही काम करना, और उससे अधिक या कम पर काम न करना, यह दिलचस्प है
यह संकेत देता है कि transformer के भीतर ऐसी functional units (‘organs’) मौजूद हैं जिन्हें हम अभी तक नहीं समझ पाए हैं
जिज्ञासा है कि Qwen के अलावा Llama या Mistral जैसी दूसरी architectures में भी यही ‘7-layer magic’ दिखाई देता है या नहीं
इस idea को देखकर दो सवाल मन में आते हैं
अगर model आंतरिक layer modifications के प्रति इतना tolerant है, तो हर token पर हर layer चलाना ज़रूरी नहीं होगा
अगर problem difficulty के हिसाब से repetition count adjust करने वाला model बनाया जाए, तो आसान समस्याएँ जल्दी और कठिन समस्याएँ अधिक गहराई से reason कर सकेंगी
training के दौरान उसे अपनी confidence predict करना भी सिखाया जा सकता है, ताकि वह तय करे कि अतिरिक्त computation की ज़रूरत है या नहीं