1 पॉइंट द्वारा GN⁺ 2026-03-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • विशाल 72B parameter LLM की बीच की 7 layers को कॉपी करके दोबारा संयोजित किया गया, और बिना किसी training के leaderboard में पहला स्थान हासिल किया गया
  • प्रयोग दो RTX 4090 पर किया गया, और model के weights बदले बिना केवल middle layers को बार-बार चलाने वाली संरचना बदली गई
  • गणितीय reasoning और भावनात्मक reasoning (EQ) जैसे दो छोटे proxy tasks के जरिए सबसे उपयुक्त layer range खोजी गई
  • नतीजे में Qwen2-72B आधारित RYS-XLarge model ने औसतन +2.61% सुधार दिखाया; खासकर MuSR +17.72% और MATH +8.16% बेहतर रहे
  • यह तरीका LLM के भीतर 'functional circuits' की संभावित मौजूदगी दिखाता है और बड़े models की 'neuroanatomical structure' पर शोध की दिशा खोलता है

Open LLM Leaderboard और प्रयोग की पृष्ठभूमि

  • 2024 के मध्य में HuggingFace का Open LLM Leaderboard public-weight models की प्रतिस्पर्धा का प्रमुख मंच था
    • मूल्यांकन आइटम: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
  • लेखक ने नया model train या fine-tune किए बिना, मौजूदा model की कुछ middle layers को कॉपी करने के तरीके से प्रयोग किया
  • अनुमान यह था कि कॉपी की गई layers model की 'thinking' प्रक्रिया का हिस्सा हैं

संकेत 1 – Base64 conversation experiment

  • यह देखा गया कि LLM Base64 में encode किए गए प्रश्न को समझकर सही उत्तर भी Base64 में लौटाता है
  • इस आधार पर यह परिकल्पना दी गई कि input format बदलने पर भी model reasoning कर लेता है, यानी शुरुआती layers input interpretation (translation) और अंतिम layers output transformation (re-translation) का काम करती हैं
  • इसके अनुसार middle layers abstract thinking करने वाला क्षेत्र हो सकती हैं

संकेत 2 – Goliath-120B model की असामान्य संरचना

  • HuggingFace का Goliath-120B दो Llama-2 70B models को interleave करके बनाया गया था, जिसमें बाद की layers का output फिर शुरुआती layers के input में feedback किया जाता है
  • सामान्य training distribution से बाहर होने के बावजूद model के काम करने की पुष्टि हुई
  • इससे संकेत मिला कि layers के बीच representations परस्पर compatible हो सकते हैं, और Transformer की internal representation अपेक्षाकृत homogeneous हो सकती है

'Brain scanner' बनाना

  • Qwen2-72B model में सभी (i, j) layer-range combinations (कुल 3,241) को test करने वाली pipeline बनाई गई
  • हर combination में किसी खास layer range को दो बार pass कराकर model को फिर से संरचित किया गया
  • मूल्यांकन के लिए तीन शर्तें रखी गईं
    • न्यूनतम output (speed के लिए)
    • objective scoring की क्षमता
    • cognitive independence (अगर दोनों tasks साथ बेहतर हों, तो उसे structural improvement माना जाए)

Proxy task design

  • Hard Math Probe: जटिल arithmetic समस्याओं के सही उत्तर का प्रत्यक्ष अनुमान
  • EQ-Bench Probe: सामाजिक परिस्थितियों में भावनात्मक तीव्रता को 0~100 के बीच predict करना
  • दोनों tasks छोटे outputs और स्पष्ट सही उत्तर देते हैं, इसलिए structural बदलाव मापने के लिए उपयुक्त हैं

Math scoring function और partial-credit evaluation

  • LLM की numeric errors (जैसे digit omission, transposition) को ध्यान में रखकर partial-match scoring function बनाया गया
  • छोटे उत्तरों को padding देकर और relative error की गणना कर accuracy को continuous score में बदला गया
  • इससे performance के सूक्ष्म अंतर को मात्रात्मक रूप से अलग किया जा सका

RYS-XLarge model की संरचना

  • सबसे अच्छा combination (45, 52) निकला, यानी 45~51 layers को एक बार और दोहराया गया
  • नतीजतन 7 middle layers की duplication हुई और कुल parameters 72B → 78B हो गए
  • weights बदले बिना केवल structure बदली गई, और अतिरिक्त VRAM के बिना pointer duplication से इसे लागू किया गया

Leaderboard पर प्रदर्शन

आइटम स्कोर बेसलाइन की तुलना में सुधार
औसत 44.75 +2.61%
MATH Lvl 5 38.97 +8.16%
MuSR 23.72 +17.72%
BBH +2.51%
GPQA +2.58%
IFEval -2.05%
  • 5 आइटम में सुधार हुआ, और औसत स्कोर के आधार पर leaderboard में पहला स्थान मिला
  • क्योंकि development के दौरान leaderboard के आइटम इस्तेमाल नहीं किए गए, इसे शुद्ध structural generalization effect माना गया

Transformer के 'functional circuits' की खोज

  • किसी एक layer को दोहराने से असर नहीं हुआ, लेकिन लगातार जुड़े block को दोहराने पर ही performance बेहतर हुई
  • इसका मतलब है कि middle layers अलग-अलग repeat होने वाले operations नहीं, बल्कि multi-stage computational circuit की तरह काम करती हैं
  • उदाहरण: 46~52 layers किसी 'recipe' की तरह चरण-दर-चरण reasoning करती हैं
    • पूरे block को दोहराने से reasoning एक बार और चलने जैसा प्रभाव होता है

Heatmap analysis और 'LLM Neuroanatomy'

  • हर (i, j) combination की performance को visualise करने वाला heatmap fMRI जैसे pattern दिखाता है
  • math task में middle-layer repetition से सुधार दिखा, जबकि EQ task में दूसरे क्षेत्र बेहतर रहे
  • यह संकेत देता है कि Transformer के भीतर task-specific functional circuits मौजूद हो सकते हैं

गलत duplication के दुष्प्रभाव

  • कुछ combinations में model ने असामान्य भाषा दोहराव और भ्रमपूर्ण output दिखाया
  • इसे किसी खास circuit को जरूरत से ज्यादा बढ़ा देने का परिणाम माना गया, और 'artificial brain damage' से तुलना की गई
  • उदाहरण के तौर पर, सामाजिक उपयुक्तता वाला circuit बिगड़ने पर असामान्य संवाद पैटर्न दिखे

आगे के शोध और derived models

  • RYS-XLarge के आधार पर कई शोधकर्ताओं ने fine-tuning और ORPO training भी की
  • 2026 की शुरुआत तक leaderboard के शीर्ष 4 models सभी RYS structure आधारित 78B models थे
    • calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys आदि

Structural scaling और उसका अर्थ

  • layer duplication fine-tuning से स्वतंत्र है और उसके साथ समानांतर भी चल सकती है
  • यह model क्या जानता है, उससे ज्यादा वह कैसे सोचता है उसे बदलने का तरीका है
  • बड़े models में functional regions ज्यादा विभाजित होते हैं, इसलिए circuit-level duplication ज्यादा असरदार हो सकती है
  • छोटे models में encoding, reasoning और decoding एक-दूसरे में उलझे रहते हैं, इसलिए वही प्रभाव सीमित हो सकता है

आगे की योजना

  • यही तकनीक Qwen, MiniMax, GLM जैसे नए models पर लागू की जा रही है
  • हर model में अलग 'neuroanatomical structure' होने की पुष्टि हुई
  • आगे code public करने और RYS series के और releases की योजना है
  • लेखक ने इसे इस तरह व्यक्त किया: “अब हम चूहे के दिमाग की जगह कृत्रिम मस्तिष्क का विच्छेदन कर रहे हैं।”

निष्कर्ष

  • weights बदले बिना केवल layer duplication से LLM performance बेहतर करने का प्रयोग
  • इससे Transformer के भीतर functional circuits और structural differentiation की मौजूदगी का प्रत्यक्ष संकेत मिला
  • यह mechanistic interpretability और efficient architecture scaling के लिए नई दिशा प्रस्तुत करता है

1 टिप्पणियां

 
GN⁺ 2026-03-11
Hacker News टिप्पणियाँ
  • points के मुकाबले comments की संख्या का इतना असंतुलित होना हैरान करने वाला है
    लेख की सामग्री सच में बहुत समृद्ध थी, और तकनीकी बातों को आम लोगों के लिए भी समझने लायक ढंग से समझाया गया था, यह प्रभावशाली लगा
    खासकर “Goliath का काम कर जाना अपने-आप में ही चौंकाने वाला है” वाला हिस्सा मुझे सबसे अहम लगा। समझ नहीं आता कि और ज़्यादा शोधकर्ताओं ने इस पर ध्यान क्यों नहीं दिया
    और यह भी दिलचस्प लगा कि लेखक biotechnology में brain research करते-करते कैसे GPU basement(?) में AI तक पहुँच गया

    • पहले के optogenetics और CRISPR/Cas9 projects भी ब्लॉग पर डालने की योजना है
      1. दूसरे papers (जैसे Solar10.7B) ने भी ऐसे ही प्रयास किए थे, लेकिन पूरे transformer stack को copy करना अच्छा विचार नहीं है, यह experimentally दिखा। यह मानो ‘organs’ को बार-बार duplicate करने जैसा है, इसलिए efficiency गिरती है
      2. biology research मज़ेदार थी, लेकिन paper review और grant application मेरे स्वभाव के अनुकूल नहीं थे। इसलिए independent researcher के रूप में ब्लॉग शुरू किया। उम्मीद है कि कभी कोई इसे cite करेगा
    • बिल्ली के brain को कुत्ते के सिर में डालने वाली उपमा मज़ेदार थी। असल में मुझे यह इतना चौंकाने वाला नहीं लगता
      जैसे CNN की शुरुआती layer kernels Gabor filters पर converge करती हैं, वैसे ही LLM की आंतरिक layers भी energy efficiency, information compression, entropy optimization जैसी सार्वभौमिक गणितीय अनुकूलनों की ओर converge करती होंगी
  • discovery process को इतनी detail में दिखाना बहुत अच्छा लगा। result से भी ज़्यादा वह process दिलचस्प है
    खासकर abstract reasoning को stack करके performance बढ़ाने और heatmap से probability distribution को visualize करने वाला हिस्सा प्रभावशाली था
    संबंधित papers भी धीरे-धीरे इसकी दिशा में पहुँच रहे हैं

    • SOLAR / DUS (Kim et al., 2023): transformer layers को duplicate करके 10.7B model बनाया गया, और उसने 30B model से बेहतर performance दी
    • The Curse of Depth (2025): यह बताता है कि Pre-LN structure गहरी layers को identity function की ओर converge कर देता है, जिससे बीच की layers वास्तविक computation संभालती हैं
    • Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): एक single recurrent block को बार-बार इस्तेमाल करके reasoning depth बढ़ाने का तरीका प्रस्तुत करता है
    • तारीफ़ के लिए धन्यवाद!
      लेकिन SOLAR जैसे models आख़िरकार सीमा पर पहुँचेंगे, ऐसा लगता है। heatmap देखने पर transformer stack शुरुआत में random weights से शुरू होता है और training के दौरान धीरे-धीरे ‘organs’ जैसी specialized structure में बदलता है
      ‘token-to-thought’ और ‘thought-to-token’ जैसे organs की केवल एक-एक copy होनी चाहिए। आख़िर में specialized structure ही हमेशा जीतेगी, ऐसा मेरा मानना है
  • “Goliath का काम करना ही चौंकाने वाला है” इस बात से मैं सहमत हूँ
    पहले भी कई models को मिलाने वाले experiments हुए थे, लेकिन उनमें से ज़्यादातर Reddit या Discord के community experiments स्तर के थे। academia या company researchers ने उन पर ज़्यादा ध्यान नहीं दिया
    फिर भी यह जानने की जिज्ञासा है कि Llama और Qwen जैसे बिल्कुल अलग models की layers मिलाने पर भी क्या यह काम करेगा
    और यह भी दिलचस्प है कि LLM arithmetic problems में आख़िरी digit छोड़ देता है या order उलट देता है जैसी अजीब गलतियाँ क्यों करता है। grammar parsing को force करने से क्या सुधार होगा, यह आज़माना चाहूँगा

    • अलग-अलग models को मिलाना embedding size या vocabulary differences की वजह से कठिन होगा, ऐसा लगता है। एक ही architecture होने पर भी training data अलग हो तो internal representations बदल सकते हैं। फिर भी experiment करना मज़ेदार होगा
    • ऐसे topics hobby researchers के लिए अच्छे हैं। companies तो मौजूदा models को fine-tune करने पर ज़्यादा ध्यान देती हैं
    • multi-digit numbers में token combinations बहुत ज़्यादा संभव होते हैं, इसलिए वे जटिल हो जाते हैं। ब्लॉग का code partial correct answers से उपयोगी metrics निकालने में मदद करता है
  • यह विचार दिलचस्प है कि LLM के भीतर कोई cognitive lingua franca छिपी हो सकती है
    इसका उपयोग करके शायद plug-in knowledge bank बनाया जा सके।
    अगर सिर्फ़ ज़रूरत का knowledge जोड़कर slim model बनाया जाए, तो पूरे retraining के बिना भी उसे up-to-date रखा जा सकता है

    • “knowledge bank plug in करना” मज़ेदार अभिव्यक्ति है — LLM: “...अब मुझे kung fu आता है”
    • भविष्य के LLM शायद standardized encoding/decoding layers को logical layers में plug करने वाली संरचना बन जाएँ
    • ऐसी संरचना में hallucination भी कम हो सकती है
    • असल में क्या यह वैसा ही नहीं है जैसा LoRA पहले से कर रहा है?
  • लेखक ने जिस latent space reasoning की बात की, वह सचमुच प्रभावशाली थी
    सिर्फ़ layers को duplicate करने से training का backpropagation हो जाना चौंकाने वाला है।
    यह भी जिज्ञासा है कि duplicated layers को बार-बार loop करने पर performance कैसे बदलेगी। MoE models से तुलना करें तो शायद पता चल सके कि क्या हर layer एक independent expert की तरह काम करती है

    • individual layers को duplicate करके देखा, लेकिन कोई बड़ा असर नहीं था। उलटे output→input feedback ज़्यादातर हानिकारक रहा
      लेकिन कई sections में layers को multiple copies में duplicate करके, और XGBoost-based metamodel से merge की भविष्यवाणी करने वाला experiment दिलचस्प था। यह MoE के साथ भी अच्छी तरह काम करता है
      हाँ, मेरी पत्नी को यह समय की बर्बादी(?) ज़्यादा पसंद नहीं है
    • LoopLM भी शायद इसी तरह के idea पर है
  • LLM के अंदर ‘brain surgery’ की अवधारणा आकर्षक है। जब llama.cpp ने vision models को support करना शुरू किया था, तब मैंने projector से बने embeddings के कुछ हिस्सों को 0 कर दिया और LLM से image describe करने को कहा
    तब उसने ऐसी लोगों या backgrounds गढ़ दिए जो असल में वहाँ थे ही नहीं — नतीजे चौंकाने वाले थे।
    कभी vector dimensions और meaning के बीच संबंध पर व्यवस्थित experiment करना चाहूँगा

    • अभी का समय hackers के लिए जीने का अच्छा दौर है
  • मेरे पास भी middle layers के उपयोग को लेकर कुछ ऐसा ही intuition था।
    यह YouTube वीडियो देखकर मैंने अपने विचार व्यवस्थित किए, और इस निष्कर्ष पर पहुँचा कि layer को बार-बार loop करने पर उनका fixed order होना ज़रूरी नहीं रह जाता
    अगर repetition के दौरान कुछ layers की ज़रूरत न हो तो उन्हें skip किया जा सके, और सिर्फ़ ज़रूरी layers को ही दोहराया जाए, तो आख़िरकार बात single-layer MOE model तक पहुँच सकती है।
    ‘कितनी गहराई से सोचना है’ को नियंत्रित करने वाले reasoning intensity knob जैसी अवधारणा भी संभव है

    • दिलचस्प idea है। लेकिन अगर layer order को पूरी तरह random कर दिया जाए, तो combinatorial explosion की समस्या आ सकती है
      फिर भी transformer block call order को randomize करके performance change पर experiment करना दिलचस्प होगा
  • लेख पढ़ते हुए ज्ञान की ज्यामितीय संरचना वाली बात से सहमति महसूस हुई।
    अलग-अलग क्षेत्रों में आने-जाने वाली generalist सोच शायद ऐसी neural structure को दर्शाती है।
    इसकी वजह से मेरा दिन अच्छा बन गया

    • धन्यवाद
  • लगभग 7 layer blocks का ही काम करना, और उससे अधिक या कम पर काम न करना, यह दिलचस्प है
    यह संकेत देता है कि transformer के भीतर ऐसी functional units (‘organs’) मौजूद हैं जिन्हें हम अभी तक नहीं समझ पाए हैं
    जिज्ञासा है कि Qwen के अलावा Llama या Mistral जैसी दूसरी architectures में भी यही ‘7-layer magic’ दिखाई देता है या नहीं

  • इस idea को देखकर दो सवाल मन में आते हैं

    1. क्या model को शुरू से ही ऐसी loop structure के साथ train करना चाहिए?
    2. क्या fixed number of layers का इस्तेमाल करना सही है?
      अगर model आंतरिक layer modifications के प्रति इतना tolerant है, तो हर token पर हर layer चलाना ज़रूरी नहीं होगा
      अगर problem difficulty के हिसाब से repetition count adjust करने वाला model बनाया जाए, तो आसान समस्याएँ जल्दी और कठिन समस्याएँ अधिक गहराई से reason कर सकेंगी
      training के दौरान उसे अपनी confidence predict करना भी सिखाया जा सकता है, ताकि वह तय करे कि अतिरिक्त computation की ज़रूरत है या नहीं