LLM आर्किटेक्चर के हालिया रुझान: KV sharing, mHC, और compressed attention
(magazine.sebastianraschka.com)- हाल ही में जारी किए गए open-weight LLM अब लंबे context की efficiency पर ज़ोर दे रहे हैं, इसलिए KV cache आकार, memory traffic और attention cost को घटाने वाले architectural tricks तेज़ी से बढ़ रहे हैं
- Gemma 4, cross-layer attention और per-layer embeddings (PLE) के जरिए KV cache और parameter efficiency दोनों को बेहतर बनाता है
- Laguna XS.2, layer-wise attention budgeting लाता है, जिसमें हर layer को query head की अलग संख्या दी जाती है
- ZAYA1-8B, Compressed Convolutional Attention (CCA) के जरिए compressed latent space में सीधे attention चलाता है, जिससे सिर्फ KV cache ही नहीं बल्कि attention FLOPs भी कम होते हैं
- DeepSeek V4, mHC (Manifold-Constrained Hyper-Connections) के जरिए residual path को विस्तृत करता है, और CSA/HCA से sequence length को compress करके 1M token context में V3.2 की तुलना में FLOPs और KV cache को बहुत घटाता है
अवलोकन: लंबे context की efficiency पर केंद्रित नवीनतम आर्किटेक्चर
- जैसे-जैसे reasoning मॉडल और agent workflow अधिक token को अधिक समय तक बनाए रखते हैं, KV cache आकार, memory traffic और attention cost प्रमुख bottleneck बनकर उभरे हैं
- अप्रैल से मई के बीच जारी प्रमुख open-weight मॉडल में सामने आए नए design points
- Gemma 4: KV sharing और per-layer embeddings
- Laguna XS.2: layer-wise attention budgeting
- ZAYA1-8B: compressed convolutional attention
- DeepSeek V4: mHC + compressed attention
- यह लेख data mix, training schedule, post-training, RL recipe या benchmark पर नहीं, बल्कि transformer block, residual stream, KV cache और attention computation के अंदरूनी बदलावों पर केंद्रित है
1. Gemma 4: cross-layer KV sharing से cache में कमी
- Google द्वारा अप्रैल की शुरुआत में जारी Gemma 4 परिवार तीन categories में आता है
- Gemma 4 E2B/E4B: mobile और embedded devices (IoT) के लिए छोटे मॉडल
- Gemma 4 26B MoE: efficient local inference के लिए optimized MoE मॉडल
- Gemma 4 31B dense: सर्वोच्च quality और post-training सुविधा के लिए dense मॉडल
-
KV sharing (cross-layer attention) की शुरुआत
- बाद की layers अपनी K/V projection स्वयं calculate नहीं करतीं, बल्कि उसी attention type की सबसे नज़दीकी पिछली non-shared layer के KV tensor को reuse करती हैं
- sliding window layer, पिछली sliding window layer के साथ KV share करती है, और full-attention layer पिछली full-attention layer के साथ share करती है
- query projection हर layer खुद calculate करती है, इसलिए layer-specific attention pattern बने रहते हैं
- Gemma 4 E2B में 35 transformer layers में से सिर्फ पहली 15 layers अपना KV calculate करती हैं, आखिरी 20 layers reuse करती हैं
- Gemma 4 E4B में 42 layers में से 24 layers ही अपना KV calculate करती हैं, आखिरी 18 reuse करती हैं
-
बचत का असर
- लगभग आधे KV share होने से KV cache आकार लगभग आधा हो जाता है
- 128K लंबे context (bfloat16) पर E2B में 2.7 GB, और E4B में लगभग 6 GB की बचत होती है
-
सीमाएँ
- KV sharing एक तरह का approximation है, इसलिए model capacity घटती है
- cross-layer attention पेपर के अनुसार (परीक्षित छोटे मॉडल में) इसका असर न्यूनतम स्तर का था
- यह अवधारणा Brandon et al. के "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024) पर आधारित है, और Gemma 4 इसे व्यापक रूप से पहचाने गए architecture में पहली बार लागू करने का उदाहरण है
2. Gemma 4 E2B/E4B के Per-Layer Embeddings (PLE) और "Effective" size
- PLE, KV sharing से अलग efficiency design है, और इसका फोकस parameter efficiency पर है
-
"E" का मतलब effective
- Gemma 4 E2B: 2.3B effective parameters, embeddings सहित 5.1B
- Gemma 4 E4B: 4.5B effective parameters, embeddings सहित 8B
- main transformer stack की computation छोटी संख्या के अधिक करीब है, जबकि बड़ी संख्या में अतिरिक्त embedding table layers शामिल हैं
-
PLE संरचना
- PLE vector, दोहराए जाने वाले transformer block के बाहर तैयार किए जाते हैं
- token ID, per-layer embedding lookup से गुजरता है, और सामान्य token embedding उसी PLE space में linearly project की जाती है
- दोनों परिणामों को जोड़कर scaling और reshape किया जाता है, जिससे हर layer के लिए एक slice वाला tensor बनता है
- हर layer
lको सिर्फ उसका अपना slice (ple_l) मिलता है
-
transformer block के अंदर काम करने का तरीका
- attention और feedforward residual update सामान्य तरीके से चलते हैं
- दूसरे residual add के बाद hidden state
z, layer-specific PLE vector को gate करता है - gated PLE vector को model hidden size में फिर से project और normalize करके एक अतिरिक्त residual update के रूप में जोड़ा जाता है
-
PLE का उद्देश्य
- महंगे transformer blocks को छोटे "effective" size के करीब बनाए रखना
- अतिरिक्त capacity को per-layer embedding table में स्टोर करना, जो lookup-based होने के कारण attention या FFN weights बढ़ाने की तुलना में बहुत सस्ता है
- dense मॉडल को बस छोटा कर देने वाले विकल्प के विपरीत, यह मुख्य computation भाग की capacity की कुर्बानी नहीं देता
- सिद्धांततः PLE सिर्फ छोटे मॉडल तक सीमित नहीं है, लेकिन बड़े मॉडल में capacity पहले से पर्याप्त होती है और MoE के जरिए उसे बढ़ाया भी जा सकता है
3. Laguna XS.2: Layer-Wise Attention Budgeting
- Laguna, coding applications के लिए LLM पर फोकस करने वाली यूरोप-आधारित कंपनी Poolside का पहला open-weight मॉडल है
-
बेसिक संरचना
- कुल 40 layers, जिनमें 30 sliding window attention और 10 global/full attention layers हैं
- sliding window layer का window size: 512 tokens
- sliding window + global का मिश्रित पैटर्न Gemma 4 जैसे अन्य architectures में भी इस्तेमाल होता है
-
नई बात: layer के हिसाब से query heads की अलग संख्या
- Hugging Face
config.jsonमेंnum_attention_heads_per_layersetting के जरिए हर layer के लिए अलग query head संख्या दी जा सकती है, जबकि KV cache shape compatible रहती है - sliding window layers: प्रति KV head 8 query heads
- full attention layers: प्रति KV head 6 query heads
- KV heads को 8 पर fixed रखा गया है
- Hugging Face
-
design का उद्देश्य
- हर layer को एक जैसा attention budget देने के बजाय, attention capacity को वहीं केंद्रित करना जहाँ वह ज़्यादा उपयोगी हो
- full-attention layers पूरे context को देखती हैं, इसलिए वे महंगी हैं और उन्हें कम query heads दिए गए हैं
- layer-wise capacity differentiation का विचार कम-से-कम Apple के 2024 के OpenELM तक जाता है, और Laguna XS.2 production-grade open model में इसका सबसे उल्लेखनीय हालिया उदाहरण है
- अतिरिक्त रूप से Laguna में per-head attention-output gating भी है (Qwen3-Next आदि की तरह)
4. ZAYA1-8B: Compressed Convolutional Attention (CCA)
- यह Zyphra द्वारा विकसित open-weight मॉडल है, जिसकी खास बात यह है कि इसे NVIDIA GPU या Google TPU के बजाय AMD GPU पर train किया गया
-
संरचना
config.jsonमें 80 alternating layer entries हैं, जहाँ CCA/GQA attention और MoE feedforward बारी-बारी से आते हैं (दृश्य रूप से इसे 40 attention+MoE pairs की तरह दिखाया जा सकता है)- 4:1 GQA layout के साथ CCA का उपयोग
- MoE बहुत sparse setting में है, जहाँ प्रति token सिर्फ 1 routing expert सक्रिय होता है
-
CCA का सार
- MLA की तरह attention block में compressed latent representation लाया जाता है
- फर्क यह है कि MLA latent representation का उपयोग मुख्यतः KV cache घटाने के लिए करता है, और वास्तविक attention के लिए उसे attention head space में फिर से project करता है
- CCA, Q, K और V तीनों को compress करने के बाद compressed latent space में सीधे attention computation करता है, और परिणामस्वरूप attention vector को फिर up-project करता है
- नतीजतन, सिर्फ KV cache ही नहीं बल्कि prefill और training के दौरान attention FLOPs भी कम होते हैं
-
Convolutional Mixing
- "Convolutional" नाम इसलिए है क्योंकि compressed K और Q representation पर अतिरिक्त convolutional mixing लगाया जाता है
- compression से Q, K, V पतले हो जाते हैं, जिससे computation और cache कम होते हैं, लेकिन इससे attention की expressive power घट सकती है
- convolution, compressed Q और K में स्थानीय context को कम लागत पर जोड़ने का तरीका है
- यह V पर लागू नहीं किया जाता — क्योंकि Q और K attention score तय करते हैं, जबकि V वह content है जिसका इन scores के आधार पर average लिया जाता है
- sequence mixing के अलावा channel mixing component भी मौजूद है
-
प्रदर्शन
- CCA को ZAYA1-8B technical report से पहले एक अलग पेपर "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (अक्टूबर 2025) में पेश किया गया था
- CCA पेपर के प्रयोगों के अनुसार, एक ही compression setting में MLA से बेहतर परिणाम मिले
5. DeepSeek V4: CSA/HCA, mHC, और compressed attention cache
-
DeepSeek V4 इस साल का सबसे चर्चित और सबसे बड़े model scale वाला release है, और DeepSeek V4-Pro active parameter अनुपात के हिसाब से सबसे sparse MoE है
-
यह लेख पिछले architecture की तुलना में दो नए मुख्य बिंदुओं पर केंद्रित है
- mHC: अधिक चौड़ा residual path
- CSA/HCA: लंबे context के लिए attention compression और sparsification
-
5.1 Manifold-Constrained Hyper-Connections (mHC)
- 31 दिसंबर 2025 के DeepSeek team के पेपर "mHC: Manifold-Constrained Hyper-Connections" पर आधारित; उस समय यह सिर्फ 27B scale पर परीक्षण में था, लेकिन इस बार flagship में इसे पूरी तरह लागू किया गया
- उद्देश्य है transformer block के भीतर residual connection design को modernize करना — यानी attention/normalization/MoE-केंद्रित बदलावों से अलग दिशा
-
Hyper-Connections (HC) की पृष्ठभूमि
- Zhu et al. (2024) के "Hyper-connections" पर आधारित
- single residual stream को कई parallel residual streams और learned mappings से बदलता है
- attention और MoE layers को सामान्य hidden size पर काम कराने के लिए Pre Mapping (parallel streams → एक hidden vector) और Post Mapping (layer output → parallel streams में वितरण) जोड़े जाते हैं
- इससे residual path अधिक expressive बनता है, जबकि attention और MoE खुद चौड़े नहीं होते
- 7B OLMo MoE प्रयोग में token per FLOPs 13.36G → 13.38G रहे, यानी लगभग कोई बदलाव नहीं, जबकि baseline performance तक पहुँचने के लिए लगभग आधे training tokens लगे
-
HC → mHC में बदलाव
- सामान्य HC में Res Mapping एक learnable matrix होती है, जिससे कई layers पार करते समय signal amplification या shrinkage अनिश्चित हो सकता है
- mHC residual mapping को doubly stochastic matrices manifold पर project करता है — यानी सभी entries non-negative होती हैं, और हर row व column का sum 1 होता है
- इससे residual mixing, streams के बीच स्थिर information redistribution की तरह काम करती है
- Pre Mapping और Post Mapping को भी non-negative और bounded रखा जाता है, ताकि widened residual state को read/write करते समय cancellation न हो
- इससे scaling stability मिलती है, जो गहरे मॉडल में और महत्वपूर्ण हो जाती है
-
लागत
- 27B मॉडल प्रयोग में DeepSeek team की optimized implementation (fusion, recomputation, pipeline scheduling) के साथ n=4 residual streams उपयोग करने पर training time overhead 6.7% था
-
5.2 CSA और HCA के जरिए compressed attention
- बहुत लंबे context में attention score computation के अलावा KV cache का sequence length के अनुपात में बढ़ना भी एक बड़ी समस्या है
- DeepSeek V4 दो compressed attention तरीकों का hybrid उपयोग करता है: Compressed Sparse Attention (CSA) और Heavily Compressed Attention (HCA)
-
MLA से अंतर
- DeepSeek V2/V3 का MLA प्रति token KV representation को compress करता है, लेकिन token प्रति एक latent KV entry बनाए रखता है
- CSA/HCA, sequence dimension के साथ compression करते हैं, यानी कई token groups को कम compressed KV entries में summarize किया जाता है — इससे cache खुद छोटी हो जाती है
- token-level जानकारी का कुछ हिस्सा छोड़ने की कीमत पर लंबे context की लागत में भारी कमी मिलती है
-
CSA बनाम HCA
- CSA: हल्का compression ratio (m=4) + DeepSeek Sparse Attention (DSA) शैली का top-k selection
- HCA: बहुत मजबूत compression (m'=128, यानी 128 tokens को 1 compressed KV entry में) + छोटी हुई cache पर dense attention
- दोनों तरीके हाल के uncompressed tokens के लिए 128-token sliding window branch बनाए रखते हैं
- CSA अधिक detail बचाता है लेकिन sparse selection करता है, जबकि HCA entries को बहुत कम करके dense attention संभव बनाता है — इसलिए ये एक-दूसरे के पूरक हैं, और DeepSeek V4 में दोनों layers को बारी-बारी से रखा गया है
-
efficiency के परिणाम (1M token context, DeepSeek V3.2 की तुलना में)
- DeepSeek V4-Pro: single-token inference FLOPs 27%, KV cache size 10%
- DeepSeek V4-Flash: FLOPs 10%, KV cache size 7%
-
मूल्यांकन में सावधानी
- यह साफ़-साफ़ नहीं कहा जा सकता कि CSA/HCA सामान्य रूप से MLA से "बेहतर" हैं; ये लंबे context के लिए अधिक aggressive और अधिक complex design हैं
- पेपर में ablation study नहीं है
- DeepSeek V4-Flash-Base ने कई base benchmarks में V3.2-Base को पीछे छोड़ा और 1M token retrieval में मजबूत परिणाम दिखाए, लेकिन यह पूरी recipe का परिणाम है, जिसमें बेहतर data, Muon-based optimization, mHC, precision/storage optimization, और training/inference system changes शामिल हैं
6. निष्कर्ष
- इस साल के नए open-weight मॉडल्स में एक साझा पैटर्न यह है कि कुल parameter count घटाए बिना लंबे context inference की लागत कम की जाए
- Gemma 4: cross-layer KV sharing से KV cache में कमी, per-layer embeddings से अतिरिक्त capacity
- Laguna XS.2: layer के हिसाब से attention capacity का अंतर
- ZAYA1-8B: attention को compressed latent space में शिफ्ट करना
- DeepSeek V4: constrained residual stream mixing + compressed long-context attention
- transformer block अभी भी बदल रहा है, लेकिन बदलाव स्पष्ट लक्ष्य वाले संशोधनों के रूप में हैं, जबकि मूल ढाँचा GPT decoder-only architecture ही बना हुआ है
- गुणात्मक modeling performance को मुख्यतः data की quality, data की मात्रा, और training recipe आगे बढ़ाते हैं
- अभी तक transformer ही SOTA architecture का status quo बना हुआ है, भले ही diffusion models जैसे विकल्प मौजूद हों
- मूल transformer block को PyTorch की 50~100 lines में implement किया जा सकता था, लेकिन हाल की attention variants आदि के कारण code complexity लगभग 10 गुना बढ़ गई है
- complexity बढ़ना अपने-आप में पूरी तरह नकारात्मक नहीं है, क्योंकि इससे runtime cost घटती है, लेकिन individual components और उनके interaction की स्पष्ट समझ पाना लगातार कठिन होता जा रहा है
- सीखने के लिए सुझाया गया तरीका: मूल decoder-style LLM (GPT/GPT-2) से शुरू करें और नए components को एक-एक करके जोड़ते हुए समझें
अभी कोई टिप्पणी नहीं है.