LLM आर्किटेक्चर गैलरी
(sebastianraschka.com)- नवीनतम Large Language Models (LLM) की संरचनात्मक रूपरेखाओं और मुख्य स्पेसिफिकेशन्स को एक नज़र में समेटने वाली एक ऑनलाइन गैलरी, जिसमें 2024~2026 के बीच सार्वजनिक किए गए प्रमुख मॉडल शामिल हैं
- हर मॉडल को parameter scale, decoder type, attention method, और प्रमुख design points का सार देने वाली तालिका के रूप में व्यवस्थित किया गया है
- सामग्री Sebastian Raschka के तुलनात्मक विश्लेषण लेख ‘The Big LLM Architecture Comparison’ और ‘A Dream of Spring for Open-Weight LLMs’ से ली गई है
- उपयोगकर्ता मॉडल नाम पर क्लिक करके उसके विस्तृत विवरण पर जा सकते हैं, या इमेज पर क्लिक करके high-resolution architecture diagram (182 megapixel) को ज़ूम कर सकते हैं
- open-weight LLM शोधकर्ताओं और डेवलपर्स के लिए एक reference architecture database के रूप में, यह नवीनतम MoE·Hybrid·Dense संरचनाओं के विकास को एक ही जगह पर देखने देता है
अवलोकन
- यह पेज LLM architecture diagrams और factsheets को इकट्ठा करने वाली एक गैलरी है, जिसमें Raschka के दो प्रमुख comparative articles से केवल charts निकालकर व्यवस्थित किए गए हैं
- मूल स्रोत: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- हर मॉडल प्रविष्टि में मॉडल नाम, parameter count, release date, decoder type, attention method, मुख्य design features, और संबंधित concepts के links शामिल हैं
- गलत जानकारी या लिंक त्रुटि मिलने पर GitHub issue tracker के माध्यम से रिपोर्ट किया जा सकता है
- अधिक मांग के कारण Zazzle के जरिए 14570×12490 resolution वाला poster (56MB PNG) संस्करण भी उपलब्ध कराया गया है
प्रमुख मॉडल उदाहरण
Llama 3 8B
- 8 अरब parameters वाला Dense decoder आधारित मॉडल, जिसे OLMo 2 की normalization और attention choices की तुलना के लिए baseline stack की तरह इस्तेमाल किया जा सकता है
- GQA + RoPE attention का उपयोग, Pre-norm संरचना बरकरार
- 18 अप्रैल 2024 को सार्वजनिक किया गया
OLMo 2 7B
- 7 अरब parameters वाला Dense model, MHA + QK-Norm attention का उपयोग
- Inside-residual post-norm संरचना के जरिए training stability बेहतर की गई
- 25 नवंबर 2024 को सार्वजनिक किया गया
DeepSeek V3
- कुल 671 अरब parameters में से 37 अरब सक्रिय वाला Sparse MoE मॉडल
- MLA attention और shared expert संरचना का संयोजन
- बड़े open MoE मॉडल उछाल को शुरू करने वाला एक प्रतिनिधि template
DeepSeek R1
- DeepSeek V3 पर आधारित reasoning-specialized version, वही architecture बनाए रखता है
- 20 जनवरी 2025 को सार्वजनिक, MLA-आधारित Sparse MoE संरचना
Gemma 3 27B
- 27 अरब parameters वाला Dense model, GQA + QK-Norm और 5:1 sliding-window/global attention का उपयोग
- multilingual vocabulary expansion और local attention enhancement इसकी खासियत हैं
- 11 मार्च 2025 को सार्वजनिक किया गया
MoE और Hybrid आर्किटेक्चर विस्तार
Llama 4 Maverick
- Meta का Sparse MoE मॉडल, जो DeepSeek V3 संरचना पर आधारित है लेकिन पारंपरिक GQA attention अपनाता है
- कुल 400 अरब parameters में से 17 अरब सक्रिय
- Dense और MoE blocks को बारी-बारी से रखा गया, experts की संख्या घटाकर scale बढ़ाया गया
Qwen3 235B-A22B
- DeepSeek V3 जैसी Sparse MoE संरचना, लेकिन shared expert हटाया गया
- कुल 235 अरब parameters में 22 अरब सक्रिय, GQA + QK-Norm का उपयोग
- 28 अप्रैल 2025 को सार्वजनिक किया गया
Kimi K2
- 1 ट्रिलियन parameters वाला Sparse MoE मॉडल, DeepSeek V3 का विस्तार
- MLA attention का उपयोग, experts की संख्या बढ़ाई गई और MLA heads की संख्या घटाई गई
- 10 जुलाई 2025 को सार्वजनिक किया गया
GLM-4.5 355B
- agent-oriented Sparse MoE मॉडल, DeepSeek की Dense-prefix MoE संरचना अपनाता है
- कुल 355 अरब parameters में 32 अरब सक्रिय, GQA + QK-Norm का उपयोग
- 28 जुलाई 2025 को सार्वजनिक किया गया
GPT-OSS 20B / 120B
- OpenAI की open-weight MoE series, GQA-आधारित sliding-window/global cross attention का उपयोग
- 20B मॉडल उथली लेकिन चौड़ी संरचना वाला, 120B मॉडल उसी design का विस्तारित रूप
- 4 अगस्त 2025 को सार्वजनिक किया गया
Hybrid और अगली पीढ़ी की संरचनाएँ
Qwen3 Next 80B-A3B
- Gated DeltaNet + Gated Attention मिश्रित attention का उपयोग करने वाला Sparse Hybrid मॉडल
- कुल 80 अरब parameters में 3 अरब सक्रिय, 262k context समर्थन
- 9 सितंबर 2025 को सार्वजनिक किया गया
Kimi Linear 48B-A3B
- Linear Attention + MLA संयोजित hybrid संरचना
- NoPE और channel-wise gating के जरिए long-context efficiency बेहतर
- 30 अक्टूबर 2025 को सार्वजनिक किया गया
Nemotron 3 Nano / Super
- NVIDIA का Transformer-State-Space Hybrid मॉडल
- Nano(30B) में Mamba-2 + MoE, Super(120B) में LatentMoE + MTP अतिरिक्त
- क्रमशः 4 दिसंबर 2025 और 11 मार्च 2026 को सार्वजनिक किए गए
Ling 2.5 1T
- 1 ट्रिलियन parameters वाला Sparse Hybrid मॉडल, Lightning Attention + MLA संयोजन
- 63 अरब सक्रिय parameters, 7:1 ratio की linear/MLA attention संरचना
- 15 फ़रवरी 2026 को सार्वजनिक किया गया
नवीनतम open-weight मॉडल
Qwen3.5 397B
- Qwen3 Next की hybrid attention को आगे बढ़ाने वाला प्रमुख मॉडल
- कुल 397 अरब parameters में 17 अरब सक्रिय, 512 experts संरचना
- 16 फ़रवरी 2026 को सार्वजनिक किया गया
Sarvam 30B / 105B
- भारतीय भाषाओं के समर्थन पर केंद्रित Sparse MoE मॉडल
- 30B में GQA + QK-Norm, 105B में MLA + NoPE + RoPE का उपयोग
- 3 मार्च 2026 को सार्वजनिक किया गया
संदर्भ लेख
- The Big LLM Architecture Comparison: Dense, MoE, MLA, Hybrid decoder संरचनाओं के design differences की व्याख्या
- A Dream of Spring for Open-Weight LLMs: 2026 की शुरुआत में सार्वजनिक हुए MiniMax, Qwen, Ling, Sarvam आदि open-weight मॉडलों का अतिरिक्त विश्लेषण
2 टिप्पणियां
मज़ेदार है।
Hacker News की राय
कई वर्षों के प्रयोगों के बाद यह देखना दिलचस्प है कि open weight models आखिरकार काफ़ी हद तक एक जैसे रूप पर आकर ठहर गए हैं
MoE routing, state-space models, linear attention जैसी कई कोशिशें हुईं, लेकिन अब चीज़ें dense decoder-only transformer संरचना पर आकर स्थिर हुई दिखती हैं, जिसमें RMSNorm, rotary position embedding, SwiGLU, grouped-query attention का संयोजन है
अब असली अंतर पैदा करने का केंद्र training recipe और data pipeline की ओर खिसक गया है
DeepSeek-R1 की असली innovation उसकी architecture नहीं बल्कि reasoning chain पर reinforcement learning थी, और Llama 3 में भी architecture लगभग वही है, लेकिन data और post-processing प्रक्रिया पूरी तरह नई है
यह उसी तरह लगता है जैसे chip design में ISA से ज़्यादा process node और microarchitecture महत्वपूर्ण हो गए हों
Sebastian की लिखी चीज़ें हमेशा पढ़ने लायक होती हैं
उनकी किताब Build an LLM From Scratch की ज़ोरदार सिफारिश है। इसी किताब से मुझे पहली बार Transformer mechanism सही तरह से समझ आया
LLM Architecture Gallery को देखें तो models के बीच के अंतर दिलचस्प हैं, लेकिन पिछले 7 वर्षों में GPT-2 के बाद बुनियादी innovation लगभग नहीं हुई है
आज के open weight models भी दूर से देखने पर अब भी GPT-2 जैसी attention + feed-forward layers की दोहराव वाली संरचना ही लगते हैं
हाल की तेज़ प्रगति scaling और नई training techniques (RLVR आदि) की वजह से आई है, और यह Bitter Lesson का एक और उदाहरण लगता है
यह वाकई शानदार visualization है। इसे देखकर पहले का Neural Network Zoo याद आ गया
उस प्रोजेक्ट की तरह, जिसमें अलग-अलग neural network architectures को एक नज़र में देखा जा सकता था, यह भी architectural diversity को बहुत अच्छे से दिखाता है
बेहतरीन काम
सोच रहा हूँ कि क्या कोई sorting criterion भी है। अगर evolution के प्रवाह या innovation की lineage को family tree के रूप में देखा जा सके तो और अच्छा होगा
साथ ही, अगर model size में बदलाव को scale के रूप में visualize किया जाए, तो प्रगति की रफ़्तार को और सहज रूप से समझा जा सकेगा
वाकई बहुत बढ़िया। साझा करने के लिए धन्यवाद
zoom करने योग्य version यहाँ देखा जा सकता है
एक statistician के रूप में, “neural networks functions को approximate करते हैं” जैसे विचार से आगे बढ़कर वास्तविक machine learning model engineering तक पहुँचने वाली modular understanding की तलाश हमेशा रही है
यह सामग्री उस फ़ासले को भरती हुई लगती है
जानना चाहूँगा कि यह diagram किस tool से बनाया गया है
दिलचस्प collection है
वास्तव में prompt patterns की तुलना करें तो architectural differences कभी-कभी काफ़ी अप्रत्याशित तरीकों से सामने आते हैं
उदाहरण के लिए, long context window सिर्फ़ ज़्यादा text संभालने की बात नहीं है, बल्कि input structure को ही अलग तरह से डिज़ाइन करने पर मजबूर करती है
जानना दिलचस्प होगा कि संरचनात्मक रूप से सबसे सरल लेकिन फिर भी competitive model कौन-सा है
पिछले कुछ वर्षों में architectural innovation लगभग नहीं हुई है, और ज़्यादातर बदलाव training efficiency में सुधार के लिए थे
Transformer models असंख्य पूर्ववर्ती शोधों के संचय पर धीरे-धीरे विकसित हुए परिणाम हैं
क्लिक करते समय लगा था कि LLM शायद गगनचुंबी इमारतों, बांधों या पुलों को डिज़ाइन करने की बात होगी
पॉपकॉर्न तक तैयार कर लिया था, इसलिए थोड़ा अफ़सोस हुआ