LLM आर्किटेक्चर गैलरी

(sebastianraschka.com)

50 पॉइंट द्वारा GN⁺ 2026-03-16 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

नवीनतम Large Language Models (LLM) की संरचनात्मक रूपरेखाओं और मुख्य स्पेसिफिकेशन्स को एक नज़र में समेटने वाली एक ऑनलाइन गैलरी, जिसमें 2024~2026 के बीच सार्वजनिक किए गए प्रमुख मॉडल शामिल हैं
हर मॉडल को parameter scale, decoder type, attention method, और प्रमुख design points का सार देने वाली तालिका के रूप में व्यवस्थित किया गया है
सामग्री Sebastian Raschka के तुलनात्मक विश्लेषण लेख ‘The Big LLM Architecture Comparison’ और ‘A Dream of Spring for Open-Weight LLMs’ से ली गई है
उपयोगकर्ता मॉडल नाम पर क्लिक करके उसके विस्तृत विवरण पर जा सकते हैं, या इमेज पर क्लिक करके high-resolution architecture diagram (182 megapixel) को ज़ूम कर सकते हैं
open-weight LLM शोधकर्ताओं और डेवलपर्स के लिए एक reference architecture database के रूप में, यह नवीनतम MoE·Hybrid·Dense संरचनाओं के विकास को एक ही जगह पर देखने देता है

अवलोकन

यह पेज LLM architecture diagrams और factsheets को इकट्ठा करने वाली एक गैलरी है, जिसमें Raschka के दो प्रमुख comparative articles से केवल charts निकालकर व्यवस्थित किए गए हैं
- मूल स्रोत: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
हर मॉडल प्रविष्टि में मॉडल नाम, parameter count, release date, decoder type, attention method, मुख्य design features, और संबंधित concepts के links शामिल हैं
गलत जानकारी या लिंक त्रुटि मिलने पर GitHub issue tracker के माध्यम से रिपोर्ट किया जा सकता है
अधिक मांग के कारण Zazzle के जरिए 14570×12490 resolution वाला poster (56MB PNG) संस्करण भी उपलब्ध कराया गया है

प्रमुख मॉडल उदाहरण

Llama 3 8B

8 अरब parameters वाला Dense decoder आधारित मॉडल, जिसे OLMo 2 की normalization और attention choices की तुलना के लिए baseline stack की तरह इस्तेमाल किया जा सकता है
GQA + RoPE attention का उपयोग, Pre-norm संरचना बरकरार
18 अप्रैल 2024 को सार्वजनिक किया गया

OLMo 2 7B

7 अरब parameters वाला Dense model, MHA + QK-Norm attention का उपयोग
Inside-residual post-norm संरचना के जरिए training stability बेहतर की गई
25 नवंबर 2024 को सार्वजनिक किया गया

DeepSeek V3

कुल 671 अरब parameters में से 37 अरब सक्रिय वाला Sparse MoE मॉडल
MLA attention और shared expert संरचना का संयोजन
बड़े open MoE मॉडल उछाल को शुरू करने वाला एक प्रतिनिधि template

DeepSeek R1

DeepSeek V3 पर आधारित reasoning-specialized version, वही architecture बनाए रखता है
20 जनवरी 2025 को सार्वजनिक, MLA-आधारित Sparse MoE संरचना

Gemma 3 27B

27 अरब parameters वाला Dense model, GQA + QK-Norm और 5:1 sliding-window/global attention का उपयोग
multilingual vocabulary expansion और local attention enhancement इसकी खासियत हैं
11 मार्च 2025 को सार्वजनिक किया गया

MoE और Hybrid आर्किटेक्चर विस्तार

Llama 4 Maverick

Meta का Sparse MoE मॉडल, जो DeepSeek V3 संरचना पर आधारित है लेकिन पारंपरिक GQA attention अपनाता है
कुल 400 अरब parameters में से 17 अरब सक्रिय
Dense और MoE blocks को बारी-बारी से रखा गया, experts की संख्या घटाकर scale बढ़ाया गया

Qwen3 235B-A22B

DeepSeek V3 जैसी Sparse MoE संरचना, लेकिन shared expert हटाया गया
कुल 235 अरब parameters में 22 अरब सक्रिय, GQA + QK-Norm का उपयोग
28 अप्रैल 2025 को सार्वजनिक किया गया

Kimi K2

1 ट्रिलियन parameters वाला Sparse MoE मॉडल, DeepSeek V3 का विस्तार
MLA attention का उपयोग, experts की संख्या बढ़ाई गई और MLA heads की संख्या घटाई गई
10 जुलाई 2025 को सार्वजनिक किया गया

GLM-4.5 355B

agent-oriented Sparse MoE मॉडल, DeepSeek की Dense-prefix MoE संरचना अपनाता है
कुल 355 अरब parameters में 32 अरब सक्रिय, GQA + QK-Norm का उपयोग
28 जुलाई 2025 को सार्वजनिक किया गया

GPT-OSS 20B / 120B

OpenAI की open-weight MoE series, GQA-आधारित sliding-window/global cross attention का उपयोग
20B मॉडल उथली लेकिन चौड़ी संरचना वाला, 120B मॉडल उसी design का विस्तारित रूप
4 अगस्त 2025 को सार्वजनिक किया गया

Hybrid और अगली पीढ़ी की संरचनाएँ

Qwen3 Next 80B-A3B

Gated DeltaNet + Gated Attention मिश्रित attention का उपयोग करने वाला Sparse Hybrid मॉडल
कुल 80 अरब parameters में 3 अरब सक्रिय, 262k context समर्थन
9 सितंबर 2025 को सार्वजनिक किया गया

Kimi Linear 48B-A3B

Linear Attention + MLA संयोजित hybrid संरचना
NoPE और channel-wise gating के जरिए long-context efficiency बेहतर
30 अक्टूबर 2025 को सार्वजनिक किया गया

Nemotron 3 Nano / Super

NVIDIA का Transformer-State-Space Hybrid मॉडल
Nano(30B) में Mamba-2 + MoE, Super(120B) में LatentMoE + MTP अतिरिक्त
क्रमशः 4 दिसंबर 2025 और 11 मार्च 2026 को सार्वजनिक किए गए

Ling 2.5 1T

1 ट्रिलियन parameters वाला Sparse Hybrid मॉडल, Lightning Attention + MLA संयोजन
63 अरब सक्रिय parameters, 7:1 ratio की linear/MLA attention संरचना
15 फ़रवरी 2026 को सार्वजनिक किया गया

नवीनतम open-weight मॉडल

Qwen3.5 397B

Qwen3 Next की hybrid attention को आगे बढ़ाने वाला प्रमुख मॉडल
कुल 397 अरब parameters में 17 अरब सक्रिय, 512 experts संरचना
16 फ़रवरी 2026 को सार्वजनिक किया गया

Sarvam 30B / 105B

भारतीय भाषाओं के समर्थन पर केंद्रित Sparse MoE मॉडल
30B में GQA + QK-Norm, 105B में MLA + NoPE + RoPE का उपयोग
3 मार्च 2026 को सार्वजनिक किया गया

संदर्भ लेख

The Big LLM Architecture Comparison: Dense, MoE, MLA, Hybrid decoder संरचनाओं के design differences की व्याख्या
A Dream of Spring for Open-Weight LLMs: 2026 की शुरुआत में सार्वजनिक हुए MiniMax, Qwen, Ling, Sarvam आदि open-weight मॉडलों का अतिरिक्त विश्लेषण

LLM आर्किटेक्चर गैलरी

अवलोकन

प्रमुख मॉडल उदाहरण

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

MoE और Hybrid आर्किटेक्चर विस्तार

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Hybrid और अगली पीढ़ी की संरचनाएँ

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

नवीनतम open-weight मॉडल

Qwen3.5 397B

Sarvam 30B / 105B

संदर्भ लेख

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.