- नवीनतम Large Language Models (LLM) की संरचनात्मक रूपरेखाओं और मुख्य स्पेसिफिकेशन्स को एक नज़र में समेटने वाली एक ऑनलाइन गैलरी, जिसमें 2024~2026 के बीच सार्वजनिक किए गए प्रमुख मॉडल शामिल हैं
- हर मॉडल को parameter scale, decoder type, attention method, और प्रमुख design points का सार देने वाली तालिका के रूप में व्यवस्थित किया गया है
- सामग्री Sebastian Raschka के तुलनात्मक विश्लेषण लेख ‘The Big LLM Architecture Comparison’ और ‘A Dream of Spring for Open-Weight LLMs’ से ली गई है
- उपयोगकर्ता मॉडल नाम पर क्लिक करके उसके विस्तृत विवरण पर जा सकते हैं, या इमेज पर क्लिक करके high-resolution architecture diagram (182 megapixel) को ज़ूम कर सकते हैं
- open-weight LLM शोधकर्ताओं और डेवलपर्स के लिए एक reference architecture database के रूप में, यह नवीनतम MoE·Hybrid·Dense संरचनाओं के विकास को एक ही जगह पर देखने देता है
अवलोकन
- यह पेज LLM architecture diagrams और factsheets को इकट्ठा करने वाली एक गैलरी है, जिसमें Raschka के दो प्रमुख comparative articles से केवल charts निकालकर व्यवस्थित किए गए हैं
- मूल स्रोत: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- हर मॉडल प्रविष्टि में मॉडल नाम, parameter count, release date, decoder type, attention method, मुख्य design features, और संबंधित concepts के links शामिल हैं
- गलत जानकारी या लिंक त्रुटि मिलने पर GitHub issue tracker के माध्यम से रिपोर्ट किया जा सकता है
- अधिक मांग के कारण Zazzle के जरिए 14570×12490 resolution वाला poster (56MB PNG) संस्करण भी उपलब्ध कराया गया है
प्रमुख मॉडल उदाहरण
Llama 3 8B
- 8 अरब parameters वाला Dense decoder आधारित मॉडल, जिसे OLMo 2 की normalization और attention choices की तुलना के लिए baseline stack की तरह इस्तेमाल किया जा सकता है
- GQA + RoPE attention का उपयोग, Pre-norm संरचना बरकरार
- 18 अप्रैल 2024 को सार्वजनिक किया गया
OLMo 2 7B
- 7 अरब parameters वाला Dense model, MHA + QK-Norm attention का उपयोग
- Inside-residual post-norm संरचना के जरिए training stability बेहतर की गई
- 25 नवंबर 2024 को सार्वजनिक किया गया
DeepSeek V3
- कुल 671 अरब parameters में से 37 अरब सक्रिय वाला Sparse MoE मॉडल
- MLA attention और shared expert संरचना का संयोजन
- बड़े open MoE मॉडल उछाल को शुरू करने वाला एक प्रतिनिधि template
DeepSeek R1
- DeepSeek V3 पर आधारित reasoning-specialized version, वही architecture बनाए रखता है
- 20 जनवरी 2025 को सार्वजनिक, MLA-आधारित Sparse MoE संरचना
Gemma 3 27B
- 27 अरब parameters वाला Dense model, GQA + QK-Norm और 5:1 sliding-window/global attention का उपयोग
- multilingual vocabulary expansion और local attention enhancement इसकी खासियत हैं
- 11 मार्च 2025 को सार्वजनिक किया गया
MoE और Hybrid आर्किटेक्चर विस्तार
Llama 4 Maverick
- Meta का Sparse MoE मॉडल, जो DeepSeek V3 संरचना पर आधारित है लेकिन पारंपरिक GQA attention अपनाता है
- कुल 400 अरब parameters में से 17 अरब सक्रिय
- Dense और MoE blocks को बारी-बारी से रखा गया, experts की संख्या घटाकर scale बढ़ाया गया
Qwen3 235B-A22B
- DeepSeek V3 जैसी Sparse MoE संरचना, लेकिन shared expert हटाया गया
- कुल 235 अरब parameters में 22 अरब सक्रिय, GQA + QK-Norm का उपयोग
- 28 अप्रैल 2025 को सार्वजनिक किया गया
Kimi K2
- 1 ट्रिलियन parameters वाला Sparse MoE मॉडल, DeepSeek V3 का विस्तार
- MLA attention का उपयोग, experts की संख्या बढ़ाई गई और MLA heads की संख्या घटाई गई
- 10 जुलाई 2025 को सार्वजनिक किया गया
GLM-4.5 355B
- agent-oriented Sparse MoE मॉडल, DeepSeek की Dense-prefix MoE संरचना अपनाता है
- कुल 355 अरब parameters में 32 अरब सक्रिय, GQA + QK-Norm का उपयोग
- 28 जुलाई 2025 को सार्वजनिक किया गया
GPT-OSS 20B / 120B
- OpenAI की open-weight MoE series, GQA-आधारित sliding-window/global cross attention का उपयोग
- 20B मॉडल उथली लेकिन चौड़ी संरचना वाला, 120B मॉडल उसी design का विस्तारित रूप
- 4 अगस्त 2025 को सार्वजनिक किया गया
Hybrid और अगली पीढ़ी की संरचनाएँ
Qwen3 Next 80B-A3B
- Gated DeltaNet + Gated Attention मिश्रित attention का उपयोग करने वाला Sparse Hybrid मॉडल
- कुल 80 अरब parameters में 3 अरब सक्रिय, 262k context समर्थन
- 9 सितंबर 2025 को सार्वजनिक किया गया
Kimi Linear 48B-A3B
- Linear Attention + MLA संयोजित hybrid संरचना
- NoPE और channel-wise gating के जरिए long-context efficiency बेहतर
- 30 अक्टूबर 2025 को सार्वजनिक किया गया
Nemotron 3 Nano / Super
- NVIDIA का Transformer-State-Space Hybrid मॉडल
- Nano(30B) में Mamba-2 + MoE, Super(120B) में LatentMoE + MTP अतिरिक्त
- क्रमशः 4 दिसंबर 2025 और 11 मार्च 2026 को सार्वजनिक किए गए
Ling 2.5 1T
- 1 ट्रिलियन parameters वाला Sparse Hybrid मॉडल, Lightning Attention + MLA संयोजन
- 63 अरब सक्रिय parameters, 7:1 ratio की linear/MLA attention संरचना
- 15 फ़रवरी 2026 को सार्वजनिक किया गया
नवीनतम open-weight मॉडल
Qwen3.5 397B
- Qwen3 Next की hybrid attention को आगे बढ़ाने वाला प्रमुख मॉडल
- कुल 397 अरब parameters में 17 अरब सक्रिय, 512 experts संरचना
- 16 फ़रवरी 2026 को सार्वजनिक किया गया
Sarvam 30B / 105B
- भारतीय भाषाओं के समर्थन पर केंद्रित Sparse MoE मॉडल
- 30B में GQA + QK-Norm, 105B में MLA + NoPE + RoPE का उपयोग
- 3 मार्च 2026 को सार्वजनिक किया गया
संदर्भ लेख
- The Big LLM Architecture Comparison: Dense, MoE, MLA, Hybrid decoder संरचनाओं के design differences की व्याख्या
- A Dream of Spring for Open-Weight LLMs: 2026 की शुरुआत में सार्वजनिक हुए MiniMax, Qwen, Ling, Sarvam आदि open-weight मॉडलों का अतिरिक्त विश्लेषण
अभी कोई टिप्पणी नहीं है.