• नवीनतम Large Language Models (LLM) की संरचनात्मक रूपरेखाओं और मुख्य स्पेसिफिकेशन्स को एक नज़र में समेटने वाली एक ऑनलाइन गैलरी, जिसमें 2024~2026 के बीच सार्वजनिक किए गए प्रमुख मॉडल शामिल हैं
  • हर मॉडल को parameter scale, decoder type, attention method, और प्रमुख design points का सार देने वाली तालिका के रूप में व्यवस्थित किया गया है
  • सामग्री Sebastian Raschka के तुलनात्मक विश्लेषण लेख ‘The Big LLM Architecture Comparison’ और ‘A Dream of Spring for Open-Weight LLMs’ से ली गई है
  • उपयोगकर्ता मॉडल नाम पर क्लिक करके उसके विस्तृत विवरण पर जा सकते हैं, या इमेज पर क्लिक करके high-resolution architecture diagram (182 megapixel) को ज़ूम कर सकते हैं
  • open-weight LLM शोधकर्ताओं और डेवलपर्स के लिए एक reference architecture database के रूप में, यह नवीनतम MoE·Hybrid·Dense संरचनाओं के विकास को एक ही जगह पर देखने देता है

अवलोकन

  • यह पेज LLM architecture diagrams और factsheets को इकट्ठा करने वाली एक गैलरी है, जिसमें Raschka के दो प्रमुख comparative articles से केवल charts निकालकर व्यवस्थित किए गए हैं
    • मूल स्रोत: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
  • हर मॉडल प्रविष्टि में मॉडल नाम, parameter count, release date, decoder type, attention method, मुख्य design features, और संबंधित concepts के links शामिल हैं
  • गलत जानकारी या लिंक त्रुटि मिलने पर GitHub issue tracker के माध्यम से रिपोर्ट किया जा सकता है
  • अधिक मांग के कारण Zazzle के जरिए 14570×12490 resolution वाला poster (56MB PNG) संस्करण भी उपलब्ध कराया गया है

प्रमुख मॉडल उदाहरण

Llama 3 8B

  • 8 अरब parameters वाला Dense decoder आधारित मॉडल, जिसे OLMo 2 की normalization और attention choices की तुलना के लिए baseline stack की तरह इस्तेमाल किया जा सकता है
  • GQA + RoPE attention का उपयोग, Pre-norm संरचना बरकरार
  • 18 अप्रैल 2024 को सार्वजनिक किया गया

OLMo 2 7B

  • 7 अरब parameters वाला Dense model, MHA + QK-Norm attention का उपयोग
  • Inside-residual post-norm संरचना के जरिए training stability बेहतर की गई
  • 25 नवंबर 2024 को सार्वजनिक किया गया

DeepSeek V3

  • कुल 671 अरब parameters में से 37 अरब सक्रिय वाला Sparse MoE मॉडल
  • MLA attention और shared expert संरचना का संयोजन
  • बड़े open MoE मॉडल उछाल को शुरू करने वाला एक प्रतिनिधि template

DeepSeek R1

  • DeepSeek V3 पर आधारित reasoning-specialized version, वही architecture बनाए रखता है
  • 20 जनवरी 2025 को सार्वजनिक, MLA-आधारित Sparse MoE संरचना

Gemma 3 27B

  • 27 अरब parameters वाला Dense model, GQA + QK-Norm और 5:1 sliding-window/global attention का उपयोग
  • multilingual vocabulary expansion और local attention enhancement इसकी खासियत हैं
  • 11 मार्च 2025 को सार्वजनिक किया गया

MoE और Hybrid आर्किटेक्चर विस्तार

Llama 4 Maverick

  • Meta का Sparse MoE मॉडल, जो DeepSeek V3 संरचना पर आधारित है लेकिन पारंपरिक GQA attention अपनाता है
  • कुल 400 अरब parameters में से 17 अरब सक्रिय
  • Dense और MoE blocks को बारी-बारी से रखा गया, experts की संख्या घटाकर scale बढ़ाया गया

Qwen3 235B-A22B

  • DeepSeek V3 जैसी Sparse MoE संरचना, लेकिन shared expert हटाया गया
  • कुल 235 अरब parameters में 22 अरब सक्रिय, GQA + QK-Norm का उपयोग
  • 28 अप्रैल 2025 को सार्वजनिक किया गया

Kimi K2

  • 1 ट्रिलियन parameters वाला Sparse MoE मॉडल, DeepSeek V3 का विस्तार
  • MLA attention का उपयोग, experts की संख्या बढ़ाई गई और MLA heads की संख्या घटाई गई
  • 10 जुलाई 2025 को सार्वजनिक किया गया

GLM-4.5 355B

  • agent-oriented Sparse MoE मॉडल, DeepSeek की Dense-prefix MoE संरचना अपनाता है
  • कुल 355 अरब parameters में 32 अरब सक्रिय, GQA + QK-Norm का उपयोग
  • 28 जुलाई 2025 को सार्वजनिक किया गया

GPT-OSS 20B / 120B

  • OpenAI की open-weight MoE series, GQA-आधारित sliding-window/global cross attention का उपयोग
  • 20B मॉडल उथली लेकिन चौड़ी संरचना वाला, 120B मॉडल उसी design का विस्तारित रूप
  • 4 अगस्त 2025 को सार्वजनिक किया गया

Hybrid और अगली पीढ़ी की संरचनाएँ

Qwen3 Next 80B-A3B

  • Gated DeltaNet + Gated Attention मिश्रित attention का उपयोग करने वाला Sparse Hybrid मॉडल
  • कुल 80 अरब parameters में 3 अरब सक्रिय, 262k context समर्थन
  • 9 सितंबर 2025 को सार्वजनिक किया गया

Kimi Linear 48B-A3B

  • Linear Attention + MLA संयोजित hybrid संरचना
  • NoPE और channel-wise gating के जरिए long-context efficiency बेहतर
  • 30 अक्टूबर 2025 को सार्वजनिक किया गया

Nemotron 3 Nano / Super

  • NVIDIA का Transformer-State-Space Hybrid मॉडल
  • Nano(30B) में Mamba-2 + MoE, Super(120B) में LatentMoE + MTP अतिरिक्त
  • क्रमशः 4 दिसंबर 2025 और 11 मार्च 2026 को सार्वजनिक किए गए

Ling 2.5 1T

  • 1 ट्रिलियन parameters वाला Sparse Hybrid मॉडल, Lightning Attention + MLA संयोजन
  • 63 अरब सक्रिय parameters, 7:1 ratio की linear/MLA attention संरचना
  • 15 फ़रवरी 2026 को सार्वजनिक किया गया

नवीनतम open-weight मॉडल

Qwen3.5 397B

  • Qwen3 Next की hybrid attention को आगे बढ़ाने वाला प्रमुख मॉडल
  • कुल 397 अरब parameters में 17 अरब सक्रिय, 512 experts संरचना
  • 16 फ़रवरी 2026 को सार्वजनिक किया गया

Sarvam 30B / 105B

  • भारतीय भाषाओं के समर्थन पर केंद्रित Sparse MoE मॉडल
  • 30B में GQA + QK-Norm, 105B में MLA + NoPE + RoPE का उपयोग
  • 3 मार्च 2026 को सार्वजनिक किया गया

संदर्भ लेख

  • The Big LLM Architecture Comparison: Dense, MoE, MLA, Hybrid decoder संरचनाओं के design differences की व्याख्या
  • A Dream of Spring for Open-Weight LLMs: 2026 की शुरुआत में सार्वजनिक हुए MiniMax, Qwen, Ling, Sarvam आदि open-weight मॉडलों का अतिरिक्त विश्लेषण

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.