बड़े LLMs की आर्किटेक्चर तुलना

(magazine.sebastianraschka.com)

26 पॉइंट द्वारा GN⁺ 2025-07-21 | 2 टिप्पणियां | WhatsApp पर शेयर करें

पिछले 7 वर्षों में LLM आर्किटेक्चर GPT-2(2019) से DeepSeek-V3, Llama 4(2024-2025) तक संरचनात्मक रूप से बड़े बदलावों के बिना विकसित हुए हैं और हैरान करने वाली समानता बनाए हुए हैं
DeepSeek V3/R1, Llama 4 जैसे नवीनतम मॉडल Mixture-of-Experts(MoE), MLA, Sliding Window Attention जैसी नई optimization विधियाँ अपनाकर memory efficiency और inference performance को बेहतर बनाते हैं
OLMo 2, Gemma 3 जैसे कुछ open source मॉडल पारदर्शी data disclosure और normalization layer की अनोखी placement के कारण research और development के लिए अच्छे design उदाहरण के रूप में ध्यान खींचते हैं
Qwen3, SmolLM3, Kimi 2 जैसे अलग-अलग आकार और संरचना वाले मॉडल सामने आए हैं, जिससे MoE और Dense आर्किटेक्चर के फायदे-नुकसान और उपयोग के उद्देश्य के अनुसार विकल्प बढ़े हैं
हाल के LLMs का साझा ट्रेंड बड़े और अधिक उन्नत होते जाना, साथ ही efficient structural improvements और अलग-अलग hardware environments के लिए अनुकूलन है

परिचय

2017 के GPT प्रोटोटाइप के बाद GPT-2(2019) से DeepSeek-V3 और Llama 4(2024-2025) तक देखें तो LLM आर्किटेक्चर बड़े ढाँचे में काफ़ी समान हैं (मूल transformer संरचना में बहुत बड़ा बदलाव नहीं हुआ है)
Positional embedding absolute रूप से बदलकर RoPE जैसी विधियों तक पहुँचा है, और Multi-Head Attention memory/compute efficient GQA(Grouped Query Attention) की ओर बढ़ रहा है, लेकिन मूल संरचना बनी हुई है
Performance comparison dataset और training methods के अनुसार बदलता है, इसलिए सीधी architectural तुलना कठिन है
इस लेख में हाल के open LLMs के आर्किटेक्चर संरचना परिवर्तन पर केंद्रित विश्लेषण किया गया है

1. DeepSeek V3/R1

DeepSeek R1(जनवरी 2025) DeepSeek V3 architecture(दिसंबर 2024) पर आधारित है, और उन्नत reasoning क्षमता तथा बड़े पैमाने के parameters(671B) के कारण चर्चा में है
मुख्य आर्किटेक्चर: Multi-Head Latent Attention(MLA), Mixture-of-Experts(MoE)
MLA: Key/Value को low-dimensional रूप में compress करके KV cache memory कम करता है, और GQA की तुलना में बेहतर performance देता है
MoE: FeedForward module को कई experts में बाँटता है, और हर token पर केवल कुछ experts को activate करने वाली sparse संरचना अपनाता है
- DeepSeek V3: 256 experts, कुल parameters 671B, inference के समय केवल 9 experts(37B parameters) उपयोग होते हैं
- हमेशा सक्रिय shared expert सामान्य pattern learning को अधिक efficient बनाता है
विशेषताएँ: बहुत बड़ा(671B) होने के बावजूद inference efficiency, MLA के कारण GQA पर performance advantage, और MoE के कारण बड़े training capacity की उपलब्धता

2. OLMo 2

Allen Institute for AI का पूरी तरह खुला मॉडल
Performance से अधिक पारदर्शी design और code disclosure इसकी ताकत है
आर्किटेक्चर के मुख्य बिंदु: RMSNorm की position(Post-Norm का उपयोग), QK-Norm
- पारंपरिक GPT-श्रृंखला Pre-Norm का उपयोग करती है, जबकि OLMo 2 में Attention/FeedForward के बाद normalization लागू किया जाता है(Post-Norm flavor)
- QK-Norm: Attention के query/key पर अतिरिक्त RMSNorm, जिससे training stability बेहतर होती है
पारंपरिक Multi-Head Attention(MHA) संरचना बरकरार
Llama 3 आदि के समान, लेकिन normalization strategy में अंतर

3. Gemma 3

Google का प्रमुख open LLM, जिसकी multilingual support के लिए बड़े vocabulary और 27B आकार के मॉडल पर फोकस प्रमुख विशेषता है
Sliding Window Attention(local window) के जरिए KV cache memory में बड़ी कमी
- Gemma 2: Global/Local 1:1, 4k window, Gemma 3: 5:1 ratio, window घटाकर 1024
- Performance(Perplexity) पर लगभग कोई असर नहीं
Normalization: GQA module के आसपास Pre-Norm और Post-Norm RMSNorm दोनों लागू
Gemma 3n: छोटे devices के लिए, Per-Layer Embedding(सिर्फ layer-स्तरीय parameters GPU पर resident) और MatFormer(आंशिक model partition उपयोग) के जरिए lightweight बनाया गया

4. Mistral Small 3.1

Mistral Small 3.1 24B, Gemma 3 27B से तेज़ और benchmarks में ऊपरी स्थान पर
Custom tokenizer, KV cache और layers की संख्या कम करके inference latency न्यूनतम की गई
Sliding window attention को छोड़कर optimized GQA + FlashAttention का उपयोग, ताकि inference speed और code efficiency पर फोकस रहे

5. Llama 4

MoE आर्किटेक्चर को सक्रिय रूप से अपनाकर inference efficiency और model capacity दोनों हासिल किए गए हैं, और संरचना DeepSeek-V3 से मिलती-जुलती है
GQA का उपयोग, लेकिन MoE experts की संख्या और hidden size अलग हैं
- DeepSeek-V3: 9 experts(2,048), Llama 4: 2 experts(8,192), active parameters 17B(DeepSeek 37B)
MoE blocks और Dense blocks को बारी-बारी से डालने वाली classic MoE design
हाल के LLMs में MoE के लोकप्रिय होने की पुष्टि

6. Qwen3

अलग-अलग आकार के Dense (0.6B~32B) और MoE(30B-A3B, 235B-A22B) versions उपलब्ध
छोटा मॉडल(0.6B) training·inference efficiency और token throughput में उत्कृष्ट है। ultra-lightweight LLMs में बहुत अच्छा performance, साथ ही memory efficiency और training convenience भी शानदार
Dense: layers अधिक, memory कम, speed धीमी(Llama 3 1B की तुलना में)
MoE: Qwen3 235B-A22B में 22B active params, shared expert का उपयोग नहीं होता(पहले Qwen2.5-MoE में shared expert शामिल था), जिससे efficiency बढ़ती है
Qwen3 235B-A22B और DeepSeek-V3 समग्र संरचना में बहुत समान हैं
Dense और MoE दोनों देकर विभिन्न उपयोग उद्देश्यों के लिए समर्थन

7. SmolLM3

3B parameter-स्तर का छोटा मॉडल, Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B से प्रतिस्पर्धा करता है
आर्किटेक्चर मानक है, लेकिन NoPE(No Positional Embedding) लागू किया गया है
- RoPE जैसी positional encoding के बिना केवल causal mask का उपयोग
- लंबे sequences में length generalization बेहतर
- प्रयोगात्मक संरचना, केवल कुछ layers में लागू

8. Kimi 2

1 trillion parameters वाला बड़ा open model, open models में सबसे बड़े पैमाने पर
DeepSeek-V3 संरचना पर आधारित, MoE layers की संख्या बढ़ाई गई और MLA के heads की संख्या समायोजित की गई
Training में AdamW की जगह Muon optimizer का उपयोग, जिससे training efficiency और loss decay बेहतर हुआ
DeepSeek-V3 की तुलना में अधिक MoE experts, और MLA head count कम
Kimi 1.5 के अनुभव के आधार पर, Kimi 2 ने open weights जारी किए और top-tier performance हासिल की

निष्कर्ष और ट्रेंड

हाल के LLMs में मूल संरचना बरकरार है, लेकिन आर्किटेक्चर का विस्तार, MoE और विभिन्न efficiency संरचनाओं का अपनाना प्रमुख विशेषताएँ हैं
Open models के मामले में पारदर्शी data, design, और code disclosure के कारण research और industry उपयोगिता बढ़ रही है
Dense और MoE, MLA·GQA·Sliding Window Attention, और विभिन्न normalization strategies के बीच हर मॉडल का optimization लक्ष्य अलग है
Hardware environment, उपयोग उद्देश्य, और training·inference efficiency के अनुसार आर्किटेक्चर विकल्पों की विविधता बढ़ने का समय है

2 टिप्पणियां

tensun 2025-07-22

लगता है कि Korean के लिए Qwen अच्छा काम करता है।

GN⁺ 2025-07-21

Hacker News की राय

इस लेख में LLM architecture के बारे में सीखने के लिए abstraction का स्तर और detail इतनी बेहतरीन है कि मूल papers पढ़ने की तुलना में कहीं ज़्यादा आसानी से बहुत-सी जानकारी समझ में आ गई
जो लोग beginner और expert के बीच के स्तर पर हैं, उनके लिए इस लेख के diagrams बहुत प्रभावशाली लगते हैं; latest models को एक नज़र में इस तरह व्यवस्थित देखना सचमुच उपयोगी है
संबंधित सामग्री के तौर पर DeepSeek ने transformer architecture को कैसे बेहतर बनाया, इस पर लेख और Meta की superintelligence पर analysis article के कुछ sections भी देखने लायक हैं
मेरी तरह जो लोग latest trends के साथ कदम नहीं मिला पा रहे थे, उनके लिए ऐसे summary posts सचमुच बहुत स्वागतयोग्य catchup हैं
आगे चलकर o5, o3 Pro, o4 या 4.5, Gemini 2.5 Pro, Grok 4, Claude Opus 4 जैसे closed-source frontier models पर अफवाहों को भी शामिल करने वाला भाग 2 आए, ऐसी उम्मीद है
अलग-अलग LLM architectures के बीच के फर्क को इतने विस्तार से समझाने के लिए धन्यवाद; इससे समझना आसान हुआ और यह काफ़ी educational भी रहा
सच कहूँ तो GPT-2(2019) के दौर से तुलना करें तो आज की प्रगति की रफ़्तार पर यक़ीन करना मुश्किल है। आजकल LLM performance की ठीक से तुलना करना भी कठिन हो गया है, क्योंकि हर 2 हफ्ते में कोई नया model benchmark अपडेट कर देता है। DeepSeek का ज़िक्र देखकर अच्छा लगा; V3 में लाई गई architectural innovations की वजह से compute efficiency काफ़ी बेहतर हुई, और यही वह निर्णायक बिंदु था जिसने उस समय दूसरे models से इसका अंतर लगभग ख़त्म कर दिया
अलग-अलग नई architectures ने accuracy और speed, दोनों में बहुत-सी innovations दी हैं, लेकिन सही जानकारी पैदा करने की बुनियादी समस्या अब भी हल नहीं हुई है। Retrieval Augmented Generation(RAG) या agents जैसे कई तरीके इस समस्या को कुछ हद तक सुधारते हैं, लेकिन यह भी सोचने वाली बात है कि क्या भविष्य की architectures आख़िरकार इन तरीकों की जगह ले लेंगी
- मूल रूप से transformer को text prediction के लक्ष्य से train किया जाता है, और इस तरीके में logical embeddings की सीमा है। अगर hallucination को और कम करना है, तो मुझे लगता है कि पूरी तरह अलग training objective की ज़रूरत होगी
- model यह अलग नहीं कर पाता कि किस स्थिति में generalize करना ठीक है और कब उसे और जानकारी चाहिए। उदाहरण के लिए, यह आसानी से नहीं समझ पाता कि कोई एक method क्यों मौजूद है लेकिन वैसा ही कोई दूसरा function क्यों नहीं है। बचपन में मैंने अपनी माँ को एक बेहतरीन cooker कहा था, क्योंकि मुझे नहीं पता था कि machine और इंसान के लिए अलग-अलग शब्द होते हैं। ऐसा लगता है कि मिलते-जुलते शब्दों की यही generalization models पर भी लागू होती है
- DeepSeek-V2 और Llama 3.1 जैसी हाल की architectures ने सिर्फ design improvements से भी factuality में काफ़ी सुधार दिखाया है। इसके पीछे ख़ास तौर पर attention mechanism और hallucination suppression के लिए अनुकूलित training objectives हैं
- RAG (search-based responses) संरचनात्मक रूप से सरल है और implement करना भी आसान है, लेकिन मैं हमेशा सोचता रहा हूँ कि यह अब तक base LLM में built-in क्यों नहीं है। इसका model के भीतर पूरी तरह integrate न हो पाना शायद RAG या उसके variants की बुनियादी सीमाओं का उल्टा प्रमाण लगता है। अगर यह सचमुच बहुत प्रभावी तरीका होता, तो मुझे लगता है कि इसे किसी बाहरी add-on की तरह नहीं बल्कि architecture की default capability के रूप में अपनाया गया होता
मैंने Claude से मूल लेख पढ़कर कोई नई architecture सुझाने को कहा था
Claude के परिणाम का लिंक
लेकिन यह नतीजा वास्तव में उपयोगी है या नहीं, इसे लेकर मुझे यक़ीन नहीं है

बड़े LLMs की आर्किटेक्चर तुलना

परिचय

1. DeepSeek V3/R1

2. OLMo 2

3. Gemma 3

4. Mistral Small 3.1

5. Llama 4

6. Qwen3

7. SmolLM3

8. Kimi 2

निष्कर्ष और ट्रेंड

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय