DeepSeek-V4 पेपर पढ़ने का सारांश - Noh Jeong-seok
(youtube.com)DeepSeek-V4 ने जो आर्किटेक्चर इनोवेशन दिखाया और frontier labs के लिए जो नया संदर्भ बिंदु पेश किया, उसके बीच 2026 के अप्रैल के चौथे हफ्ते में GPT-5.5 और Google Cloud Next जैसी बड़ी घोषणाएँ लगातार सामने आईं, लेकिन सबसे उल्लेखनीय घटना DeepSeek-V4 का सार्वजनिक होना था। R1 के लगभग 1 साल 4 महीने बाद आए इस मॉडल ने 600B स्केल वाले V3 से बढ़कर 1.6T स्केल तक आकार लिया, और active parameters भी थोड़ा बढ़े। सबसे महत्वपूर्ण बात यह रही कि Sparse Attention, mHC(Manifold-Constrained Hyper-Connections), और Muon optimizer—इन तीनों तरह के algorithmic बदलाव एक साथ लागू किए गए, और उनका परिणाम लगभग 40 पन्नों के पेपर में विस्तार से दर्ज किया गया। Kim Seong-hyeon और Noh Jeong-seok ने इस रिपोर्ट को सिर्फ performance bragging नहीं, बल्कि 1 साल तक चले दर्दनाक trial-and-error का रिकॉर्ड बताया।
मुख्य आर्किटेक्चर बदलाव
- Sparse Attention का गंभीर अपनाव: पहले की तरह सभी पिछले tokens को refer करने के बजाय, अब केवल अर्थपूर्ण कुछ tokens को चुनकर refer किया जाता है। यह sliding window attention, 1/100 तक compress किए गए tokens पर full attention, और 1/4 तक compress करने के बाद Lightning Indexer से top-k चुनने वाले Compressed Sparse Attention—इन तीनों को मिलाकर बना स्ट्रक्चर है।
- mHC का उपयोग: यह deep learning के core residual connections के रास्ते को चौड़ा कर constraints को ढीला करने वाले Hyper-Connections को manifold पर स्थिर करने वाला स्ट्रक्चर है।
- Muon optimizer को अपनाना: Adam के बाद चीनी models में लगभग standard की तरह इस्तेमाल होने वाला यह optimizer training speed और data efficiency दोनों को बढ़ाता है।
- MLA को हटाना: DeepSeek की पहचान माने जाने वाले MLA को छोड़कर इसे सरल Multi-Query Attention में बदला गया।
फायदे और खास विशेषताएँ
- long-context लागत में तेज गिरावट: V3 की तुलना में 2.5~3 गुना बड़ा मॉडल होने के बावजूद token operation compute लगभग 27% तक, और KV cache memory लगभग 10% तक घटा दी गई।
- pretraining चरण से ही long-context training: शुरुआती 1T tokens को 4K~16K पर, और उसके बाद 30T से अधिक tokens को 64K या उससे अधिक context पर train किया गया। यह उस प्रचलन से अलग है जिसमें बाद के processing चरण में context बढ़ाया जाता था।
- infrastructure optimization की गहराई: ByteDance के Comet में सुधार कर बनाया गया MoE communication·computation overlap, power throttling लगने की हद तक धकेला गया mega-kernel, TileLang contribution, batch invariance kernel का बड़ा optimization, और expert weights की MXFP4(4-bit) compression जैसी चीजें बारीकी से शामिल की गईं।
- algorithmic leadership: अमेरिकी big tech जहाँ आर्किटेक्चर सार्वजनिक नहीं करती, वहाँ pretraining के दायरे में देखें तो इसे बराबरी या कुछ मामलों में आगे माना जा सकता है।
कमियाँ और सीमाएँ
- training instability: हाल के समय में कई LLM developers training को बहुत stable बताते हैं, लेकिन DeepSeek-V4 ने ईमानदारी से दिखाया कि उसे training instability की समस्या कई जगह झेलनी पड़ी। MoE gating में बदलाव, clamping, और पुराने समय-बिंदु के weights से routing करने वाली Anticipatory Routing जैसी कठिन तकनीकों का भी सहारा लिया गया।
- reproducibility की कठिनाई: चीन की दूसरी टीमों का साझा निष्कर्ष था कि Sparse Attention को लगभग शुरू से train कराना बहुत कठिन काम है। DeepSeek के सफल होने का मतलब यह नहीं कि दूसरी टीमें आसानी से इसे दोहरा लेंगी।
- post-training में कमी: pretraining में हुई छलांग की तुलना में post-training अभी भी अपेक्षाकृत कमज़ोर या अधूरा दिखता है। 4.1 और 4.2 चरणों में इसे काफी मजबूत किया जा सकता है।
- data पर चुप्पी: केवल यह बताया गया है कि 32T tokens तैयार किए गए, लेकिन synthetic data के उपयोग जैसी data composition की ठोस जानकारी लगभग नहीं दी गई।
अंतर पैदा करने वाले बिंदु
- पारदर्शी सार्वजनिक खुलासा: दूसरे frontier labs जहाँ आर्किटेक्चर छिपाते हैं, वहाँ यह मॉडल अपनी संरचना और trial-and-error को अपेक्षाकृत ईमानदारी से साझा करता है।
- pretraining चरण की integrated design: long-context, Sparse Attention, और FP4 quantization को post-processing के बजाय सीधे pretraining में शामिल करना इसकी बड़ी विशेषता है।
- hardware diversification: NVIDIA chips के साथ Huawei chips का समानांतर उपयोग करने की बात कहकर यह संकेत दिया गया कि चीन के भीतर semiconductor alternatives जगह बना रहे हैं।
उद्योग के नज़रिए से महत्व
- चीनी frontier labs के परिदृश्य में बदलाव: DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3, और Xiaomi MiMo जैसे लगभग पाँच टीमें एक साथ अग्रिम पंक्ति में दिख रही हैं, और pretraining के लिहाज से अमेरिका के बराबर या कुछ हिस्सों में आगे होने की राय सामने आ रही है।
- post-training अगला युद्धक्षेत्र: ऐसा लगता है कि जल्द ही pretraining के बराबर compute post-training में लगाया जाएगा, और यहीं का अंतर अगली पीढ़ी की प्रतिस्पर्धा तय कर सकता है।
- model updates का सामान्य हो जाना: GPT-5.5, Claude Mythos, Spud, और DeepSeek-V4 ने लगभग एक ही समय में base models बदले, जिससे यह संकेत मिलता है कि model updates Chrome browser updates की तरह सामान्य और कम ध्यान खींचने वाली चीज बनते जा रहे हैं।
यह DeepSeek-V4 सिर्फ एक single model के performance metrics से ज़्यादा, उस रिकॉर्ड की तरह है जो दिखाता है कि एक टीम ने 1 साल में कठिन समस्याओं को कैसे सीधे चुनौती देकर हल किया। Sparse Attention को pretraining चरण से ही साथ लेकर चलने की कोशिश, 1.6T स्केल पर long-context लागत को single-digit अनुपात तक लाने वाला infrastructure काम, और training instability से जूझते हुए अपनाए गए असामान्य उपाय—ये सब आगे आने वाले चीन-उत्पत्ति frontier models के लिए नया base बन सकते हैं। साथ ही, post-training और data से जुड़े बचे हुए सवाल अभी भी स्पष्ट हैं, इसलिए 4.1 और 4.2 इस अंतर को कितनी हद तक कम कर पाएँगे, यह अगले quarter का अहम देखने लायक बिंदु होगा।
4 टिप्पणियां
लोग कहते हैं कि यह चीन में बना है इसलिए उस पर भरोसा नहीं किया जा सकता, लेकिन मुझे सच में DeepSeek का यह रुख बहुत सराहनीय लगता है कि वह रिसर्च करता है, उसे open करता है, और trial and error की प्रक्रिया भी सार्वजनिक करता है।
Noh Seong-hun जी→ Kim Seong-hyeon जी हैं
मैंने इसे संशोधित कर दिया है।
धन्यवाद। इसे संशोधित किया जाना चाहिए।