DeepSeek-V4 पेपर रीडिंग सारांश - Noh Jung-seok

(youtube.com)

10 पॉइंट द्वारा ragingwind 1 일 전 | 3 टिप्पणियां | WhatsApp पर शेयर करें

DeepSeek-V4 ने जो आर्किटेक्चर इनोवेशन दिखाया और frontier lab के लिए जो नया दिशा-सूचक दिया, वह 2026 के अप्रैल के चौथे सप्ताह में खास तौर पर उभरा। GPT-5.5 और Google Cloud Next जैसी बड़ी घोषणाओं के बीच सबसे ध्यान खींचने वाली घटना DeepSeek-V4 का सार्वजनिक होना था। R1 के लगभग 1 साल 4 महीने बाद आए इस मॉडल ने 600B आकार वाले V3 से बढ़कर 1.6T स्केल तक छलांग लगाई, और activated parameters भी थोड़ा बढ़े। सबसे महत्वपूर्ण बात यह रही कि Sparse Attention, mHC(Manifold-Constrained Hyper-Connections), और Muon optimizer — इन तीनों algorithmic बदलावों को एक साथ लागू किया गया, और उसका परिणाम लगभग 40 पन्नों के पेपर में विस्तार से दर्ज किया गया। Noh Seong-hoon और Noh Jung-seok ने इस रिपोर्ट को सिर्फ performance दिखाने वाला दस्तावेज़ नहीं, बल्कि 1 साल तक चले कठिन trial-and-error का रिकॉर्ड बताया।

मुख्य आर्किटेक्चर बदलाव

Sparse Attention का पूर्ण परिचय: पहले की तरह सभी पुराने tokens को refer करने के बजाय, अब केवल अर्थपूर्ण कुछ tokens चुनकर refer किया जाता है। यह sliding window attention, 1/100 तक compress किए गए tokens पर full attention, और 1/4 तक compress करने के बाद Lightning Indexer से top-k चुनने वाला Compressed Sparse Attention — इन तीनों को मिलाकर बनी संरचना है।
mHC का उपयोग: deep learning के केंद्र में मौजूद residual connection के रास्ते को चौड़ा कर constraint कम करने वाले Hyper-Connections को manifold पर stabilize करने वाली संरचना।
Muon optimizer को अपनाना: Adam के बाद Chinese models में लगभग standard की तरह इस्तेमाल होने वाला optimizer, जो training speed और data efficiency दोनों को बढ़ाता है।
MLA हटाना: DeepSeek की पहचान जैसे बन चुके MLA को छोड़कर सरल Multi-Query Attention पर स्विच किया गया।

फायदे और विशेषताएँ

long context लागत में तेज गिरावट: V3 की तुलना में 2.5~3 गुना बड़ा मॉडल होने के बावजूद token operation compute लगभग 27% तक, और KV cache memory लगभग 10% तक घटा दी गई।
pretraining चरण से ही long context training: शुरुआती 1T tokens को 4K~16K पर, और उसके बाद 30T से अधिक tokens को 64K या उससे ऊपर train किया गया। यह उस प्रचलन से अलग है जिसमें बाद की processing में context बढ़ाया जाता था।
infrastructure optimization की गहराई: ByteDance के Comet को बेहतर बनाने वाला MoE communication·computation overlap, power throttling लगने की हद तक धकेला गया mega-kernel, TileLang contribution, batch invariance kernel का बड़ा optimization, और expert weights की MXFP4(4-bit) compression जैसी कई चीजें बारीकी से जोड़ी गईं।
algorithmic leadership: जब US big tech अपनी architecture सार्वजनिक नहीं कर रही, तब केवल pretraining क्षेत्र को देखें तो इसे बराबरी का, या कुछ हिस्सों में आगे माना जा सकने वाला स्तर बताया गया।

कमियाँ और सीमाएँ

training instability: हाल के LLM developers जहाँ training को बहुत stable बताते हैं, उसके विपरीत DeepSeek-V4 ईमानदारी से दिखाता है कि उसे कई जगह training instability झेलनी पड़ी। MoE gating modification, clamping, और पिछले समय-बिंदु के weights से routing करने वाले Anticipatory Routing जैसे जटिल उपाय भी अपनाए गए।
reproduction की कठिनाई: Sparse Attention को लगभग शुरू से train करना बहुत कठिन है — यह चीन की अन्य teams का भी साझा निष्कर्ष रहा। DeepSeek के सफल होने का अर्थ यह नहीं कि दूसरी teams आसानी से इसे दोहरा लेंगी।
post-training में कमी: pretraining की छलांग की तुलना में post-training में अभी अपेक्षाकृत अधिक गुंजाइश बची हुई लगती है। 4.1 और 4.2 चरणों में इसे काफी मजबूत किया जा सकता है।
data पर चुप्पी: केवल इतना कहा गया कि 32T tokens तैयार किए गए, लेकिन synthetic data के उपयोग जैसे data composition के ठोस विवरण लगभग नहीं दिए गए।

अंतर पैदा करने वाले बिंदु

पारदर्शी सार्वजनिक साझा करना: दूसरे frontier labs जहाँ architecture छिपाते हैं, वहाँ यह अपनी संरचना और trial-and-error को अपेक्षाकृत खुलकर बताता है।
pretraining चरण में एकीकृत डिज़ाइन: long context, Sparse Attention, और FP4 quantization को post-processing नहीं बल्कि pretraining में ही समाहित करना इसकी खास बात है।
hardware diversification: NVIDIA chips के साथ Huawei chips के समानांतर उपयोग की बात कहकर यह संकेत देता है कि चीन के भीतर semiconductor alternatives जगह बना रहे हैं।

उद्योग के नज़रिये से महत्व

Chinese frontier labs का बदलता परिदृश्य: DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3, और Xiaomi MiMo सहित लगभग पाँच teams एक साथ अग्रिम पंक्ति में उभरी हैं, और pretraining के संदर्भ में US के बराबर या कुछ मामलों में आगे निकलने की राय सामने आ रही है।
post-training अगला battlefield: ऐसा लगता है कि जल्द ही pretraining के बराबर compute post-training में लगाया जाएगा, और यहीं का अंतर अगली पीढ़ी की प्रतिस्पर्धा तय कर सकता है।
model updates का सामान्य हो जाना: GPT-5.5, Claude Mythos, Spud, और DeepSeek-V4 ने लगभग एक ही समय में अपने base models बदले हैं, जिससे यह रुझान दिख रहा है कि model updates, Chrome browser updates की तरह सामान्य और कम संवेदनशील महसूस होने लगेंगे।

इस बार का DeepSeek-V4 केवल एक single model के performance metrics से अधिक, इस बात का रिकॉर्ड है कि एक team ने 1 साल तक किन कठिन समस्याओं का सामना किया और उन्हें कैसे सीधे हल करने की कोशिश की। Sparse Attention को pretraining चरण से ही साथ लेकर चलने का प्रयास, 1.6T स्केल पर long context लागत को single-digit अनुपात तक लाने वाला infrastructure work, और training instability से जूझते हुए अपनाए गए non-standard उपाय — ये सब आगे आने वाले Chinese frontier models के लिए नया base बन सकते हैं। साथ ही post-training और data में बची चुनौतियाँ अभी भी साफ़ दिखती हैं, इसलिए 4.1 और 4.2 इन अंतरालों को कितना कम कर पाएँगे, यह अगले quarter का अहम देखने लायक बिंदु होगा।

3 टिप्पणियां

junghwanlee 23 시간 전

Noh Seong-hun जी→ Kim Seong-hyeon जी हैं

xguru 23 시간 전

मैंने इसे संशोधित कर दिया है।

ragingwind 23 시간 전

धन्यवाद। इसे संशोधित किया जाना चाहिए।

DeepSeek-V4 पेपर रीडिंग सारांश - Noh Jung-seok

संबंधित पढ़ाई

3 टिप्पणियां