10 पॉइंट द्वारा GN⁺ 2026-04-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 1M टोकन context को सपोर्ट करने वाला Mixture-of-Experts(MoE) आधारित बड़े पैमाने का language model, जिसे Pro(1.6T parameters) और Flash(284B parameters) दो versions में जारी किया गया है
  • Compressed Sparse Attention(CSA) और Heavily Compressed Attention(HCA) को जोड़ने वाली hybrid attention architecture, जो 10 लाख टोकन के आधार पर DeepSeek-V3.2 की तुलना में inference FLOPs का 27% और KV cache का सिर्फ 10% इस्तेमाल करती है
  • 32T से अधिक tokens पर pretraining के बाद, domain-specific experts को स्वतंत्र रूप से train करके फिर on-policy distillation के जरिए एक single model में integrate करने वाली 2-stage post-training pipeline लागू
  • DeepSeek-V4-Pro-Max ने LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206 जैसे coding benchmarks में open source में सर्वोच्च प्रदर्शन हासिल किया
  • Non-Think, Think High, Think Max तीन inference modes को सपोर्ट करता है, जिससे रोज़मर्रा के कामों से लेकर सबसे कठिन reasoning तक उपयोग के अनुसार चयन संभव है

मॉडल अवलोकन और architecture

  • DeepSeek-V4 series में DeepSeek-V4-Pro(कुल 1.6T parameters, 49B active) और DeepSeek-V4-Flash(कुल 284B parameters, 13B active) दो models शामिल हैं
  • दोनों models 10 लाख टोकन context length को सपोर्ट करते हैं
  • तीन प्रमुख architecture और optimization upgrades:
    • Hybrid Attention Architecture: CSA और HCA को मिलाकर long context efficiency में बड़ा सुधार, 10 लाख टोकन के आधार पर DeepSeek-V3.2 की तुलना में single-token inference FLOPs 27% और KV cache 10% तक घटे
    • Manifold-Constrained Hyper-Connections(mHC): मौजूदा residual connections को मजबूत करके layers के बीच signal propagation की स्थिरता और model expressiveness दोनों सुनिश्चित
    • Muon Optimizer: तेज़ convergence और अधिक training stability प्रदान करता है

training और post-training pipeline

  • 32T से अधिक विविध और उच्च-गुणवत्ता वाले tokens के साथ pretraining किया गया
  • post-training में 2-stage paradigm लागू किया गया:
    • चरण 1: SFT और RL(GRPO के उपयोग के साथ) के जरिए domain-specific experts को स्वतंत्र रूप से train किया गया
    • चरण 2: on-policy distillation के जरिए विभिन्न domains की विशेषज्ञता को एक single model में integrate किया गया

inference modes

  • DeepSeek-V4-Pro और DeepSeek-V4-Flash दोनों तीन inference modes को सपोर्ट करते हैं:
    • Non-Think: तेज़ और सहज responses, रोज़मर्रा के काम या कम-जोखिम वाले निर्णयों के लिए उपयुक्त
    • Think High: सोच-समझकर किया गया logical analysis, जटिल समस्या-समाधान या planning के लिए उपयुक्त
    • Think Max: reasoning क्षमता की सीमा तक विस्तार, model reasoning boundaries को explore करने के लिए

benchmark प्रदर्शन — Base model

  • DeepSeek-V4-Pro-Base ने अधिकांश benchmarks में V3.2-Base और V4-Flash-Base को पीछे छोड़ा:
    • MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
    • MMLU-Pro: 73.5 (V3.2-Base 65.5)
    • Simple-QA Verified: 55.2 (V3.2-Base 28.3)
    • FACTS Parametric: 62.6 (V3.2-Base 27.1)
    • HumanEval: 76.8 (V3.2-Base 62.8)
    • LongBench-V2: 51.5 (V3.2-Base 40.2)
  • V4-Flash-Base ने सिर्फ 13B active parameters के साथ V3.2-Base(37B active) के बराबर या कुछ benchmarks में उससे बेहतर efficiency दिखाई

benchmark प्रदर्शन — Instruct model (V4-Pro-Max vs frontier models)

  • coding benchmarks में खास बढ़त:
    • LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
    • Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
    • Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
  • knowledge और reasoning क्षेत्र:
    • SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4 के साथ अधिकांश models से आगे, लेकिन Gemini-3.1-Pro High(75.6, 85.9) से पीछे
    • GPQA Diamond 90.1, MMLU-Pro 87.5
  • agent tasks:
    • SWE Verified 80.6, MCPAtlas Public 73.6 आदि में शीर्ष स्तर का प्रदर्शन
    • Terminal Bench 2.0(67.9) और HLE w/ tools(48.2) में कुछ closed-source models से पीछे
  • V4-Flash-Max को बड़ा thinking budget देने पर उसने Pro version के करीब reasoning performance हासिल की, हालांकि pure knowledge tasks और जटिल agent workflows में parameters के पैमाने के अंतर के कारण थोड़ा पीछे रहा

mode के अनुसार प्रदर्शन तुलना

  • सभी benchmarks में V4-Pro Max ने सर्वोच्च प्रदर्शन दर्ज किया
  • Non-Think → Think High → Think Max के साथ प्रदर्शन में लगातार वृद्धि का पैटर्न:
    • उदाहरण: GPQA Diamond में V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
    • उदाहरण: LiveCodeBench में V4-Flash Non-Think 55.2 → Max 91.6
  • V4-Flash Max ने कई benchmarks में V4-Pro High के समान या उससे बेहतर प्रदर्शन दिया

model download और precision

  • चार models उपलब्ध: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
  • Base models में FP8 Mixed precision, और Instruct models में FP4 + FP8 Mixed precision का उपयोग
    • MoE expert parameters FP4 में, बाकी अधिकांश FP8 में
  • HuggingFace और ModelScope से डाउनलोड किया जा सकता है

chat template और local execution

  • Jinja format chat template शामिल नहीं है; इसके बजाय encoding फ़ोल्डर में OpenAI-compatible format के message encoding/parsing के लिए Python scripts और test cases दिए गए हैं
  • local deployment के लिए recommended sampling parameters: temperature 1.0, top_p 1.0
  • Think Max mode में कम से कम 384K tokens की context window की recommendation

license

  • model weights और repository दोनों पर MIT License लागू है

1 टिप्पणियां

 
GN⁺ 2026-04-24
Hacker News की राय
  • v4 pro जैसे बड़े मॉडल की कीमत 10 लाख टोकन आउटपुट पर लगभग 4 डॉलर है, लेकिन यह बात सच है या नहीं कि "फ्रंटियर लैब्स inference पर पागलों की तरह subsidy देकर इसे चला रही हैं", इस पर मुझे यक़ीन नहीं है
    subscription से भी काफ़ी मुनाफ़ा हो सकता है, और API pricing की तो बात ही अलग है
    OpenRouter के हिसाब से input $1.74/M और output $3.48/M है

    • यह भी कहा जा रहा है कि अभी DeepSeek के inference cards की कमी की वजह से कीमत ज़्यादा है
      प्रेस रिलीज़ में कहा गया है कि इस साल की दूसरी छमाही में Ascend 950 computing cards आने के बाद Pro की कीमत काफ़ी घट जाएगी
    • operating cost के हिसाब से यह मुनाफ़े में हो सकता है, लेकिन अभी depreciation schedule को शामिल करने वाले capital cost के हिसाब से शायद नहीं
      हालांकि हाल में उन लागत अनुमानों के भी उम्मीद से ज़्यादा बढ़ने की बात हो रही है
    • मैं भी इसे लगभग ऐसे ही देखता हूँ
      subscription service पहले से ही मुनाफ़े में है, और subsidy वाली बात आख़िरकार enterprise customer API से ज़्यादा margin निकालने की दलील जैसी लगती है
    • बात सही है, लेकिन अभी भी उस pricing level पर कोई पश्चिमी provider नहीं है
      चीन में बिजली की लागत भी कम है
  • चमकदार प्रेस रिलीज़ से पहले developer docs आ जाना अजीब तरह से अच्छा लगा

    • सही बात, सच में this is the way
    • अगर इसे open source कहना है, तो training data और training scripts कहाँ हैं?
      बाद में सुधार देखा तो लगता है ऊपर वाली टिप्पणी से "open source" वाला शब्द हट गया है
  • यह तो पहले ही OpenRouter पर आ चुका है
    Pro की कीमत input $1.74/m, output $3.48/m है, और Flash की input $0.14/m, output $0.28/m है

  • चीन से सच में open source आना अच्छा लग रहा है
    मुझे पता है कि इसके पीछे कोई छिपा हुआ मकसद हो सकता है, फिर भी दिल उस ओर जाता है

    • अमेरिकी कंपनियाँ मॉडल access के पैसे लेने के बाद भी ज़रूरत से ज़्यादा identity verification माँगती हैं, डेटा को store, analyze और training में इस्तेमाल करती हैं, और ज़रूरत पड़ने पर authorities को सौंप देने की बात भी खुलकर कहती हैं
      चीन के hidden motives एक अनुमान हैं, लेकिन अमेरिकी पक्ष की बातें तो खुलकर सामने हैं
    • चीनी लैब्स मॉडल क्यों जारी करती हैं, इसे समझने में यह लेख मददगार है
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • यह सिर्फ open weights है
  • 1.6T Pro base model को Hugging Face पर डाल दिया गया है
    यहाँ T-स्तर के मॉडल की notation मैं पहली बार देख रहा हूँ

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    मॉडल जारी हो गया है और काफ़ी प्रभावशाली लग रहा है
    frontier-स्तर का performance है, लेकिन लागत बहुत कम है, और मुझे यह Opus 4.6 से बेहतर लगा

    • अब क्या मॉडल की तुलना Opus से करने की ज़रूरत भी है?
      Opus उपयोगकर्ता तो वैसे भी मानते रहेंगे कि वही सबसे अच्छा है, और जो उपयोगकर्ता नहीं हैं वे उसकी लागत, lock-in और सीमाएँ नहीं चाहते
      मेरे जैसे non-user अब भी वही सबसे सस्ता और तेज़ मॉडल इस्तेमाल करते हैं जो काम पूरा कर दे, और अभी वह भूमिका MiniMax M2.5 निभा रहा है
      कभी-कभी ज़्यादा महँगे नए मॉडल भी आज़मा लेता हूँ, लेकिन नतीजे लगभग वही होते हैं, इसलिए लगता है कहीं AI industry की पूरी hype ही ऐसी तो नहीं जो बस benchmarks में ही प्रगति दिखाती है
    • यह Opus 4.7 की तुलना में कैसा है, जानना चाहूँगा
      इस पूरे हफ्ते Anthropic Opus 4.7 hackathon में भाग लेते हुए 4.7 को काफ़ी इस्तेमाल किया, और हालांकि यह 4.6 से बहुत ज़्यादा tokens खाता है, फिर भी काफ़ी प्रभावशाली था
    • क्या यह सच में Opus 4.6 से बेहतर है, या बस benchmark optimization ही अच्छा है, यह जानने की जिज्ञासा है
      क्या किसी ने agent harness के साथ असली coding भी करके देखी है?
      अगर coding क्षमता Claude Code + Opus 4.6 से बेहतर हो, तो मैं तुरंत बदलने को तैयार हूँ
    • फिर वही शुरू हो गया
      हर दिन Opus 4.6 से बेहतर होने का दावा करने वाली लॉन्च पोस्ट आती रहती हैं, जबकि खुद deepseek भी thinking को शामिल करने पर opus से बेहतर होने का दावा नहीं कर रहा
      Dsv3 benchmark inflate करने वाला मॉडल नहीं था, और benchmark के बाहर के कामों में भी काफ़ी स्थिर था; SoTA तक नहीं पहुँचता था, लेकिन ठीक-ठाक था
      यह मॉडल भी वैसा ही लगता है
      टॉप performance से बस थोड़ा नीचे है, लेकिन फ़र्क बड़ा नहीं और कीमत बहुत कम है
      बड़ा मॉडल इस समय ds खुद $1.74 in / $3.48 out / $0.14 cache पर serve कर रहा है, इसलिए value के हिसाब से काफ़ी सस्ता है
      छोटा मॉडल $0.14 in / $0.28 out / $0.028 cache पर है, इसलिए वह लगभग इतना सस्ता है कि उस पर ध्यान देने की ज़रूरत ही नहीं और घर पर चलाने के लिए व्यावहारिक उम्मीदवार हो सकता है
      अगर performance ठीक निकला तो यह haiku या gemini-flash सीरीज़ से अच्छी टक्कर ले सकता है
    • सार्वजनिक benchmark numbers से मोटा हिसाब लगाया तो, जिन 20 metrics पर दोनों के scores हैं, वहाँ कुल 20.1 percentage points का फ़र्क निकलता है
      औसत improvement लगभग 2% बनती है, और सच कहूँ तो समझ नहीं आता कि इसे बहुत बड़ा मानें या मामूली
      Claude 4.6 लंबे context वाले question answering में, खासकर CorpusQA के corpuses और MRCR की multi-round बातचीत में, लगभग 10pp बेहतर था
      दूसरी ओर DSv4, IMOAnswerBench में पूरे 14pp और SimpleQA-Verified में 12pp आगे था
  • weights यहाँ से डाउनलोड किए जा सकते हैं
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • मुझे इस क्षेत्र में गहरी दिलचस्पी भी है और मेरा बहुत कुछ इससे जुड़ा भी है, लेकिन सच कहूँ तो अब सब कुछ track करने की कोशिश करते-करते burnout होने लगा है
    AI की प्रगति के साथ बने रहने के लिए अब तो ऐसा लगता है कि AI को ही AI की प्रगति का सारांश देना चाहिए, और हम उस बिंदु से भी काफ़ी आगे निकल चुके हैं

    • सब कुछ track करने की कोशिश न करना ही बेहतर है
      यह ख़बरों जैसा है; जब सच में कुछ जानने लायक होगा, कोई न कोई पहले बता ही देगा
    • मुख्य खिलाड़ी लगभग वही रहते हैं
      इसे खेल की तरह follow किया जा सकता है, और अगर शीर्ष स्थान बदलते रहने की बात स्वीकार कर लो, तो यह इतना थकाने वाला नहीं लगता
    • महसूस यही होता है कि GPT-4 के बाद सब कुछ काफ़ी एक जैसा है
      नया मॉडल आए तो बस कुछ benchmarks बेहतर होने की बात होती है, लेकिन वास्तव में इस्तेमाल करने का व्यक्तिपरक अनुभव लगभग वैसा ही रहता है
      उसके बाद से सच में चौंका देने वाली चीज़ें कम ही आई हैं, और अब ऐसा भी लगता है कि यह रुचि सिर्फ बहुत उत्साही लोगों तक सीमित होकर ठहर गई है
  • High Flyer ने इसे बनाने के लिए Anthropic की खुली नकल की, इससे भी ज़्यादा परेशान करने वाली बात यह है कि GAB ने उसके भीतर xz-स्तर के easter eggs के दर्जनों टुकड़े डालने लायक समय दे दिया

  • अभी OpenRouter के ज़रिए Pi Coding agent में टेस्ट किया, और कई बार यह read और write tools का सही इस्तेमाल नहीं कर पा रहा
    काफ़ी निराशाजनक है, और सोच रहा हूँ कि "direct calls का इस्तेमाल मत करो, हमेशा दिए गए tools ही इस्तेमाल करो" जैसे prompts के अलावा कोई बेहतर समाधान है या नहीं

    • अभी आए ज़्यादा समय नहीं हुआ, इसलिए थोड़ा इंतज़ार करना बेहतर होगा
      संभव है कि Pi के साथ pre-testing अभी पर्याप्त न हुई हो