DeepSeek V4 – frontier के काफ़ी करीब, और कीमत कहीं ज़्यादा कम
(simonwillison.net)- DeepSeek ने V4 सीरीज़ के पहले मॉडल के रूप में DeepSeek-V4-Pro और DeepSeek-V4-Flash प्रीव्यू मॉडल जारी किए हैं। दोनों मॉडल 10 लाख token context को सपोर्ट करने वाले Mixture of Experts मॉडल हैं और MIT लाइसेंस के तहत उपलब्ध हैं
- DeepSeek-V4-Pro कुल 1.6T parameters और 49B active parameters वाला मॉडल है, और Kimi K2.6, GLM-5.1, DeepSeek V3.2 से बड़ा अधिकतम open weight मॉडल है
- DeepSeek V4 की सबसे बड़ी खासियत इसकी कीमत है: Flash की कीमत 10 लाख input tokens पर $0.14 और output पर $0.28 है, जबकि Pro की कीमत input $1.74 और output $3.48 है, जो तुलना किए गए छोटे और बड़े मॉडलों से कम है
- कम कीमत का संबंध long context efficiency से है। 10 लाख token context पर Pro, DeepSeek-V3.2 की तुलना में single-token FLOPs 27% और KV cache 10% तक घटाता है, जबकि Flash में FLOPs 10% और KV cache 7% तक कम हो जाते हैं
- अपने benchmark में DeepSeek-V4-Pro frontier मॉडल्स से मुकाबला कर सकता है, लेकिन GPT-5.4 और Gemini-3.1-Pro से थोड़ा नीचे है, और अत्याधुनिक frontier मॉडल्स की तुलना में विकास trajectory में लगभग 3~6 महीने पीछे दिखता है
मॉडल रिलीज़ और बुनियादी स्पेसिफिकेशन
- DeepSeek ने 2025 के दिसंबर में V3.2 और V3.2 Speciale के बाद V4 सीरीज़ के पहले मॉडल के रूप में DeepSeek-V4-Pro और DeepSeek-V4-Flash नाम के 2 प्रीव्यू मॉडल जारी किए
- दोनों मॉडल 10 लाख token context को सपोर्ट करने वाले Mixture of Experts मॉडल हैं, और standard MIT लाइसेंस का उपयोग करते हैं
- DeepSeek-V4-Pro कुल 1.6T parameters और 49B active parameters वाला मॉडल है, जबकि DeepSeek-V4-Flash कुल 284B parameters और 13B active parameters वाला मॉडल है
- DeepSeek-V4-Pro, Kimi K2.6 के 1.1T, GLM-5.1 के 754B, और DeepSeek V3.2 के 685B से बड़ा है, इसलिए यह नया सबसे बड़ा open weight मॉडल लगता है
- Hugging Face के अनुसार मॉडल साइज़ Pro के लिए 865GB और Flash के लिए 160GB है, और उम्मीद है कि हल्के quantization वाला Flash 128GB M5 MacBook Pro पर चल सकता है
- अगर Pro मॉडल में ज़रूरी active experts को केवल disk से stream किया जा सके, तो उसके भी उसी मशीन पर चलने की संभावना है
-
OpenRouter के ज़रिए एक आसान टेस्ट
- OpenRouter और llm-openrouter का उपयोग करके नीचे दिए गए कमांड से मॉडल को कॉल किया गया
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - जनरेट किए गए परिणाम के रूप में DeepSeek-V4-Flash का pelican SVG और DeepSeek-V4-Pro का pelican SVG साझा किया गया
- तुलना के लिए दिसंबर 2025 का DeepSeek V3.2, अगस्त 2025 का V3.1, और मार्च 2025 का V3-0324 के उसी prompt के परिणाम भी साथ दिखाए गए
कीमत, efficiency, और performance की स्थिति
- DeepSeek V4 में सबसे उभरकर दिखने वाली चीज़ कीमत है। DeepSeek pricing page के अनुसार Flash की कीमत 10 लाख input tokens पर $0.14 और 10 लाख output tokens पर $0.28 है
- Pro की कीमत 10 लाख input tokens पर $1.74 और 10 लाख output tokens पर $3.48 रखी गई है
- तुलना तालिका में DeepSeek V4 Flash, GPT-5.4 Nano के input $0.20·output $1.25 और Gemini 3.1 Flash-Lite के input $0.25·output $1.50 से भी कम है, इसलिए यह छोटे मॉडलों में सबसे सस्ता है
- DeepSeek V4 Pro, Gemini 3.1 Pro के input $2·output $12, GPT-5.4 के input $2.50·output $15, Claude Sonnet 4.6 के input $3·output $15, Claude Opus 4.7 के input $5·output $25, और GPT-5.5 के input $5·output $30 से कम है, इसलिए यह बड़े frontier मॉडल्स में सबसे सस्ता है
-
efficiency कम कीमत को support करती है
- DeepSeek paper में कहा गया है कि इस रिलीज़ में long context prompt efficiency पर बहुत ज़्यादा फोकस किया गया है
- 10 लाख token context पर DeepSeek-V4-Pro, DeepSeek-V3.2 की तुलना में single-token FLOPs को 27% और KV cache size को 10% तक सीमित रखता है
- इसी स्थिति में DeepSeek-V4-Flash, DeepSeek-V3.2 की तुलना में single-token FLOPs को 10% और KV cache size को 7% तक घटा देता है
-
benchmark में frontier के करीब, लेकिन सबसे ऊपर नहीं
- DeepSeek के self-reported benchmark दिखाते हैं कि Pro मॉडल दूसरे frontier मॉडल्स से मुकाबला कर सकता है
- paper के अनुसार inference token scaling लागू किया गया DeepSeek-V4-Pro-Max, standard reasoning benchmark में GPT-5.2 और Gemini-3.0-Pro से बेहतर performance दिखाता है
- हालांकि यह GPT-5.4 और Gemini-3.1-Pro से थोड़ा नीचे है, और अत्याधुनिक frontier मॉडल्स की तुलना में development trajectory में लगभग 3~6 महीने पीछे दिखता है
- huggingface.co/unsloth/models पर Unsloth के quantized version जारी होने की उम्मीद है, और यह देखना बाकी है कि Flash मॉडल लोकल मशीन पर कितना अच्छा चलता है
2 टिप्पणियां
फिलहाल वाकई इतना सस्ता होना अच्छी बात है, लेकिन समस्या यह है कि यह बहुत धीमा है.... जो काम codex को 5 मिनट लगेंगे, यह उस पर 20 मिनट सोचता है। इसलिए मैं इसे implementation के लिए इस्तेमाल करने के बजाय code review के लिए इस्तेमाल कर रहा हूँ, और code review यह काफ़ी अच्छी तरह करता है, इसलिए संतुष्ट हूँ
Hacker News की राय
मेरे लिए सबसे बड़ा फ़र्क यह है कि DeepSeek बस वही करता है जो उससे कहा जाता है। हाल में मैंने reverse engineering के लिए GPT और Claude दोनों का इस्तेमाल किया, लेकिन दोनों ने मना कर दिया, और OpenAI अकाउंट पर तो मुझे चेतावनी भी मिली
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
मुझे बहुत गुस्सा आया, और वह पुराने SpongeBob के Patrick meme जैसा लगा। समझ नहीं आता कि मॉडल को law enforcement officer क्यों बनाना चाहते हैं। जो चीज़ गैरकानूनी है, वह वैसे भी गैरकानूनी ही रहती है, और अपराध से निपटने के लिए विशेषज्ञ मौजूद हैं। Google को सच और न्याय का निर्णायक बनने की ज़रूरत नहीं है। law enforcement agencies से जवाबदेही लेना पहले ही मुश्किल है, कम से कम वे हमारे लिए काम तो करते हैं
डेवलपर साथियों, हमने कैसी दुनिया बना दी है? यह पागलपन है। सोचिए अगर हथौड़ा कहे, “मुझे screw पर मत इस्तेमाल करो, सिर्फ nail पर करो। फिर ऐसा किया तो मैं खुद को नष्ट कर दूँगा।” काश हम ऐसा software बनाना बंद करें
सोचिए, OpenAI अगर 20 कंपनियाँ खरीद ले और फिर आपने कभी पहले कोई धुंधली-सी लाइन पार की थी, इस वजह से आप Figma, Next जैसी चीज़ें इस्तेमाल ही न कर सकें। सिर्फ OpenAI नहीं, पूरा ecosystem ही बहुत unreadable है
मैंने Gemini से Catch-22 के एक quote के बारे में पूछा था, उसमें न हिंसक सामग्री थी न sexual, फिर भी वह streaming के बीच-बीच में रुककर कहता रहा कि वह यह नहीं बता सकता। किताब में ऐसी सामग्री है, लेकिन सिर्फ उसी वजह से पूरा workspace अकाउंट penalize हो सकता है—यह ख़याल आता है
आदर्श रूप से भविष्य local होना चाहिए, यह मैं जानता हूँ, लेकिन अगले कुछ सालों में वास्तविक लागत और बिजली की खपत देखते हुए यह ज़्यादातर लोगों के लिए कितना realistic है, पता नहीं। अगर आप उस ecosystem में हैं तो M* processor शायद एक अपवाद हो सकता है
DeepSeek v4 Pro स्वभाव में Claude Opus 4.6 जैसा लगा, और लागत के मामले में प्रभावशाली था
मैंने एक काफ़ी बड़े TypeScript codebase में सिर्फ एक single endpoint पर ध्यान देकर API, DTO, service और database model को हर layer में गहराई से देखने, जुड़े हुए types को पूरी तरह समझने, और कोई अस्थायी type न बनने देने को कहा
उसने जो types introduce हुए और उनमें से कौन से return होते हैं आदि का बहुत छोटा लेकिन सटीक सारांश दिया, और फिर मैंने उससे पूरा ढाँचा सरल करने को कहा
दोनों prompts में उसने बहुत सारी files देखी होंगी, लेकिन Pro version की कुल लागत $0.09 थी। Claude Opus में, price increase से पहले के अनुभव के हिसाब से भी, सिर्फ इन दो prompts में आसानी से $9~$13 लग जाते, और फ़ायदा शायद इतना नहीं होता
संदर्भ के लिए, मैंने OpenRouter नहीं बल्कि DeepSeek API सीधे इस्तेमाल किया, क्योंकि OpenRouter खुद DeepSeek की तरफ से rate-limited था
इसलिए मैंने tree-sitter से code को graph की तरह parse करके Prolog-based MCP बनाया, ताकि मॉडल “इस function से जुड़े सभी functions कौन-कौन से हैं?” जैसे सवाल पूछ सके। किसी खास endpoint का काम समझने के लिए पूरे call subgraph को trivial और predictable तरीके से trace किया जा सकता है
https://github.com/yogthos/chiasmus
इसी संदर्भ में, 128GB MacBook पर DeepSeek v4 Flash चलाने का एक live demo है। वीडियो इटालियन में है और अंग्रेज़ी subtitles हैं
https://www.youtube.com/watch?v=todMmp6AGCE
मैंने इसे vscode copilot से जोड़कर flash और pro दोनों इस्तेमाल किए। छोटे proof of concept के लिए flash काफ़ी था, काफ़ी तेज़ था, और सच में बहुत सस्ता भी
यह कुछ बार अटक गया, शायद latency issue रहा हो, लेकिन नतीजे फिर भी अच्छे थे। pro को मैंने भारी कामों और planning वगैरह के लिए इस्तेमाल किया, और उसने शानदार काम किया
एक छोटे proof of concept पर मैंने लगभग 10 cent खर्च किए, और उसने बिल्कुल वैसा ही काम किया जैसा prompt किया था। मेरे लिए यह इस महीने के अंत में GitHub Copilot बंद करने के बाद का असली विकल्प है
लागत frontier मॉडलों से कम है, लेकिन DS4 Pro और K2.6 को दिखने जितना सस्ता न बनने देने वाली दो बातें हैं
DS4 Pro पर official API में discount लागू है, और चर्चा में इसे अक्सर नज़रअंदाज़ या गड़बड़ कर दिया जाता है। Simon ने तुलना में list price इस्तेमाल की थी, इसलिए यहाँ वह समस्या नहीं है
दूसरी समस्या यह है कि DS4 Pro और K2.6 अक्सर frontier मॉडलों की तुलना में reasoning tokens बहुत ज़्यादा खर्च करते हैं। मेरे tests में कुछ pathological cases में उन्होंने इतने ज़्यादा tokens खर्च किए कि request cost frontier मॉडल के बराबर पहुँच सकती थी। निष्पक्षता से कहूँ तो, मैं DS और Kimi को third-party provider के जरिए इस्तेमाल कर रहा था, तो हो सकता है यह उनकी settings की समस्या हो
लेकिन Artificial Analysis model pages देखें तो intelligence benchmark में DSv4 Pro ने 190M tokens, K2.6 ने 170M tokens खर्च किए, जबकि GPT 5.5 high ने सिर्फ 45M
“Intelligence vs. Cost to Run Artificial Analysis Intelligence Index” में UI पर “Intelligence vs Cost” देखने की सलाह दूँगा। open source मॉडल अभी भी सस्ते हैं, लेकिन केवल token price देखकर जितनी उम्मीद बनती है उतने नहीं
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
इसमें long-context efficiency और attention बेहतर करने के लिए काफ़ी नया तरीका HCA और mCH लाया गया है। v3.2 की तुलना में reasoning के लिए सिर्फ 27% FLOP और KV cache के लिए सिर्फ 10% चाहिए। यानी समान compute resource पर 3 गुना से भी ज़्यादा serving की जा सकती है, और पुराने KV cache का सिर्फ 30% चाहिए
ऊपर से यह release अभी PREVIEW है। DeepSeek सच में एक open research lab है, और हर release में बहुत कुछ बनाकर न सिर्फ जारी करता है बल्कि खुलकर साझा भी करता है। मैं इसे local पर चला रहा हूँ
कितना “सस्ता” है, यह बताऊँ तो v3.2 में 256k context पर GPU memory कम पड़ जाती थी और system memory में spill हो जाता था, फिर भी लगभग 7 हज़ार token प्रति सेकंड मिल रहे थे, जो मुझे ठीक लगे। इस बार पूरा 1 million token context 100% GPU memory के भीतर आ जाता है, 2x से ज़्यादा तेज़ चलता है, और परिणाम भी बेहतर हैं
यह सच में सस्ता है। Moonshot ने साफ़ किया है कि उनके पास GPU की कमी है, इसलिए ऐसा है। अगर अमेरिका जैसी GPU capacity होती और यहाँ की तरह मॉडल को subsidize किया गया होता, तो वे इसे मुफ़्त बाँट देते
पहले जब मैंने Opus 4.6 के साथ यही कोशिश की थी, तो पहले prompt से लौटने से पहले ही मेरा लगाया हुआ $10 budget जल चुका था
मान लें कि कीमतें भारी discount वाली थीं, तब भी पूरी समस्या के हल पर सिर्फ single-digit dollars लगे होते, जबकि Opus में कुछ हासिल किए बिना double-digit dollars लग जाते
V4 हमारे multilingual benchmark में V3.2 से साफ़ तौर पर एक स्तर ऊपर गया है
हालांकि दो सावधानियाँ हैं। OpenRouter के जरिए inference करते समय speed (TPS) बहुत धीमी थी और कभी-कभी stability की समस्या भी बहुत थी। अभी भी जाँचूँ तो सभी available providers पर 10~30 TPS दिख रहा है, जो DeepSeek जैसे ज़्यादा सोचने वाले मॉडल के लिए ऊँचा नहीं है
official DeepSeek API paid users को भी data privacy guarantee नहीं देता
Azure AI Foundry के जरिए इस्तेमाल करें तो दोनों समस्याएँ शायद न रहें। दूसरी वाली के बारे में मेरी जानकारी में ऐसा है, हालांकि मैंने अभी test नहीं किया
फिर भी, latest top-tier models से कुछ हद तक प्रतिस्पर्धा करने वाले open weight models और आना अच्छा है
DeepSeek official API में, अगर उसी codebase पर लंबे sessions में लगातार इस्तेमाल करें, तो cache hit rate 99%+ तक मिलती है, इसलिए यह frontier मॉडलों से बहुत सस्ता पड़ता है। claude code में 200M token session का एक उदाहरण है
यह हैरान करने वाला है कि लोग, खासकर जब वे मॉडल डेवलपर की API सीधे इस्तेमाल कर रहे हों, इस बात की बिल्कुल परवाह नहीं करते कि ऐसे मॉडल आपके डेटा पर सार्वजनिक रूप से train करते हैं
“GitHub अब सबके code को model training के लिए auto opt-in कर रहा है” जैसी चीज़ों पर सही तौर पर गुस्से से भरी सैकड़ों टिप्पणियाँ आ जाती हैं, लेकिन OpenRouter के जरिए Chinese मॉडल इस्तेमाल करने की बात हो तो यह मुद्दा लगभग उठता ही नहीं। इसे “अलग लोग हैं” कहकर समझाया जा सकता है, लेकिन फर्क इतना तीखा है कि सिर्फ वही वजह हो, यह मानना मुश्किल है
यह open weight का एक बड़ा फ़ायदा है। न चीन और न अमेरिका मेरा डेटा ले जाता है
subsidy circus खत्म होने के बाद भी, और जब सब कुछ pure usage-based पर चला जाए, तब भी उम्मीद बनती है कि जिन आम लोगों के पास हर महीने $200 budget नहीं है, उनके लिए यह पूरी तरह exclusionary नहीं होगा
पहली, हम लगातार यह खोज रहे हैं कि छोटे मॉडलों में ज़्यादा intelligence कैसे ठूँसी जाए, इसलिए समय के साथ वही hardware spec ज़्यादा model capability दे रही है
दूसरी, hardware लगातार बेहतर हो रहा है और supply demand के बराबर पहुँच रही है, इसलिए समय के साथ 1 डॉलर में खरीदी जा सकने वाली hardware spec भी बेहतर होती जाती है
उम्मीद है कि एक दिन हम आज के “provider API के जरिए AI access” मॉडल को वैसे ही देखेंगे जैसे आज हम उस दौर को देखते हैं जब “सब लोग कंपनी के mainframe से connect होते थे”
पिछले कुछ दिनों से मैं v4 pro इस्तेमाल कर रहा हूँ, और quality के मामले में यह कुल मिलाकर OpenAI 5.4 या Opus 4.6 जैसा लगता है। 4.7 मैंने नहीं आज़माया
साफ़ कर दूँ, मैं कोई cutting-edge काम नहीं कर रहा। इसे ज़्यादातर frontend development के लिए इस्तेमाल किया, और मैं उस क्षेत्र में बहुत अच्छा नहीं हूँ, इसलिए मुझे बस plausible prototypes चाहिए थे
मेरे काम के लिए यह पूरी तरह ठीक मॉडल है और कीमत भी उचित है। बस मैं सच में ऐसे छोटे open models का इंतज़ार कर रहा हूँ जिन्हें local पर चलाया जा सके। किसी और की मशीन पर निर्भर रहना, और उस प्रक्रिया में मेरा सारा डेटा बाहर चला जाना, मुझे पसंद नहीं
संदर्भ के लिए, मैं इसका cofounder हूँ। यह तरीका model को security enclave के अंदर चलाता है, और verify करता है कि enclave के अंदर चल रहा open source code runtime attestation से मेल खाता है। इसमें NVIDIA confidential computing इस्तेमाल होती है
docs में verification process समझाया गया है: https://docs.tinfoil.sh/verification/verification-in-tinfoil