- DeepSeek-V4-Pro API की कीमत 75% डिस्काउंट प्रमोशन खत्म होने के बाद भी आधिकारिक रूप से पुरानी कीमत के 1/4 स्तर पर बनी रहेगी
- बिलिंग 10 लाख tokens की कीमत के आधार पर होती है, और input tokens तथा output tokens के उपयोग के अनुसार बैलेंस से सीधे कटौती होती है
- सपोर्टेड मॉडल DeepSeek-V4-Flash और DeepSeek-V4-Pro हैं, और दोनों non-thinking mode तथा thinking mode को सपोर्ट करते हैं; डिफ़ॉल्ट thinking mode है
- दोनों मॉडलों की context length 1M है, अधिकतम output 384K है, जबकि concurrency limit Flash के लिए 2500 और Pro के लिए 500 है
- सभी मॉडलों के input cache hit price को लॉन्च कीमत के 1/10 तक घटा दिया गया है, और यह बदलाव 2026 April 26 12:15 UTC से लागू है
बिलिंग मानदंड
- प्राइस यूनिट 10 लाख tokens पर शुल्क है, और token वह सबसे छोटी text unit है जिसे मॉडल पहचानता है; यह शब्द, संख्या या विराम चिह्न हो सकता है
- बिलिंग का आधार मॉडल के input tokens और output tokens की कुल मात्रा है
- लागत
token count × price से गणना होती है, और recharge balance या payout balance से सीधे काटी जाती है
- यदि recharge balance और payout balance दोनों मौजूद हों, तो payout balance पहले इस्तेमाल होता है
- प्रोडक्ट की कीमत बदल सकती है, और DeepSeek कीमत समायोजित करने का अधिकार सुरक्षित रखता है
- वास्तविक उपयोग के अनुसार recharge करना और नवीनतम कीमत के लिए इस पेज को नियमित रूप से देखना सुझाया जाता है
मॉडल और कीमतें
-
सपोर्टेड मॉडल
- DeepSeek-V4-Flash और DeepSeek-V4-Pro उपलब्ध हैं
- दोनों मॉडल non-thinking mode और thinking mode को सपोर्ट करते हैं, और डिफ़ॉल्ट thinking mode है
deepseek-chat और deepseek-reasoner मॉडल नाम भविष्य में deprecated किए जाएंगे
- compatibility के लिए
deepseek-chat, deepseek-v4-flash के non-thinking mode के अनुरूप है, और deepseek-reasoner, deepseek-v4-flash के thinking mode के अनुरूप है
-
एंडपॉइंट और फीचर्स
-
context और output limit
- context length 1M है
- maximum output 384K है
10 लाख tokens पर कीमत
| आइटम |
DeepSeek-V4-Flash |
DeepSeek-V4-Pro |
| input tokens, cache hit |
$0.0028 |
$0.003625 |
| input tokens, cache miss |
$0.14 |
$0.435 |
| output tokens |
$0.28 |
$0.87 |
| concurrency limit |
2500 |
500 |
-
DeepSeek-V4-Pro डिस्काउंट समायोजन
- DeepSeek-V4-Pro की कीमत 75% डिस्काउंट कीमत के रूप में दिखाई गई है
- cache hit input tokens की कीमत पहले के $0.0145 से घटकर $0.003625 हो गई है
- cache miss input tokens की कीमत पहले के $1.74 से घटकर $0.435 हो गई है
- output tokens की कीमत पहले के $3.48 से घटकर $0.87 हो गई है
- 75% डिस्काउंट प्रमोशन 2026 May 31 15:59 UTC पर खत्म होने के बाद भी DeepSeek-V4-Pro API की कीमत आधिकारिक रूप से पुरानी कीमत के 1/4 पर समायोजित की गई है
-
cache hit price में कटौती
- सभी मॉडलों के input cache hit price को लॉन्च कीमत के 1/10 तक घटा दिया गया है
- यह प्राइस एडजस्टमेंट 2026 April 26 12:15 UTC से लागू है
-
concurrency limit
- DeepSeek-V4-Flash की concurrency limit 2500 है
- DeepSeek-V4-Pro की concurrency limit 500 है
- concurrency limit का विस्तृत विवरण Rate Limit & Isolation में देखा जा सकता है
1 टिप्पणियां
Hacker News की राय
अगर ये अपना coding agent लॉन्च करते हैं, तो शायद मैं DeepSeek models को primary तौर पर इस्तेमाल करना शुरू कर दूँ
ऐसा लगता है कि ये लगातार “सही दिशा” वाली चीज़ें कर रहे हैं, जैसे models को open source करना, research publish करना, और low pricing बनाए रखना
Claude Code में V4 Pro इस्तेमाल किया जा सकता है 1
मैंने खुद इस्तेमाल किया है, काफ़ी प्रभावशाली लगा
OpenCode के साथ भी बहुत अच्छा काम करता है
हमारी team अक्सर दूसरे subscription service की 5-hour limit से टकरा जाती है, और DeepSeek को backup के रूप में रखना काफ़ी अच्छा है
मैंने सिर्फ $50 recharge किया था, और लगता है जैसे वो कभी ख़त्म ही नहीं होगा
अभी ये cutting-edge models को पूरी तरह replace करने लायक नहीं है, लेकिन backup के रूप में निश्चित रूप से शानदार है
मुझे नहीं लगता कि DeepSeek को ज़रूरी तौर पर coding agent भी देना चाहिए
बस model को किसी भी existing coding agent से जोड़कर इस्तेमाल किया जा सकता है
निजी तौर पर मुझे Pi पसंद है, लेकिन हर कोई जो उसके लिए सही हो वही इस्तेमाल करे
मैंने इस हफ़्ते की शुरुआत से अपने codebase में Chinese models को test करना शुरू किया है
अभी तक मैंने conversational coding से ज़्यादा issue classification, automatic bug fixing, log analysis वगैरह देखे हैं, और DeepSeek, Kimi, GLM, Qwen, MiMO की तुलना GPT-5.5 high से की है, सबको Pi harness में बिना install किए चलाया है
अभी तक Kimi और MiMO सबसे promising लग रहे हैं
मैंने अभी इतनी rigor के साथ test नहीं किया है, लेकिन पहली छाप यही है कि practical daily work में ये models शायद लोगों की सोच से उतने पीछे नहीं हैं
हाँ, ये “ज़्यादा smart काम” से ज़्यादा “ज़्यादा मेहनत” वाली तरफ़ लगते हैं, इसलिए similar result तक पहुँचने में ज़्यादा समय लेते हैं और ज़्यादा tokens इस्तेमाल करते हैं, लेकिन कीमत बहुत कम है
बेहतर होगा कि coding agents model providers से कुछ हद तक independent रहें
providers quality, features और pricing बहुत बार बदलते रहते हैं, इसलिए हर बार agent भी बदलना नहीं चाहूँगा
उम्मीद है कि हालात थोड़े धीमे होंगे और stable बनेंगे
मेरा मतलब ये नहीं कि अभी तुरंत ऐसा होना चाहिए, लेकिन अच्छा होगा अगर कभी ऐसा समय आए
अगर आपने अभी तक DeepSeek V4 इस्तेमाल नहीं किया है, तो आप बहुत कुछ मिस कर रहे हैं
इसकी price को देखते हुए ये यक़ीन से परे अच्छा है
DeepSeek की chain of thought पढ़ना सच में दिलचस्प है
OpenCode में ये नहीं दिखती, लेकिन अगर आप खुद पढ़ें तो हैरान हो सकते हैं कि इस model को कितना underrate किया गया है
मेरा model usage बहुत कम है, लेकिन models को open source करने के लिए आभार और इसे एक broader social good मानते हुए समर्थन दिखाने के लिए मैं DeepSeek को सीधे नियमित रूप से पैसे देता हूँ
ये अच्छा और सस्ता है, लेकिन अगर आप politics की बात करें तो censorship rules जैसी कोई चीज़ trigger हो सकती है
मैंने reasoning process देखी, और अचानक सब मिट गया और बिना किसी explanation के किसी दूसरे topic पर जाने का सुझाव दिया गया
एक बार इसने ऐसा generic message भी दिखाया कि news media को people की सेवा करनी चाहिए
दोनों ही cases में request न sensitive थी, न illegal, न regime-changing
लेकिन topic थोड़ा भी political था, और वही काफ़ी था
पश्चिमी censorship आमतौर पर ज़्यादा subtle होती है, इसलिए ये डरावना भी लगा और अजीब तरह से ताज़ा भी
सही बात है, model सच में बहुत अच्छा है
काम पर मैं Claude इस्तेमाल करता हूँ और निजी तौर पर DeepSeek, और यही एकमात्र model है जो मुझे actively bankrupt करने की कोशिश नहीं करता
कुछ specific tasks के लिए मुझे V4 Pro पसंद है, लेकिन coding में V4 Flash काफ़ी impressive लगा
concise है, point पर रहता है, mistakes कम करता है, और काफ़ी तेज़ है
opencode CLI में reasoning traces दिखते हैं
शायद settings की समस्या हो
opencode में reasoning display को on और off किया जा सकता है
ये pricing suspiciously सस्ती है
अगर यही model किसी दूसरे provider पर host हो, तो बहुत महँगा पड़ता है 0
इसलिए या तो DeepSeek दूसरों की तुलना में hosting बहुत सस्ती कर सकता है, या इसका business model अलग है, और मुझे दूसरा वाला ज़्यादा संभव लगता है
ख़ासकर क्योंकि privacy policy 1 में लिखा है कि वे “User Input” समेत personal information का इस्तेमाल “service improvement and development, technical training and enhancement” के लिए कर सकते हैं
ये शायद बेवकूफ़ी वाला सवाल हो, लेकिन OpenRouter को देखकर लगता है कि क्या DeepSeek देने वाले सच में सिर्फ़ US, Singapore, China में ही हैं?
ये यूरोप या दूसरे पश्चिमी providers के लिए offer करने लायक बहुत obvious product लगता है
मुझे यक़ीन है कि ये Mistral से बहुत बड़ी छलाँग होगी
मैं इन models को आज़माना चाहता हूँ, लेकिन standard legal requirements से आगे जाकर मेरे data पर train करने या उसे store करने वाले providers से बचना चाहता हूँ
इसमें कई factors साथ काम कर रहे हैं
inference stack efficiency के मामले में, बहुत से providers existing sglang / vllm / trtllm उठा लेते हैं और best की उम्मीद करते हैं, लेकिन DeepSeek team optimization की limits को push करने के लिए जानी जाती है
sglang और vllm बेहतरीन software हैं, लेकिन DeepSeek का sparse attention (DSA) देखें तो ये 1.5 साल पहले introduce किया गया था(https://arxiv.org/abs/2512.02556), और DeepSeek 3.2, GLM 5, DeepSeek V4 में इस्तेमाल हुआ
अब जाकर major inference engines में optimization धीरे-धीरे आना शुरू हुआ है: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 आदि)
बेशक DS V4 ने DSA के ऊपर model architecture optimization भी जोड़ा है, और open source inference engines को इसे पूरी तरह exploit करने में अभी और समय लगेगा
privacy के नज़रिए से, ये एक दाँव भी है कि लोग China के बाहर hosted inference के लिए extra पैसे देंगे
DeepSeek ख़ास तौर पर इसलिए, क्योंकि वह transparently बताता है कि API data का इस्तेमाल model improvement के लिए किया जाता है
इसके अलावा scale (MoE में बहुत अहम), reliability, और enterprise customer lock-in जैसे factors भी हैं
और implicit collusion की संभावना भी काफ़ी है
GLM 5 और GLM 5.1 pricing को देखें तो दोनों की run cost समान है, लेकिन 5.1 कहीं बेहतर model है, और क्योंकि Z.AI ने भी price बढ़ा दी, providers ने 5.1 के लिए और महँगी pricing लगा दी
साफ़ तौर पर loss में बेच रहे हैं
फिर भी इसमें ग़लत क्या है
घाटा उठाकर market share लेना सिर्फ़ अमेरिका का patent नहीं है
शायद आप DeepSeek founder Liang Wenfeng के बारे में काफ़ी नहीं जानते
वे High-Flyer Quant के founder भी हैं
मुझे caching वाला हिस्सा ज़्यादा दिलचस्प लग रहा है
इसमें लिखा है, “सभी models में input cache hit pricing को launch price के 1/10 तक घटाया गया है, और ये pricing adjustment 2026/4/26 12:15 UTC से लागू होगी”
इसका कोई end date नहीं है
अभी DeepSeek V4 Flash input pricing का 2% है, और इस V4 Pro pricing में 0.8% है, जो competitors के मुक़ाबले बेहद कम है और unit economics को भी प्रभावित करने लायक है, इसलिए मुझे लगा था कि ये temporary होगा
V4 Pro के मामले में caching को ध्यान में रखें तो effective cost लगभग $0.04 per million input tokens है (OpenRouter metrics के हिसाब से: https://openrouter.ai/deepseek/deepseek-v4-pro)
ये competitors के छोटे models से भी कहीं सस्ता है
DeepSeek V4 का KV cache इसकी heavily compressed sparse attention structure की वजह से बहुत efficient है
सिर्फ़ DSA इस्तेमाल करने वाला DeepSeek V3.2 एक छोटा model है, लेकिन 1 million context window में DS V4 Pro की तुलना में 10 गुना ज़्यादा memory इस्तेमाल करता है
इसके अलावा DeepSeek API की cache hit rate भी बहुत अच्छी है
वही workload चलाने पर open-weight models देने वाले बड़े पश्चिमी inference providers में KV cache hit rate लगभग 50% होती है, जबकि DS API में लगभग 80% मिलती है
DeepSeek V4 की बड़ी बात यही है कि KV cache size बहुत कम हो गया है
Flash अपने-आप में कोई बहुत competitive model नहीं है, और इसकी pricing भी market के दूसरे models जैसी ही range में है
Flash model के सबसे सीधे competitors शायद ये होंगे
GPT 5.4 mini
Cache Read
$0.075
/M tokens
Gemini 3 flash:
Cache Read
$0.05
/M tokens
यानी इसमें कुछ ख़ास magical या groundbreaking नहीं है
Sonnet:
Cache Read
$0.30
Gemini 3.5 flash:
Cache Read
$0.15
कमाल का value for money है
मैं कुछ समय से GLM 5.1 के साथ GLM Coding Plan Max इस्तेमाल कर रहा था, और DeepSeek V4 Pro को भी लगभग 3 हफ़्ते test किया है; complex coding tasks में मुझे ये GLM 5.1 से बेहतर लगता है
मैंने 65 million tokens इस्तेमाल किए और इस pricing पर बिल $1.5 आया, सच में बहुत सस्ता
शानदार
इससे DeepSeek V4 Pro उसी category के दूसरे models के मुक़ाबले बेहद सस्ता हो जाता है
अगर output tokens per million की price देखें, तो ये है
DeepSeek V4 Pro: $0.87
Qwen 3.7 Max: $7.50
Grok 4.3: $2.50
GLM 1.5: $3.08
Opus 4.7: $25.00
GPT-5.5: $30.00
agent workflows में ये cost dominant हो सकती है, और DeepSeek की cache read pricing तो तुलना से बाहर है
ये $0.003626 per million tokens है, और सूची में अगला सबसे सस्ता भी $0.2 per million से ऊपर है
पैमाना लगभग 100x का फ़र्क है
इसका मतलब है कि अगर आपको बिना रोक-टोक पैसे जलाने की इजाज़त न दी जाए, तो inference को efficiently चलाना संभव है
अगर 2 महीने बाद cost cutting के नाम पर Opus को GPT-3 से भी बदतर बना दिया जाए, तो Opus अच्छा होने का कोई मतलब नहीं रह जाता
V4 Pro discount को ध्यान में रखने पर भी, V4 Flash performance per dollar में सबसे अच्छा है, और agentic तथा tool-heavy tasks में overall performance भी बेहतर देता है
V4 Pro single-shot reasoning में ज़्यादा smart है, लेकिन speed difference काफ़ी बड़ा है
performance, cost और speed को साथ रखें तो V4 Flash इस समय हमारे हिसाब से साफ़ तौर पर सबसे अच्छा flash model है
data यहाँ है: https://gertlabs.com/rankings
इनकी MLA architecture standard attention के मुकाबले KV cache को लगभग 5–13 गुना कम कर देती है
इसलिए ये सिर्फ़ market share लेने के लिए price war नहीं है, बल्कि inference run cost वास्तव में कम है
अब सामान्य consumer platforms पर long context, batch inference, और KV cache की disk storage संभव हो जाती है
ये discount शायद post-launch market experiment था, ताकि देखा जा सके कि नई generation models में caching कितनी efficiently काम करती है
मुझे US-hosted models की तुलना में China-hosted models में accidental data leakage की ज़्यादा चिंता होगी
जैसे अगर agent env file पढ़ ले, तो ऐसा कुछ
क्या ये मानना ग़लत है कि Chinese government के US government या companies की तुलना में हर conversation scan करने और काम की जानकारी save करने की संभावना ज़्यादा है?
मुझे लगा कि ये बात biased और xenophobic लग सकती है, इसलिए ये comment लिखने में भी हिचकिचाहट हुई
अच्छा होगा अगर कोई मुझे समझाए कि मैं ग़लत हूँ
क्या कोई जानता है कि DeepSeek hosting के पीछे कौन-सी company है, और data privacy को सम्मान देने का उसका कैसा track record है?
ये कोई unreasonable चिंता नहीं है
इसी वजह से ज़्यादातर US companies AWS Bedrock या AI labs को पसंद करती हैं, और आमतौर पर no-data-retention contract माँगती हैं
लेकिन hosting कहीं भी हो, leakage की चिंता रहती है; फ़र्क सिर्फ़ incentive structure का है
उदाहरण के लिए labs भी सारी conversations scan करती हैं, और enterprise ZDR contracts से protected न होने वाले data पर training करती हैं
law enforcement वैध warrant या emergency की स्थिति में सभी user data तक पहुँच माँग सकती है 1
अगर आप DeepSeek V4 को private तरीके से इस्तेमाल करना चाहते हैं, तो Tinfoil(tinfoil.sh) देख सकते हैं
वे सभी models को verifiable secure hardware enclaves में host करते हैं, जिससे inference end-to-end private बनती है
disclosure के लिए बता दूँ, मैं cofounders में से एक हूँ
1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
Azure जैसी किसी service के ज़रिए इस्तेमाल करें
वे पूरा model host करते हैं और US में उपलब्ध कराते हैं
ऐसे और providers भी होंगे
हम इसी तरह इस्तेमाल करते हैं, और बहुत अच्छा चल रहा है
अगर वे ऐसा करते हों, तो मुझे हैरानी नहीं होगी
अगर US-based models भी किसी दूसरी government के लिए ऐसा करें, तब भी मुझे बहुत हैरानी नहीं होगी
data confidentiality को लेकर मेरी अपेक्षाएँ बहुत ऊँची नहीं हैं
Microsoft enterprise checkbox तो सब टिक कर देता है, लेकिन Azure भी कभी-कभी breach हो जाता है
मैं मानता हूँ कि इसकी संभावना शून्य नहीं है
Beijing कभी भी यह तय कर सकता है कि DeepSeek बहुत शक्तिशाली हो गया है या एक अहम export बन गया है, और दख़ल दे सकता है
ये गारंटी भी नहीं कि ऐसा पहले से नहीं हुआ
ऐसी बहुत-सी reports हैं कि China तक सीमित न रहने वाले foreign actors, US की कई industries के critical networks में बड़े पैमाने पर घुसपैठ कर चुके हैं और सही समय पर उसका फ़ायदा उठाने का इंतज़ार कर रहे हैं
state-of-the-art models भी एक और attack vector हैं, और सोचें तो इनका दुरुपयोग करना काफ़ी आसान हो सकता है
सच तो ये है कि cloud-hosted models में कहीं भी ऐसी संभावना रहती है
चाहे model बनाने वाली company ने जानबूझकर किया हो, या किसी malicious actor ने vulnerability exploit की हो
मैं इतना महत्वपूर्ण व्यक्ति नहीं हूँ कि China का कोई मेरे पीछे पड़े
और DeepSeek को इतना trust बनाए रखना होगा कि users platform पर बने रहें
अगर ये सबके crypto wallets पर हमला करने वाले keylogger जैसा व्यवहार करे, तो trust टूट जाएगा
अगर मैं ऐसा काम कर रहा होता जिसे Chinese government strategic importance का मानती, तो ज़ाहिर है मैं चिंतित होता, लेकिन मैं ऐसा कुछ नहीं करता
मुझे तो इससे ज़्यादा चिंता इस देश के tech billionaires की है, जो LLMs से मेरा बड़े पैमाने पर profiling करेंगे, और China के वास्तविक या काल्पनिक social credit score से भी ज़्यादा dystopian कुछ यहीं बना देंगे
जो लोग आपको, एक अमेरिकी व्यक्ति को, Chinese government से डरने के लिए मनाने की कोशिश कर रहे हैं, शायद वही लोग असल में ज़्यादा चिंता के लायक हैं
अगर कोई इसे copilot से जोड़ना चाहता है, तो मैंने पहले connection handle करने के लिए एक proxy script बनाई थी, जो काम आ सकती है: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...