राजस्व का खुलासा किया

(github.com/deepseek-ai)

12 पॉइंट द्वारा xguru 2025-03-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ओपन सोर्स रिलीज़ वीक के अंत में पूरे सिस्टम का ओवरव्यू और ऑपरेटिंग कॉस्ट तक एक one more thing के रूप में अचानक साझा किया गया

DeepSeek-V3/R1 inference system ओवरव्यू

सिस्टम डिज़ाइन के सिद्धांत

DeepSeek-V3/R1 inference system का optimization लक्ष्य ज़्यादा throughput और कम latency है
इसके लिए cross-node Expert Parallelism(EP) लागू कर optimization किया गया
- throughput में वृद्धि: EP batch size को बढ़ाकर GPU matrix operations की efficiency बढ़ाता है और throughput बढ़ाता है.
- latency में कमी: experts को कई GPU में वितरित करके प्रत्येक GPU पर memory access का बोझ घटाया जाता है, जिससे latency कम होती है.
हालांकि, EP सिस्टम की complexity बढ़ाता है:
- cross-node communication की आवश्यकता: bottleneck से बचने के लिए communication और computation को overlap करके चलाना पड़ता है.
- multiple nodes का उपयोग: Data Parallelism(DP) लागू करना पड़ता है, और DP के बीच load balancing भी ज़रूरी होता है.

बड़े पैमाने का cross-node Expert Parallelism(EP)

DeepSeek-V3/R1 मॉडल हर layer में 256 experts में से सिर्फ 8 को सक्रिय करता है, इसलिए batch size scaling अनिवार्य है
Prefill और Decode चरणों के अनुसार parallelism का अंतर:
- Prefill चरण: EP32, DP32 (4 nodes, हर GPU 9 experts संभालता है)
- Decode चरण: EP144, DP144 (18 nodes, हर GPU 2 experts संभालता है)

computation-communication overlapping

EP cross-node communication cost बढ़ाता है, इसलिए इसे कम करने के लिए dual-batch overlap strategy का उपयोग किया जाता है.
- Prefill चरण: दो microbatches को बारी-बारी से चलाकर एक batch का communication दूसरे batch के computation के पीछे छिपाया जाता है.
- Decode चरण: attention layer को दो चरणों में बाँटा जाता है और 5-stage pipeline का उपयोग करके computation-communication overlap को अधिकतम किया जाता है.

optimal load balancing का कार्यान्वयन

GPU के बीच असंतुलन रोकने और resource utilization अधिकतम करने के लिए तीन load balancing तकनीकें लागू की गईं.
1. Prefill load balancer
- समस्या: requests की संख्या और sequence length के अंतर के कारण core-attention computation और data transfer का load असंतुलित हो जाता है.
- लक्ष्य:
  - GPU के बीच core-attention computation load का संतुलन बनाए रखना.
  - प्रति GPU input tokens की संख्या को समान रखना.
1. Decode load balancer
- समस्या: KVCache उपयोग में अंतर के कारण GPU के बीच computation load अलग-अलग होता है.
- लक्ष्य:
  - GPU के बीच KVCache उपयोग का संतुलन बनाए रखना.
  - प्रति GPU requests की संख्या को समान रखना.
1. Expert-Parallel load balancer
- समस्या: कुछ specific experts पर अधिक load के कारण GPU के बीच computation imbalance पैदा होता है.
- लक्ष्य:
  - हर GPU के expert computation load का संतुलन बनाए रखना.

DeepSeek online inference system के आँकड़े

DeepSeek-V3/R1 inference service H800 GPU पर चलती है और training जैसी ही computation precision बनाए रखती है
- FP8: matrix operations और data transfer
- BF16: core MLA operations और combination transfer
peak और nighttime operation strategy
- दिन में service load अधिक रहता है और रात में load कम हो जाता है
- peak समय: सभी nodes का उपयोग करके inference service चलाई जाती है
- रात के low-load समय: कुछ nodes को research और training उपयोग के लिए बदल दिया जाता है ताकि resources का कुशल उपयोग हो सके
24 घंटे के संचालन आँकड़े (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
- कुल input tokens: 608B (इनमें से 56.3%, यानी 342B, KV cache hit थे)
- कुल output tokens: 168B (औसत output speed 20~22 tokens/s)
- औसत KVCache length: प्रति output token 4,989 tokens
- प्रति H800 node processing speed:
  - Prefill चरण: 73.7k tokens/s (cache hit सहित)
  - Decode चरण: 14.8k tokens/s

ऑपरेटिंग कॉस्ट और revenue analysis: V3 & R1 के लिए UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM के एक दिन के आधार पर

GPU उपयोग: peak पर 278 nodes, औसतन 226.75 nodes (हर node में 8 H800 GPU शामिल)
GPU rental cost: प्रति H800 GPU $2/घंटा → कुल एक दिन का ऑपरेटिंग कॉस्ट: $87,072
यदि सभी tokens billable माने जाएँ तो सैद्धांतिक दैनिक revenue: $562,027 → profit margin 545%
- (R1 के input/output token prices: $0.14M(cache hit), $0.55M(cache miss), $2.19M)
हालांकि, वास्तविक revenue इससे कम है:
- DeepSeek-V3 की pricing, R1 की तुलना में काफी कम है
- service का केवल एक हिस्सा ही monetized है (web और app उपयोग मुफ़्त दिया जाता है)
- रात में automatic discount लागू होता है

DeepSeek Open Infra के तहत जारी 5 ओपन सोर्स प्रोजेक्ट्स में अंतिम one more thing के रूप में साझा किया गया

1 टिप्पणियां

sppappi 2025-03-03

3 सवाल पूछो तो हैंग हो जाता है..

DeepSeek ने V3/R1 की inference system संरचना और परिचालन लागत/राजस्व का खुलासा किया

DeepSeek-V3/R1 inference system ओवरव्यू

सिस्टम डिज़ाइन के सिद्धांत

बड़े पैमाने का cross-node Expert Parallelism(EP)

computation-communication overlapping

optimal load balancing का कार्यान्वयन

DeepSeek online inference system के आँकड़े

ऑपरेटिंग कॉस्ट और revenue analysis: V3 & R1 के लिए UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM के एक दिन के आधार पर

DeepSeek Open Infra के तहत जारी 5 ओपन सोर्स प्रोजेक्ट्स में अंतिम one more thing के रूप में साझा किया गया

संबंधित पढ़ाई

1 टिप्पणियां