- ओपन सोर्स रिलीज़ वीक के अंत में पूरे सिस्टम का ओवरव्यू और ऑपरेटिंग कॉस्ट तक एक one more thing के रूप में अचानक साझा किया गया
DeepSeek-V3/R1 inference system ओवरव्यू
सिस्टम डिज़ाइन के सिद्धांत
- DeepSeek-V3/R1 inference system का optimization लक्ष्य ज़्यादा throughput और कम latency है
- इसके लिए cross-node Expert Parallelism(EP) लागू कर optimization किया गया
- throughput में वृद्धि: EP batch size को बढ़ाकर GPU matrix operations की efficiency बढ़ाता है और throughput बढ़ाता है.
- latency में कमी: experts को कई GPU में वितरित करके प्रत्येक GPU पर memory access का बोझ घटाया जाता है, जिससे latency कम होती है.
- हालांकि, EP सिस्टम की complexity बढ़ाता है:
- cross-node communication की आवश्यकता: bottleneck से बचने के लिए communication और computation को overlap करके चलाना पड़ता है.
- multiple nodes का उपयोग: Data Parallelism(DP) लागू करना पड़ता है, और DP के बीच load balancing भी ज़रूरी होता है.
बड़े पैमाने का cross-node Expert Parallelism(EP)
- DeepSeek-V3/R1 मॉडल हर layer में 256 experts में से सिर्फ 8 को सक्रिय करता है, इसलिए batch size scaling अनिवार्य है
- Prefill और Decode चरणों के अनुसार parallelism का अंतर:
- Prefill चरण: EP32, DP32 (4 nodes, हर GPU 9 experts संभालता है)
- Decode चरण: EP144, DP144 (18 nodes, हर GPU 2 experts संभालता है)
computation-communication overlapping
- EP cross-node communication cost बढ़ाता है, इसलिए इसे कम करने के लिए dual-batch overlap strategy का उपयोग किया जाता है.
- Prefill चरण: दो microbatches को बारी-बारी से चलाकर एक batch का communication दूसरे batch के computation के पीछे छिपाया जाता है.
- Decode चरण: attention layer को दो चरणों में बाँटा जाता है और 5-stage pipeline का उपयोग करके computation-communication overlap को अधिकतम किया जाता है.
optimal load balancing का कार्यान्वयन
- GPU के बीच असंतुलन रोकने और resource utilization अधिकतम करने के लिए तीन load balancing तकनीकें लागू की गईं.
-
- Prefill load balancer
- समस्या: requests की संख्या और sequence length के अंतर के कारण core-attention computation और data transfer का load असंतुलित हो जाता है.
- लक्ष्य:
- GPU के बीच core-attention computation load का संतुलन बनाए रखना.
- प्रति GPU input tokens की संख्या को समान रखना.
-
- Decode load balancer
- समस्या: KVCache उपयोग में अंतर के कारण GPU के बीच computation load अलग-अलग होता है.
- लक्ष्य:
- GPU के बीच KVCache उपयोग का संतुलन बनाए रखना.
- प्रति GPU requests की संख्या को समान रखना.
-
- Expert-Parallel load balancer
- समस्या: कुछ specific experts पर अधिक load के कारण GPU के बीच computation imbalance पैदा होता है.
- लक्ष्य:
- हर GPU के expert computation load का संतुलन बनाए रखना.
DeepSeek online inference system के आँकड़े
- DeepSeek-V3/R1 inference service H800 GPU पर चलती है और training जैसी ही computation precision बनाए रखती है
- FP8: matrix operations और data transfer
- BF16: core MLA operations और combination transfer
- peak और nighttime operation strategy
- दिन में service load अधिक रहता है और रात में load कम हो जाता है
- peak समय: सभी nodes का उपयोग करके inference service चलाई जाती है
- रात के low-load समय: कुछ nodes को research और training उपयोग के लिए बदल दिया जाता है ताकि resources का कुशल उपयोग हो सके
- 24 घंटे के संचालन आँकड़े (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
- कुल input tokens: 608B (इनमें से 56.3%, यानी 342B, KV cache hit थे)
- कुल output tokens: 168B (औसत output speed 20~22 tokens/s)
- औसत KVCache length: प्रति output token 4,989 tokens
- प्रति H800 node processing speed:
- Prefill चरण: 73.7k tokens/s (cache hit सहित)
- Decode चरण: 14.8k tokens/s
ऑपरेटिंग कॉस्ट और revenue analysis: V3 & R1 के लिए UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM के एक दिन के आधार पर
- GPU उपयोग: peak पर 278 nodes, औसतन 226.75 nodes (हर node में 8 H800 GPU शामिल)
- GPU rental cost: प्रति H800 GPU $2/घंटा → कुल एक दिन का ऑपरेटिंग कॉस्ट: $87,072
- यदि सभी tokens billable माने जाएँ तो सैद्धांतिक दैनिक revenue: $562,027 → profit margin 545%
- (R1 के input/output token prices: $0.14M(cache hit), $0.55M(cache miss), $2.19M)
- हालांकि, वास्तविक revenue इससे कम है:
- DeepSeek-V3 की pricing, R1 की तुलना में काफी कम है
- service का केवल एक हिस्सा ही monetized है (web और app उपयोग मुफ़्त दिया जाता है)
- रात में automatic discount लागू होता है
1 टिप्पणियां
3 सवाल पूछो तो हैंग हो जाता है..