12 पॉइंट द्वारा xguru 2025-03-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ओपन सोर्स रिलीज़ वीक के अंत में पूरे सिस्टम का ओवरव्यू और ऑपरेटिंग कॉस्ट तक एक one more thing के रूप में अचानक साझा किया गया

DeepSeek-V3/R1 inference system ओवरव्यू

सिस्टम डिज़ाइन के सिद्धांत

  • DeepSeek-V3/R1 inference system का optimization लक्ष्य ज़्यादा throughput और कम latency है
  • इसके लिए cross-node Expert Parallelism(EP) लागू कर optimization किया गया
    • throughput में वृद्धि: EP batch size को बढ़ाकर GPU matrix operations की efficiency बढ़ाता है और throughput बढ़ाता है.
    • latency में कमी: experts को कई GPU में वितरित करके प्रत्येक GPU पर memory access का बोझ घटाया जाता है, जिससे latency कम होती है.
  • हालांकि, EP सिस्टम की complexity बढ़ाता है:
    • cross-node communication की आवश्यकता: bottleneck से बचने के लिए communication और computation को overlap करके चलाना पड़ता है.
    • multiple nodes का उपयोग: Data Parallelism(DP) लागू करना पड़ता है, और DP के बीच load balancing भी ज़रूरी होता है.

बड़े पैमाने का cross-node Expert Parallelism(EP)

  • DeepSeek-V3/R1 मॉडल हर layer में 256 experts में से सिर्फ 8 को सक्रिय करता है, इसलिए batch size scaling अनिवार्य है
  • Prefill और Decode चरणों के अनुसार parallelism का अंतर:
    • Prefill चरण: EP32, DP32 (4 nodes, हर GPU 9 experts संभालता है)
    • Decode चरण: EP144, DP144 (18 nodes, हर GPU 2 experts संभालता है)

computation-communication overlapping

  • EP cross-node communication cost बढ़ाता है, इसलिए इसे कम करने के लिए dual-batch overlap strategy का उपयोग किया जाता है.
    • Prefill चरण: दो microbatches को बारी-बारी से चलाकर एक batch का communication दूसरे batch के computation के पीछे छिपाया जाता है.
    • Decode चरण: attention layer को दो चरणों में बाँटा जाता है और 5-stage pipeline का उपयोग करके computation-communication overlap को अधिकतम किया जाता है.

optimal load balancing का कार्यान्वयन

  • GPU के बीच असंतुलन रोकने और resource utilization अधिकतम करने के लिए तीन load balancing तकनीकें लागू की गईं.
    1. Prefill load balancer
    • समस्या: requests की संख्या और sequence length के अंतर के कारण core-attention computation और data transfer का load असंतुलित हो जाता है.
    • लक्ष्य:
      • GPU के बीच core-attention computation load का संतुलन बनाए रखना.
      • प्रति GPU input tokens की संख्या को समान रखना.
    1. Decode load balancer
    • समस्या: KVCache उपयोग में अंतर के कारण GPU के बीच computation load अलग-अलग होता है.
    • लक्ष्य:
      • GPU के बीच KVCache उपयोग का संतुलन बनाए रखना.
      • प्रति GPU requests की संख्या को समान रखना.
    1. Expert-Parallel load balancer
    • समस्या: कुछ specific experts पर अधिक load के कारण GPU के बीच computation imbalance पैदा होता है.
    • लक्ष्य:
      • हर GPU के expert computation load का संतुलन बनाए रखना.

DeepSeek online inference system के आँकड़े

  • DeepSeek-V3/R1 inference service H800 GPU पर चलती है और training जैसी ही computation precision बनाए रखती है
    • FP8: matrix operations और data transfer
    • BF16: core MLA operations और combination transfer
  • peak और nighttime operation strategy
    • दिन में service load अधिक रहता है और रात में load कम हो जाता है
    • peak समय: सभी nodes का उपयोग करके inference service चलाई जाती है
    • रात के low-load समय: कुछ nodes को research और training उपयोग के लिए बदल दिया जाता है ताकि resources का कुशल उपयोग हो सके
  • 24 घंटे के संचालन आँकड़े (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
    • कुल input tokens: 608B (इनमें से 56.3%, यानी 342B, KV cache hit थे)
    • कुल output tokens: 168B (औसत output speed 20~22 tokens/s)
    • औसत KVCache length: प्रति output token 4,989 tokens
    • प्रति H800 node processing speed:
      • Prefill चरण: 73.7k tokens/s (cache hit सहित)
      • Decode चरण: 14.8k tokens/s

ऑपरेटिंग कॉस्ट और revenue analysis: V3 & R1 के लिए UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM के एक दिन के आधार पर

  • GPU उपयोग: peak पर 278 nodes, औसतन 226.75 nodes (हर node में 8 H800 GPU शामिल)
  • GPU rental cost: प्रति H800 GPU $2/घंटा → कुल एक दिन का ऑपरेटिंग कॉस्ट: $87,072
  • यदि सभी tokens billable माने जाएँ तो सैद्धांतिक दैनिक revenue: $562,027 → profit margin 545%
    • (R1 के input/output token prices: $0.14M(cache hit), $0.55M(cache miss), $2.19M)
  • हालांकि, वास्तविक revenue इससे कम है:
    • DeepSeek-V3 की pricing, R1 की तुलना में काफी कम है
    • service का केवल एक हिस्सा ही monetized है (web और app उपयोग मुफ़्त दिया जाता है)
    • रात में automatic discount लागू होता है

DeepSeek Open Infra के तहत जारी 5 ओपन सोर्स प्रोजेक्ट्स में अंतिम one more thing के रूप में साझा किया गया

1 टिप्पणियां

 
sppappi 2025-03-03

3 सवाल पूछो तो हैंग हो जाता है..