• Mixture-of-Experts(MoE) और Expert Parallelism(EP) के लिए हाई-परफॉर्मेंस कम्युनिकेशन लाइब्रेरी
  • GPU-आधारित All-to-All kernel प्रदान करता है, जिससे MoE dispatch और combine operations को तेज़ी से प्रोसेस किया जा सकता है
  • FP8 जैसी low-precision operations का समर्थन
  • DeepSeek-V3 पेपर में प्रस्तावित group-limited gating algorithm को लागू कर asymmetric domain bandwidth forwarding को ऑप्टिमाइज़ करता है
    • उदाहरण: NVLink → RDMA data transfer optimization
    • training और inference prefilling कार्यों के लिए उपयुक्त उच्च throughput प्रदान करता है
  • latency-sensitive inference decoding के लिए RDMA-समर्पित low-latency kernel शामिल
  • communication-computation overlap technique प्रदान करता है (SM resources को occupy नहीं करता)

प्रदर्शन

सामान्य kernel (NVLink और RDMA transfer)

  • DeepEP ने H800 GPU और CX7 InfiniBand 400Gb/s RDMA network वातावरण में प्रदर्शन का परीक्षण किया
  • DeepSeek-V3/R1 configuration के आधार पर, प्रति batch 4096 tokens, 7168 hidden nodes, top-4 group, top-8 expert architecture लागू की गई, और FP8 dispatching तथा BF16 combine का उपयोग किया गया
  • प्रदर्शन परीक्षण के परिणामों में, node के भीतर (NVLink-आधारित) communication ने लगभग 150GB/s से अधिक bandwidth दिखाई, जबकि node के बीच (RDMA-आधारित) communication ने expert की संख्या के अनुसार 40~47GB/s स्तर की bandwidth दर्ज की
  • expert की संख्या बढ़ने पर RDMA bandwidth में हल्की वृद्धि की प्रवृत्ति दिखी (उदाहरण: 16 experts पर 43GB/s, 64 experts पर 46GB/s)

low-latency kernel (pure RDMA)

  • low-latency kernel के प्रदर्शन को मापने पर, सामान्य kernel की तुलना में latency में काफी कमी देखी गई
  • प्रति batch 128 tokens प्रोसेस करने वाले वातावरण में, expert की संख्या बढ़ने पर latency बढ़ी, लेकिन RDMA bandwidth अपेक्षाकृत स्थिर रही
  • उदाहरण के लिए, 8 experts पर 163 माइक्रोसेकंड(us) और 256 experts पर 194 माइक्रोसेकंड(us) तक वृद्धि हुई
  • combine operation में dispatch की तुलना में अधिक latency हुई, और expert की संख्या बढ़ने पर RDMA bandwidth 40GB/s से नीचे धीरे-धीरे घटने की प्रवृत्ति दिखी
  • यानी, low-latency kernel छोटे expert groups में बहुत तेज़ चलता है, लेकिन expert की संख्या बढ़ने पर latency बढ़ती है, इसलिए उचित संतुलन आवश्यक है

नेटवर्क सेटिंग

ट्रैफिक आइसोलेशन (Traffic Isolation)

  • InfiniBand के Virtual Lanes(VL) का उपयोग करके ट्रैफिक को अलग किया जा सकता है
  • अनुशंसित विभाजन तरीका:
    • सामान्य kernel उपयोग करने वाले कार्य
    • low-latency kernel उपयोग करने वाले कार्य
    • अन्य कार्य
  • NVSHMEM_IB_SL environment variable के माध्यम से VL सेट किया जा सकता है

adaptive routing

  • InfiniBand switch की adaptive routing का समर्थन
  • low-latency kernel में इसे सक्षम किया जा सकता है, लेकिन सामान्य kernel में इसे निष्क्रिय रखना आवश्यक है (सक्षम करने पर data corruption का जोखिम)
  • सेटिंग सिफारिशें:
    • जब network load अधिक हो: adaptive routing सक्षम करें
    • जब network load कम हो: static routing बनाए रखें

congestion control

  • DeepEP congestion control feature को निष्क्रिय रखकर संचालित होता है
  • यह पुष्टि की गई कि वास्तविक वातावरण में network congestion गंभीर नहीं था

प्रमुख तकनीकी विचार

  • अनौपचारिक PTX instruction का उपयोग: ld.global.nc.L1::no_allocate.L2::256B का उपयोग कर प्रदर्शन ऑप्टिमाइज़ेशन
    • Hopper architecture पर यह सामान्य रूप से काम करता है, लेकिन अन्य platforms पर DISABLE_AGGRESSIVE_PTX_INSTRS=1 सेट करके इसे निष्क्रिय किया जा सकता है
  • auto-tuning की सिफारिश: सर्वोत्तम प्रदर्शन के लिए cluster-विशिष्ट performance testing के बाद settings लागू करना आवश्यक

DeepSeek Open Infra के रूप में जारी किए जा रहे 5 open source प्रोजेक्ट्स में से दूसरा आइटम

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.