DeepSeek, DeepEP ओपन सोर्स जारी (5 में से 2)

(github.com/deepseek-ai)

3 पॉइंट द्वारा xguru 2025-02-25 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Mixture-of-Experts(MoE) और Expert Parallelism(EP) के लिए हाई-परफॉर्मेंस कम्युनिकेशन लाइब्रेरी
GPU-आधारित All-to-All kernel प्रदान करता है, जिससे MoE dispatch और combine operations को तेज़ी से प्रोसेस किया जा सकता है
FP8 जैसी low-precision operations का समर्थन
DeepSeek-V3 पेपर में प्रस्तावित group-limited gating algorithm को लागू कर asymmetric domain bandwidth forwarding को ऑप्टिमाइज़ करता है
- उदाहरण: NVLink → RDMA data transfer optimization
- training और inference prefilling कार्यों के लिए उपयुक्त उच्च throughput प्रदान करता है
latency-sensitive inference decoding के लिए RDMA-समर्पित low-latency kernel शामिल
communication-computation overlap technique प्रदान करता है (SM resources को occupy नहीं करता)

प्रदर्शन

DeepEP ने H800 GPU और CX7 InfiniBand 400Gb/s RDMA network वातावरण में प्रदर्शन का परीक्षण किया
DeepSeek-V3/R1 configuration के आधार पर, प्रति batch 4096 tokens, 7168 hidden nodes, top-4 group, top-8 expert architecture लागू की गई, और FP8 dispatching तथा BF16 combine का उपयोग किया गया
प्रदर्शन परीक्षण के परिणामों में, node के भीतर (NVLink-आधारित) communication ने लगभग 150GB/s से अधिक bandwidth दिखाई, जबकि node के बीच (RDMA-आधारित) communication ने expert की संख्या के अनुसार 40~47GB/s स्तर की bandwidth दर्ज की
expert की संख्या बढ़ने पर RDMA bandwidth में हल्की वृद्धि की प्रवृत्ति दिखी (उदाहरण: 16 experts पर 43GB/s, 64 experts पर 46GB/s)

low-latency kernel के प्रदर्शन को मापने पर, सामान्य kernel की तुलना में latency में काफी कमी देखी गई
प्रति batch 128 tokens प्रोसेस करने वाले वातावरण में, expert की संख्या बढ़ने पर latency बढ़ी, लेकिन RDMA bandwidth अपेक्षाकृत स्थिर रही
उदाहरण के लिए, 8 experts पर 163 माइक्रोसेकंड(us) और 256 experts पर 194 माइक्रोसेकंड(us) तक वृद्धि हुई
combine operation में dispatch की तुलना में अधिक latency हुई, और expert की संख्या बढ़ने पर RDMA bandwidth 40GB/s से नीचे धीरे-धीरे घटने की प्रवृत्ति दिखी
यानी, low-latency kernel छोटे expert groups में बहुत तेज़ चलता है, लेकिन expert की संख्या बढ़ने पर latency बढ़ती है, इसलिए उचित संतुलन आवश्यक है

InfiniBand के Virtual Lanes(VL) का उपयोग करके ट्रैफिक को अलग किया जा सकता है
अनुशंसित विभाजन तरीका:
- सामान्य kernel उपयोग करने वाले कार्य
- low-latency kernel उपयोग करने वाले कार्य
- अन्य कार्य
NVSHMEM_IB_SL environment variable के माध्यम से VL सेट किया जा सकता है

InfiniBand switch की adaptive routing का समर्थन
low-latency kernel में इसे सक्षम किया जा सकता है, लेकिन सामान्य kernel में इसे निष्क्रिय रखना आवश्यक है (सक्षम करने पर data corruption का जोखिम)
सेटिंग सिफारिशें:
- जब network load अधिक हो: adaptive routing सक्षम करें
- जब network load कम हो: static routing बनाए रखें

अनौपचारिक PTX instruction का उपयोग: ld.global.nc.L1::no_allocate.L2::256B का उपयोग कर प्रदर्शन ऑप्टिमाइज़ेशन
- Hopper architecture पर यह सामान्य रूप से काम करता है, लेकिन अन्य platforms पर DISABLE_AGGRESSIVE_PTX_INSTRS=1 सेट करके इसे निष्क्रिय किया जा सकता है
auto-tuning की सिफारिश: सर्वोत्तम प्रदर्शन के लिए cluster-विशिष्ट performance testing के बाद settings लागू करना आवश्यक