स्पीड और Python, दोनों साथ: डीप लर्निंग में तेज़ Python कोड चलाने के लिए CUDA Graph का उपयोग

(discuss.pytorch.kr)

15 पॉइंट द्वारा ninebow 2023-09-10 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

पिछले कुछ वर्षों में GPU की गति विस्फोटक रूप से बढ़ी है, और इसके साथ डीप लर्निंग वर्कलोड को optimize करने के तरीके भी बदल रहे हैं। PyTorch भी torch.compile() जैसी optimization सुविधाएँ जोड़ रहा है, लेकिन LLM सहित कुछ वर्कलोड में सुधार अभी जारी है.

(torch.compile() में और सुधार आने की प्रतीक्षा करते हुए) मैंने CUDA Graph जैसा एक optimization तरीका देखा जिसे अभी तुरंत लागू किया जा सकता है, और उस पर लिखे गए लेख का अनुवाद किया। (⚠️ध्यान दें: लेख के अंत में मूल लेख लिखने वाली LLM inference platform डेवलप/सेवा कंपनी Fireworks.ai का कुछ प्रचार शामिल है.)

इस लेख में CUDA Graph को निम्नलिखित क्रम में परिचित कराया गया है:

मौजूदा optimization विधि CPU/GPU overlap का परिचय
वे हिस्से जहाँ CPU overhead उत्पन्न होता है
CPU overhead optimization के लिए तकनीकें और CUDA Graph
LLaMA2-7B मॉडल पर CUDA Graph लागू करने का उदाहरण
CUDA Graph से मिलने वाले performance लाभ का परिचय
परिशिष्ट: वर्तमान समय (PyTorch 2.0.1) में torch.compile() उपयोग करते समय आने वाली समस्याएँ और उनके समाधान

स्पीड और Python, दोनों साथ: डीप लर्निंग में तेज़ Python कोड चलाने के लिए CUDA Graph का उपयोग

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.