स्पीड और Python, दोनों साथ: डीप लर्निंग में तेज़ Python कोड चलाने के लिए CUDA Graph का उपयोग
(discuss.pytorch.kr)पिछले कुछ वर्षों में GPU की गति विस्फोटक रूप से बढ़ी है, और इसके साथ डीप लर्निंग वर्कलोड को optimize करने के तरीके भी बदल रहे हैं। PyTorch भी torch.compile() जैसी optimization सुविधाएँ जोड़ रहा है, लेकिन LLM सहित कुछ वर्कलोड में सुधार अभी जारी है.
(torch.compile() में और सुधार आने की प्रतीक्षा करते हुए) मैंने CUDA Graph जैसा एक optimization तरीका देखा जिसे अभी तुरंत लागू किया जा सकता है, और उस पर लिखे गए लेख का अनुवाद किया। (⚠️ध्यान दें: लेख के अंत में मूल लेख लिखने वाली LLM inference platform डेवलप/सेवा कंपनी Fireworks.ai का कुछ प्रचार शामिल है.)
इस लेख में CUDA Graph को निम्नलिखित क्रम में परिचित कराया गया है:
-
मौजूदा optimization विधि CPU/GPU overlap का परिचय
-
वे हिस्से जहाँ CPU overhead उत्पन्न होता है
-
CPU overhead optimization के लिए तकनीकें और CUDA Graph
-
LLaMA2-7B मॉडल पर CUDA Graph लागू करने का उदाहरण
-
CUDA Graph से मिलने वाले performance लाभ का परिचय
-
परिशिष्ट: वर्तमान समय (PyTorch 2.0.1) में
torch.compile()उपयोग करते समय आने वाली समस्याएँ और उनके समाधान
अभी कोई टिप्पणी नहीं है.