DeepSpeed ZeRO++ : 4x कम communication के साथ LLM और chat model training speed में बड़ी छलांग

xguru · 2023-06-28T10:03:01+09:00

LLM को काफ़ी बड़ी मात्रा में memory और computing resources की ज़रूरत होती है DeepSpeed की ZeRO family इस समस्या का समाधान देती है, और इसका उपयोग TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 आदि में किया गया है लेकिन बहुत बड़ी scale वाली scenarios में, जहाँ अनेक GPU इस्तेमाल होते हैं, GPU के बीच बार-बार communication की ज़रूरत पड़ने जैसी overheads उत्पन्न होती हैं ZeRO++ ऐसे मामलों के लिए मॉडल quality पर असर डाले बिना कुल communication volume को 4x तक कम करता है बड़े मॉडलों की pre-training और fine-tuning को तेज़ करता है प्रति GPU छोटा batch size: ZeRO की तुलना में 2.2x throughput कम bandwidth वाले cluster में भी 4x bandwidth जैसी processing RLHF का उपयोग करने वाले ChatGPT जैसे मॉडलों को भी तेज़ करता है

(microsoft.com)

10 पॉइंट द्वारा xguru 2023-06-28 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

LLM को काफ़ी बड़ी मात्रा में memory और computing resources की ज़रूरत होती है
DeepSpeed की ZeRO family इस समस्या का समाधान देती है, और इसका उपयोग TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 आदि में किया गया है
लेकिन बहुत बड़ी scale वाली scenarios में, जहाँ अनेक GPU इस्तेमाल होते हैं, GPU के बीच बार-बार communication की ज़रूरत पड़ने जैसी overheads उत्पन्न होती हैं
ZeRO++ ऐसे मामलों के लिए मॉडल quality पर असर डाले बिना कुल communication volume को 4x तक कम करता है
- बड़े मॉडलों की pre-training और fine-tuning को तेज़ करता है
  - प्रति GPU छोटा batch size: ZeRO की तुलना में 2.2x throughput
  - कम bandwidth वाले cluster में भी 4x bandwidth जैसी processing
- RLHF का उपयोग करने वाले ChatGPT जैसे मॉडलों को भी तेज़ करता है

DeepSpeed ZeRO++ : 4x कम communication के साथ LLM और chat model training speed में बड़ी छलांग

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.