- LLM को काफ़ी बड़ी मात्रा में memory और computing resources की ज़रूरत होती है
- DeepSpeed की ZeRO family इस समस्या का समाधान देती है, और इसका उपयोग TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 आदि में किया गया है
- लेकिन बहुत बड़ी scale वाली scenarios में, जहाँ अनेक GPU इस्तेमाल होते हैं, GPU के बीच बार-बार communication की ज़रूरत पड़ने जैसी overheads उत्पन्न होती हैं
- ZeRO++ ऐसे मामलों के लिए मॉडल quality पर असर डाले बिना कुल communication volume को 4x तक कम करता है
- बड़े मॉडलों की pre-training और fine-tuning को तेज़ करता है
- प्रति GPU छोटा batch size: ZeRO की तुलना में 2.2x throughput
- कम bandwidth वाले cluster में भी 4x bandwidth जैसी processing
- RLHF का उपयोग करने वाले ChatGPT जैसे मॉडलों को भी तेज़ करता है
अभी कोई टिप्पणी नहीं है.