• LLM को काफ़ी बड़ी मात्रा में memory और computing resources की ज़रूरत होती है
  • DeepSpeed की ZeRO family इस समस्या का समाधान देती है, और इसका उपयोग TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 आदि में किया गया है
  • लेकिन बहुत बड़ी scale वाली scenarios में, जहाँ अनेक GPU इस्तेमाल होते हैं, GPU के बीच बार-बार communication की ज़रूरत पड़ने जैसी overheads उत्पन्न होती हैं
  • ZeRO++ ऐसे मामलों के लिए मॉडल quality पर असर डाले बिना कुल communication volume को 4x तक कम करता है
    • बड़े मॉडलों की pre-training और fine-tuning को तेज़ करता है
      • प्रति GPU छोटा batch size: ZeRO की तुलना में 2.2x throughput
      • कम bandwidth वाले cluster में भी 4x bandwidth जैसी processing
    • RLHF का उपयोग करने वाले ChatGPT जैसे मॉडलों को भी तेज़ करता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.