DeepSpeed Ulysses: लंबे sequence Transformer models की training के लिए system optimization

xguru · 2023-08-31T11:03:01+09:00

मौजूदा सिस्टम्स की तुलना में 4 गुना लंबी sequence length प्रदान करता है, और 10 लाख से अधिक tokens वाले sequences पर training संभव बनाता है communication में 10 गुना से अधिक कमी, जिससे throughput अधिकतम 2.5 गुना तक बढ़ता है। throughput 175 TFlops/GPU से ऊपर बना रहता है पूरी तरह general और implementation-agnostic Attention (FlashAttention 2 जैसी implementations के साथ भी काम करता है) large-scale model training का समर्थन: ZeRO-3 के साथ काम करता है, जिससे बड़े sequence/model sizes को support मिलता है उपयोग में आसान और highly portable, इसलिए मौजूदा frameworks में बहुत कम बदलाव की जरूरत

(github.com/microsoft)

5 पॉइंट द्वारा xguru 2023-08-31 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

मौजूदा सिस्टम्स की तुलना में 4 गुना लंबी sequence length प्रदान करता है, और 10 लाख से अधिक tokens वाले sequences पर training संभव बनाता है
communication में 10 गुना से अधिक कमी, जिससे throughput अधिकतम 2.5 गुना तक बढ़ता है। throughput 175 TFlops/GPU से ऊपर बना रहता है
पूरी तरह general और implementation-agnostic Attention (FlashAttention 2 जैसी implementations के साथ भी काम करता है)
large-scale model training का समर्थन: ZeRO-3 के साथ काम करता है, जिससे बड़े sequence/model sizes को support मिलता है
उपयोग में आसान और highly portable, इसलिए मौजूदा frameworks में बहुत कम बदलाव की जरूरत

DeepSpeed Ulysses: लंबे sequence Transformer models की training के लिए system optimization

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.