• Andrei Karpathy के nanoGPT, जो केवल 100M (10 करोड़) पैरामीटर्स तक सीमित था, को बेहतर बनाकर 100B (100 अरब) तक ट्रेनिंग संभव बनाई गई
  • किसी अन्य कोड या third-party framework dependency के बिना, "Cerebras hardware" की बड़े पैमाने की मेमोरी और कंप्यूट क्षमता का उपयोग करके vanilla torch.nn कोड पर large-scale training संभव बनाता है
  • बिना किसी अतिरिक्त बदलाव के लंबी context length को सपोर्ट करता है और विभिन्न optimization tools के साथ काम करता है
  • Cerebras एक chipset निर्माता है; इसकी matrix multiplication speed GPU जैसी है, लेकिन यह चिप्स को बहुत बड़ा बनाता है ताकि एक ही chip में अधिक transistor और memory डाली जा सके
    • इसी बड़े आकार की वजह से कई devices में sharding करके बाद में उन्हें जोड़ने जैसे काम की जरूरत नहीं पड़ती, इसलिए LOC कम रखा जा सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.