-
मौजूदा T5(Text-to-Text Transfer Transformer) मॉडल की तुलना में training speed में 7x सुधार
-
Switch Routing नाम के एक परिवर्तित MoE(Mixture-of-Experts) algorithm का उपयोग, जो input values के अनुसार अलग-अलग parameters लागू करता है
-
मॉडल training के लिए Mesh-Tensorflow का उपयोग (Model Parallelism)
अभी कोई टिप्पणी नहीं है.