• मौजूदा T5(Text-to-Text Transfer Transformer) मॉडल की तुलना में training speed में 7x सुधार

  • Switch Routing नाम के एक परिवर्तित MoE(Mixture-of-Experts) algorithm का उपयोग, जो input values के अनुसार अलग-अलग parameters लागू करता है

  • मॉडल training के लिए Mesh-Tensorflow का उपयोग (Model Parallelism)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.