- GPT-3+ आकार तक scale किए जा सकने वाले दो implementation विकसित किए जा रहे हैं
→ GPT-Neo : Tensorflow-mesh(TPU) आधारित code
→ GPT-Neox : DeepSpeed(GPU) आधारित code
-
फिलहाल GPT-2 स्तर का training पूरा हो चुका है और मॉडल evaluation की समीक्षा की जा रही है
-
single-stage training के साथ 200 billion parameters तक test
अभी कोई टिप्पणी नहीं है.