• GPT-3+ आकार तक scale किए जा सकने वाले दो implementation विकसित किए जा रहे हैं

→ GPT-Neo : Tensorflow-mesh(TPU) आधारित code

→ GPT-Neox : DeepSpeed(GPU) आधारित code

  • फिलहाल GPT-2 स्तर का training पूरा हो चुका है और मॉडल evaluation की समीक्षा की जा रही है

  • single-stage training के साथ 200 billion parameters तक test

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.