• 7B, 13B, 33B, 65B के 4 अलग-अलग साइज़ में जारी किया गया
  • आकार में काफी छोटा होने के बावजूद, डेटा ट्रेनिंग को बेहतर बनाकर और fine-tuning के जरिए बड़े मॉडलों के मुकाबले की क्षमता वाला एक efficient मॉडल
  • 33B/65B को 1.4 ट्रिलियन tokens पर train किया गया (7B को 1 ट्रिलियन पर)
  • "13B मॉडल, 175B वाले GPT-3 से बेहतर है, और 65B कहीं बड़े Chinchilla70B तथा PaLM-540B के साथ प्रतिस्पर्धा कर सकता है"
  • AI research आदि गैर-व्यावसायिक उपयोगों के लिए ही उपलब्ध (आवेदन और स्वीकृति आवश्यक)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.