LLaMA - Meta द्वारा जारी 65b पैरामीटर LLM
(ai.facebook.com)- 7B, 13B, 33B, 65B के 4 अलग-अलग साइज़ में जारी किया गया
- आकार में काफी छोटा होने के बावजूद, डेटा ट्रेनिंग को बेहतर बनाकर और fine-tuning के जरिए बड़े मॉडलों के मुकाबले की क्षमता वाला एक efficient मॉडल
- 33B/65B को 1.4 ट्रिलियन tokens पर train किया गया (7B को 1 ट्रिलियन पर)
- "13B मॉडल, 175B वाले GPT-3 से बेहतर है, और 65B कहीं बड़े Chinchilla70B तथा PaLM-540B के साथ प्रतिस्पर्धा कर सकता है"
- AI research आदि गैर-व्यावसायिक उपयोगों के लिए ही उपलब्ध (आवेदन और स्वीकृति आवश्यक)
अभी कोई टिप्पणी नहीं है.