LLaMA - Meta द्वारा जारी 65b पैरामीटर LLM

xguru · 2023-02-28T10:49:01+09:00

7B, 13B, 33B, 65B के 4 अलग-अलग साइज़ में जारी किया गया आकार में काफी छोटा होने के बावजूद, डेटा ट्रेनिंग को बेहतर बनाकर और fine-tuning के जरिए बड़े मॉडलों के मुकाबले की क्षमता वाला एक efficient मॉडल 33B/65B को 1.4 ट्रिलियन tokens पर train किया गया (7B को 1 ट्रिलियन पर) "13B मॉडल, 175B वाले GPT-3 से बेहतर है, और 65B कहीं बड़े Chinchilla70B तथा PaLM-540B के साथ प्रतिस्पर्धा कर सकता है" AI research आदि गैर-व्यावसायिक उपयोगों के लिए ही उपलब्ध (आवेदन और स्वीकृति आवश्यक)

(ai.facebook.com)

7 पॉइंट द्वारा xguru 2023-02-28 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

7B, 13B, 33B, 65B के 4 अलग-अलग साइज़ में जारी किया गया
आकार में काफी छोटा होने के बावजूद, डेटा ट्रेनिंग को बेहतर बनाकर और fine-tuning के जरिए बड़े मॉडलों के मुकाबले की क्षमता वाला एक efficient मॉडल
33B/65B को 1.4 ट्रिलियन tokens पर train किया गया (7B को 1 ट्रिलियन पर)
"13B मॉडल, 175B वाले GPT-3 से बेहतर है, और 65B कहीं बड़े Chinchilla70B तथा PaLM-540B के साथ प्रतिस्पर्धा कर सकता है"
AI research आदि गैर-व्यावसायिक उपयोगों के लिए ही उपलब्ध (आवेदन और स्वीकृति आवश्यक)

LLaMA - Meta द्वारा जारी 65b पैरामीटर LLM

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.