8 पॉइंट द्वारा xguru 2023-05-16 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • dataset generation से लेकर tokenization, prompt tuning, LoRA और RLHF तक पूरी pipeline को बनाने वाला open source
  • पहले से pretrain किया गया Open-LLama-V2-pretrain model भी Hugging Face पर जारी
  • FastChat evaluation method के अनुसार GPT-3.5 की तुलना में लगभग 89% performance देता है (चीनी में पूछे गए सवालों पर)
  • training speed 3620 tokens/s है, जो original LLama के 3370 से थोड़ा तेज़ है (7B model)
  • अगर 500B tokens पर training की जाए तो 38300 GPU hours की ज़रूरत होगी
    • Google Cloud में 8 A100-80G Spot GPU को एक घंटे चलाने की लागत 12.6 डॉलर
    • कुल लागत 60300 डॉलर

2 टिप्पणियां

 
zer0ne 2023-05-16

जिज्ञासा है कि 4090 जैसे आम consumer GPU पर ट्रेनिंग करने में कितना समय लगेगा।

 
xguru 2023-05-16

नाम जाना-पहचाना लगा..? इसलिए खोजकर देखा तो
OpenLLaMA - LLaMA का ओपन प्रतिरूप
इससे बस नाम में एक dash का फर्क है, लेकिन सामग्री पूरी तरह अलग प्रोजेक्ट की है।