Open-LLaMa - LLM बनाने के लिए पूरा training pipeline

xguru · 2023-05-16T10:02:01+09:00

dataset generation से लेकर tokenization, prompt tuning, LoRA और RLHF तक पूरी pipeline को बनाने वाला open source पहले से pretrain किया गया Open-LLama-V2-pretrain model भी Hugging Face पर जारी FastChat evaluation method के अनुसार GPT-3.5 की तुलना में लगभग 89% performance देता है (चीनी में पूछे गए सवालों पर) training speed 3620 tokens/s है, जो original LLama के 3370 से थोड़ा तेज़ है (7B model) अगर 500B tokens पर training की जाए तो 38300 GPU hours की ज़रूरत होगी Google Cloud में 8 A100-80G Spot GPU को एक घंटे चलाने की लागत 12.6 डॉलर कुल लागत 60300 डॉलर

(github.com/s-JoL)

8 पॉइंट द्वारा xguru 2023-05-16 | 2 टिप्पणियां | WhatsApp पर शेयर करें

dataset generation से लेकर tokenization, prompt tuning, LoRA और RLHF तक पूरी pipeline को बनाने वाला open source
पहले से pretrain किया गया Open-LLama-V2-pretrain model भी Hugging Face पर जारी
FastChat evaluation method के अनुसार GPT-3.5 की तुलना में लगभग 89% performance देता है (चीनी में पूछे गए सवालों पर)
training speed 3620 tokens/s है, जो original LLama के 3370 से थोड़ा तेज़ है (7B model)
अगर 500B tokens पर training की जाए तो 38300 GPU hours की ज़रूरत होगी
- Google Cloud में 8 A100-80G Spot GPU को एक घंटे चलाने की लागत 12.6 डॉलर
- कुल लागत 60300 डॉलर

2 टिप्पणियां

zer0ne 2023-05-16

जिज्ञासा है कि 4090 जैसे आम consumer GPU पर ट्रेनिंग करने में कितना समय लगेगा।

xguru 2023-05-16

नाम जाना-पहचाना लगा..? इसलिए खोजकर देखा तो
OpenLLaMA - LLaMA का ओपन प्रतिरूप
इससे बस नाम में एक dash का फर्क है, लेकिन सामग्री पूरी तरह अलग प्रोजेक्ट की है।

Open-LLaMa - LLM बनाने के लिए पूरा training pipeline

संबंधित पढ़ाई

2 टिप्पणियां