Meta Llama 3 की घोषणा के बाद पहले हफ्ते में क्या हुआ
(ai.meta.com)- 18/4 को Llama 3 मॉडल के सार्वजनिक होने के बाद डेवलपर कम्युनिटी की प्रतिक्रिया बेहद ज़बरदस्त रही
- मॉडल को 12 लाख से अधिक बार डाउनलोड किया गया, और Hugging Face पर डेवलपर्स ने 600 से अधिक derivative models साझा किए
- Llama 3 GitHub repository को 17,000 से अधिक stars मिले
- LMSYS Chatbot Arena leaderboard में Llama 3 70B Instruct मॉडल ने केवल English evaluation में पहला स्थान हासिल किया, और कुल मिलाकर छठा स्थान पाया, जिससे यह public models में सबसे ऊंची रैंकिंग वाला मॉडल बन गया (बंद proprietary models के बाद)
Llama 3 के शुरुआती उपयोग के मामले
- silicon, hardware, और cloud provider पार्टनर्स ने Llama 3 को उपयोगकर्ताओं तक पहुंचाना शुरू कर दिया
- Yale University School of Medicine ने EPFL School of Computer and Communication Sciences के साथ मिलकर Llama 3 रिलीज़ होने के 24 घंटे के भीतर Llama 3 को fine-tune किया और चिकित्सा क्षेत्र का पहला Llama 3 8B मॉडल, Llama-3[8B]-MeditronV1.0, पेश किया
- इस नए मॉडल ने MedQA, MedMCQA जैसे standard benchmarks पर समान parameter grade के सभी नवीनतम open models से बेहतर प्रदर्शन किया
- Yale University और EPFL ने Llama 2 के आधार पर Meditron का पहला संस्करण कैसे बनाया, इसकी अधिक जानकारी संबंधित लिंक में देखी जा सकती है
Llama 3 की आगे की योजना
- आने वाले महीनों में multimodal, बहुभाषी conversation, लंबी context window, और समग्र क्षमता सुधार जैसी नई खूबियों वाले मॉडल जारी किए जाएंगे
- जल्द ही और जानकारी साझा करने और community-driven innovation की अगली लहर देखने की उम्मीद है
3 टिप्पणियां
लगता है कि देश की बड़ी कंपनियों के LLM अब धीरे-धीरे प्रतिस्पर्धात्मक बढ़त खोते जा रहे हैं। अगर closed model उनकी रणनीति है, तो performance में पर्याप्त प्रतिस्पर्धी होना चाहिए; या अगर performance थोड़ी कम होने पर भी उपयोग के मामलों का विस्तार उनकी रणनीति है, तो फिर Korean language केंद्रित होने को आगे नहीं रखना चाहिए — लेकिन यहाँ स्थिति बिल्कुल उलटी है।
कोरियन लीडरबोर्ड में बस बेकार की weight competition ही कर रहे हैं, और उसी से खबरें बनाकर stock price बचाने की कोशिश कर रहे हैं haha