Qwen1.5-110B : Alibaba की open source LLM Qwen1.5 सीरीज़ का पहला 100B+ मॉडल

xguru · 2024-04-28T09:30:03+09:00

Open source कम्युनिटी में हाल के समय में 100B से अधिक parameters वाले बड़े मॉडल तेज़ी से सामने आ रहे हैं, और benchmark evaluation व chatbot क्षेत्र में शानदार प्रदर्शन दिखा रहे हैं Alibaba ने भी Qwen1.5 सीरीज़ का पहला 100B+ मॉडल, Qwen1.5-110B, पेश किया इसने base model evaluation में Meta-Llama3-70B के बराबरी का प्रदर्शन हासिल किया और MT-Bench व AlpacaEval 2.0 सहित chat evaluations में उत्कृष्ट प्रदर्शन दिखाया Qwen1.5-110B मॉडल की विशेषताएँ Qwen1.5-110B अन्य Qwen1.5 मॉडलों की तरह ही उसी Transformer decoder architecture पर बनाया गया है यह Grouped Query Attention (GQA) से लैस है, जिससे model serving अधिक efficient होती है यह 32K tokens context length को support करता है और English, Chinese, French, Spanish, German, Russian, Korean, Japanese, Vietnamese और Arabic सहित कई भाषाओं को support करने वाला multilingual मॉडल है base language model evaluation के परिणाम base language model पर कई evaluations किए गए और इसकी तुलना हालिया SOTA language models Meta-Llama3-70B और Mixtral-8x22B से की गई परिणामों के अनुसार, नया 110B मॉडल base capabilities के मामले में कम से कम Llama-3-70B मॉडल जितना प्रतिस्पर्धी है इस मॉडल के लिए pre-training और post-training recipe में कोई बड़ा बदलाव नहीं किया गया, इसलिए 72B की तुलना में प्रदर्शन सुधार का मुख्य कारण मॉडल आकार में वृद्धि लगता है chat model evaluation के परिणाम MT-Bench और AlpacaEval 2.0 पर chat model का परीक्षण किया गया पहले जारी किए गए 72B मॉडल की तुलना में 110B ने दोनों benchmark evaluations में उल्लेखनीय रूप से बेहतर प्रदर्शन दिखाया evaluations में लगातार सुधार यह दिखाता है कि post-training recipe में बड़े बदलाव किए बिना भी अधिक शक्तिशाली और बड़ा base language model बेहतर chat model दे सकता है Qwen1.5-110B के साथ development Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl और LLaMA-Factory आदि के साथ इसका उपयोग कैसे करें, यह समझने के लिए Qwen1.5 ब्लॉग पढ़ने की सलाह दी गई है निष्कर्ष Qwen1.5-110B, Qwen1.5 सीरीज़ का सबसे बड़ा मॉडल है और इस सीरीज़ का पहला ऐसा मॉडल है जिसमें 100B से अधिक parameters हैं यह हाल ही में जारी SOTA मॉडल Llama-3-70B के मुकाबले प्रतिस्पर्धी प्रदर्शन दिखाता है और 72B मॉडल से काफ़ी बेहतर है इससे संकेत मिलता है कि बेहतर प्रदर्शन के लिए मॉडल आकार बढ़ाने में अभी भी काफी संभावनाएँ हैं Llama-3 की रिलीज़ यह दिखाती है कि data को बेहद बड़े पैमाने पर scale करना कितना महत्वपूर्ण है, और उम्मीद है कि भविष्य की रिलीज़ में data और model size दोनों को scale करके दोनों दुनियाओं के फायदे हासिल किए जा सकेंगे

(qwenlm.github.io)

5 पॉइंट द्वारा xguru 2024-04-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Open source कम्युनिटी में हाल के समय में 100B से अधिक parameters वाले बड़े मॉडल तेज़ी से सामने आ रहे हैं, और benchmark evaluation व chatbot क्षेत्र में शानदार प्रदर्शन दिखा रहे हैं
Alibaba ने भी Qwen1.5 सीरीज़ का पहला 100B+ मॉडल, Qwen1.5-110B, पेश किया
इसने base model evaluation में Meta-Llama3-70B के बराबरी का प्रदर्शन हासिल किया और MT-Bench व AlpacaEval 2.0 सहित chat evaluations में उत्कृष्ट प्रदर्शन दिखाया

Qwen1.5-110B मॉडल की विशेषताएँ

Qwen1.5-110B अन्य Qwen1.5 मॉडलों की तरह ही उसी Transformer decoder architecture पर बनाया गया है
यह Grouped Query Attention (GQA) से लैस है, जिससे model serving अधिक efficient होती है
यह 32K tokens context length को support करता है और English, Chinese, French, Spanish, German, Russian, Korean, Japanese, Vietnamese और Arabic सहित कई भाषाओं को support करने वाला multilingual मॉडल है

base language model evaluation के परिणाम

base language model पर कई evaluations किए गए और इसकी तुलना हालिया SOTA language models Meta-Llama3-70B और Mixtral-8x22B से की गई
परिणामों के अनुसार, नया 110B मॉडल base capabilities के मामले में कम से कम Llama-3-70B मॉडल जितना प्रतिस्पर्धी है
इस मॉडल के लिए pre-training और post-training recipe में कोई बड़ा बदलाव नहीं किया गया, इसलिए 72B की तुलना में प्रदर्शन सुधार का मुख्य कारण मॉडल आकार में वृद्धि लगता है

chat model evaluation के परिणाम

MT-Bench और AlpacaEval 2.0 पर chat model का परीक्षण किया गया
पहले जारी किए गए 72B मॉडल की तुलना में 110B ने दोनों benchmark evaluations में उल्लेखनीय रूप से बेहतर प्रदर्शन दिखाया
evaluations में लगातार सुधार यह दिखाता है कि post-training recipe में बड़े बदलाव किए बिना भी अधिक शक्तिशाली और बड़ा base language model बेहतर chat model दे सकता है

Qwen1.5-110B के साथ development

Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl और LLaMA-Factory आदि के साथ इसका उपयोग कैसे करें, यह समझने के लिए Qwen1.5 ब्लॉग पढ़ने की सलाह दी गई है

निष्कर्ष

Qwen1.5-110B, Qwen1.5 सीरीज़ का सबसे बड़ा मॉडल है और इस सीरीज़ का पहला ऐसा मॉडल है जिसमें 100B से अधिक parameters हैं
यह हाल ही में जारी SOTA मॉडल Llama-3-70B के मुकाबले प्रतिस्पर्धी प्रदर्शन दिखाता है और 72B मॉडल से काफ़ी बेहतर है
इससे संकेत मिलता है कि बेहतर प्रदर्शन के लिए मॉडल आकार बढ़ाने में अभी भी काफी संभावनाएँ हैं
Llama-3 की रिलीज़ यह दिखाती है कि data को बेहद बड़े पैमाने पर scale करना कितना महत्वपूर्ण है, और उम्मीद है कि भविष्य की रिलीज़ में data और model size दोनों को scale करके दोनों दुनियाओं के फायदे हासिल किए जा सकेंगे

1 टिप्पणियां

xguru 2024-04-28

Alibaba, ओपन सोर्स AI मॉडल QWEN जारी