Qwen2.5 - कई foundation models जारी

xguru · 2024-09-20T11:22:54+09:00

Qwen2.5 में LLM Qwen2.5, कोडिंग के लिए Qwen2.5-Coder, गणित के लिए Qwen2.5-Math जैसे specialized models शामिल हैं सभी open weight models dense decoder-only language models हैं और 0.5B से 72B तक कई sizes में उपलब्ध हैं 3B और 72B models को छोड़कर सभी open source models Apache 2.0 license के तहत उपलब्ध हैं flagship language models Qwen-Plus और Qwen-Turbo, Model Studio के माध्यम से API के रूप में उपलब्ध हैं Qwen2-VL-72B को भी open source के रूप में जारी किया गया है, और इसकी performance पिछले महीने के version की तुलना में बेहतर हुई है Qwen2.5 की विशेषताएँ अधिकतम 18 ट्रिलियन tokens वाले बड़े dataset पर pretraining की गई है, जिससे Qwen2 की तुलना में knowledge काफी बढ़ा है (MMLU: 85+) coding (HumanEval 85+) और math (MATH 80+) क्षमता में भी बड़ा सुधार हुआ है instructions follow करना, लंबे text generation (8K tokens से अधिक), structured data understanding (जैसे tables), और JSON जैसे structured output generation की क्षमता में बड़ा सुधार हुआ है system prompt diversity के प्रति अधिक robust होने से chatbot role execution और condition setting आसान हो गई है Qwen2 की तरह, Qwen2.5 language models अधिकतम 128K tokens support करते हैं और अधिकतम 8K tokens generate कर सकते हैं Chinese, English, French, Spanish, Portuguese, German, Italian, Russian, Japanese, Korean, Vietnamese, Thai, Arabic सहित 29 से अधिक भाषाओं को support करते हैं प्रदर्शन Qwen2.5 सबसे बड़े open source model Qwen2.5-72B (72B parameter dense decoder-only language model) की performance की तुलना Llama-3.1-70B, Mistral-Large-V2 जैसे प्रमुख open source models से की गई है विभिन्न benchmarks में instruction-tuned versions के व्यापक परिणाम दिए गए हैं, जिनसे model capability और human preference दोनों का मूल्यांकन किया गया है instruction-tuned language models के अलावा, Qwen2.5-72B का base language model भी Llama-3-405B जैसे बड़े models की तुलना में top-tier performance दिखाता है API-based model Qwen-Plus के नवीनतम version की तुलना GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B, DeepSeek-V2.5 जैसे प्रसिद्ध proprietary और open source models से की गई है Qwen-Plus DeepSeek-V2.5 से काफी बेहतर प्रदर्शन करता है और Llama-3.1-405B के बराबर प्रदर्शन दिखाता है, लेकिन कुछ पहलुओं में GPT4-o और Claude-3.5-Sonnet से पीछे है Qwen2.5-14B और Qwen2.5-32B को फिर से पेश किया गया है। ये models Phi-3.5-MoE-Instruct, Gemma2-27B-IT जैसे समान या बड़े baseline models से बेहतर हैं API-based model Qwen-Turbo उचित कीमत पर तेज सेवा देता है और दो open source models की तुलना में बहुत competitive performance दिखाता है Qwen2.5-3B लगभग 3 अरब parameters के साथ बेहद प्रभावशाली performance देता है और पिछले version की तुलना में इसकी efficiency और capability बेहतर है benchmark evaluation improvements के अलावा, post-training methodology में भी सुधार किया गया है। 4 प्रमुख updates हैं: अधिकतम 8K tokens तक long text generation support, structured data understanding में बड़ा सुधार, JSON format जैसे structured outputs का generation अधिक reliable होना, और विभिन्न system prompts में बेहतर performance जिससे role execution में मदद मिलती है Qwen2.5-Coder CodeQwen1.5 के जारी होने के बाद, debugging, coding-related questions के answers, code suggestions जैसे कई coding tasks के लिए इस model पर निर्भर करने वाले users बढ़ गए हैं नवीनतम version Qwen2.5-Coder को coding applications के लिए विशेष रूप से design किया गया है छोटे size के बावजूद, यह विभिन्न programming languages और tasks में बड़े language models से बेहतर प्रदर्शन करते हुए उत्कृष्ट coding क्षमता दिखाता है Qwen2.5-Math पिछले महीने पहली बार math-specific language model Qwen2-Math जारी किया गया था, और Qwen2-Math की तुलना में Qwen2.5-Math को Qwen2-Math द्वारा generated synthetic data सहित बड़े पैमाने के math-related data पर pretrain किया गया है इस बार Chinese support को बढ़ाया गया है और CoT, PoT, TIR execution capability देकर reasoning क्षमता को भी मजबूत किया गया है Qwen2.5-Math-72B-Instruct की सामान्य performance, Qwen2-Math-72B-Instruct और GPT4-o से बेहतर है, और Qwen2.5-Math-1.5B-Instruct जैसे बहुत छोटे expert models भी बड़े language models की तुलना में बेहद competitive performance दे सकते हैं Qwen2.5 के साथ development Qwen2.5 को vLLM के साथ उपयोग करने के लिए, निम्न command से OpenAI API-compatible service deploy की जा सकती है: Qwen2.5, vllm के built-in tool calling को support करता है। इस feature के लिए vllm>=0.6 आवश्यक है Qwen2.5, Ollama ke tool calling को भी support करता है Hugging Face transformers ke tool calling support भी उपलब्ध है पहले Qwen-Agent ने Qwen2 के native tool calling template का उपयोग करके tool calling support दिया था, और Qwen2.5, Qwen2 template तथा Qwen-Agent के साथ compatibility बनाए रखता है आगे की योजना? एक साथ कई high-quality models जारी करके खुशी है, लेकिन यह भी पता है कि अभी भी बड़े challenges बाकी हैं हाल की releases से यह दिखाया गया है कि language, vision-language, audio-language क्षेत्रों में मजबूत foundation models विकसित करने के लिए काम किया जा रहा है लेकिन इन विभिन्न modalities को एक ही model में integrate करना महत्वपूर्ण है, ताकि सभी domains में information को seamless तरीके से process किया जा सके data scaling के माध्यम से reasoning क्षमता में सुधार किया गया है, लेकिन हाल के reinforcement learning advances से प्रेरित होकर inference compute को scale करके model की reasoning क्षमता को और बेहतर बनाने के लिए प्रतिबद्ध हैं

(qwenlm.github.io)

7 पॉइंट द्वारा xguru 2024-09-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Qwen2.5 में LLM Qwen2.5, कोडिंग के लिए Qwen2.5-Coder, गणित के लिए Qwen2.5-Math जैसे specialized models शामिल हैं
सभी open weight models dense decoder-only language models हैं और 0.5B से 72B तक कई sizes में उपलब्ध हैं
3B और 72B models को छोड़कर सभी open source models Apache 2.0 license के तहत उपलब्ध हैं
flagship language models Qwen-Plus और Qwen-Turbo, Model Studio के माध्यम से API के रूप में उपलब्ध हैं
Qwen2-VL-72B को भी open source के रूप में जारी किया गया है, और इसकी performance पिछले महीने के version की तुलना में बेहतर हुई है

Qwen2.5 की विशेषताएँ

अधिकतम 18 ट्रिलियन tokens वाले बड़े dataset पर pretraining की गई है, जिससे Qwen2 की तुलना में knowledge काफी बढ़ा है (MMLU: 85+)
coding (HumanEval 85+) और math (MATH 80+) क्षमता में भी बड़ा सुधार हुआ है
instructions follow करना, लंबे text generation (8K tokens से अधिक), structured data understanding (जैसे tables), और JSON जैसे structured output generation की क्षमता में बड़ा सुधार हुआ है
system prompt diversity के प्रति अधिक robust होने से chatbot role execution और condition setting आसान हो गई है
Qwen2 की तरह, Qwen2.5 language models अधिकतम 128K tokens support करते हैं और अधिकतम 8K tokens generate कर सकते हैं
Chinese, English, French, Spanish, Portuguese, German, Italian, Russian, Japanese, Korean, Vietnamese, Thai, Arabic सहित 29 से अधिक भाषाओं को support करते हैं

प्रदर्शन

Qwen2.5

सबसे बड़े open source model Qwen2.5-72B (72B parameter dense decoder-only language model) की performance की तुलना Llama-3.1-70B, Mistral-Large-V2 जैसे प्रमुख open source models से की गई है
विभिन्न benchmarks में instruction-tuned versions के व्यापक परिणाम दिए गए हैं, जिनसे model capability और human preference दोनों का मूल्यांकन किया गया है
instruction-tuned language models के अलावा, Qwen2.5-72B का base language model भी Llama-3-405B जैसे बड़े models की तुलना में top-tier performance दिखाता है
API-based model Qwen-Plus के नवीनतम version की तुलना GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B, DeepSeek-V2.5 जैसे प्रसिद्ध proprietary और open source models से की गई है
- Qwen-Plus DeepSeek-V2.5 से काफी बेहतर प्रदर्शन करता है और Llama-3.1-405B के बराबर प्रदर्शन दिखाता है, लेकिन कुछ पहलुओं में GPT4-o और Claude-3.5-Sonnet से पीछे है
Qwen2.5-14B और Qwen2.5-32B को फिर से पेश किया गया है। ये models Phi-3.5-MoE-Instruct, Gemma2-27B-IT जैसे समान या बड़े baseline models से बेहतर हैं
API-based model Qwen-Turbo उचित कीमत पर तेज सेवा देता है और दो open source models की तुलना में बहुत competitive performance दिखाता है
Qwen2.5-3B लगभग 3 अरब parameters के साथ बेहद प्रभावशाली performance देता है और पिछले version की तुलना में इसकी efficiency और capability बेहतर है
benchmark evaluation improvements के अलावा, post-training methodology में भी सुधार किया गया है। 4 प्रमुख updates हैं: अधिकतम 8K tokens तक long text generation support, structured data understanding में बड़ा सुधार, JSON format जैसे structured outputs का generation अधिक reliable होना, और विभिन्न system prompts में बेहतर performance जिससे role execution में मदद मिलती है

Qwen2.5-Coder

CodeQwen1.5 के जारी होने के बाद, debugging, coding-related questions के answers, code suggestions जैसे कई coding tasks के लिए इस model पर निर्भर करने वाले users बढ़ गए हैं
नवीनतम version Qwen2.5-Coder को coding applications के लिए विशेष रूप से design किया गया है
छोटे size के बावजूद, यह विभिन्न programming languages और tasks में बड़े language models से बेहतर प्रदर्शन करते हुए उत्कृष्ट coding क्षमता दिखाता है

Qwen2.5-Math

पिछले महीने पहली बार math-specific language model Qwen2-Math जारी किया गया था, और Qwen2-Math की तुलना में Qwen2.5-Math को Qwen2-Math द्वारा generated synthetic data सहित बड़े पैमाने के math-related data पर pretrain किया गया है
इस बार Chinese support को बढ़ाया गया है और CoT, PoT, TIR execution capability देकर reasoning क्षमता को भी मजबूत किया गया है
Qwen2.5-Math-72B-Instruct की सामान्य performance, Qwen2-Math-72B-Instruct और GPT4-o से बेहतर है, और Qwen2.5-Math-1.5B-Instruct जैसे बहुत छोटे expert models भी बड़े language models की तुलना में बेहद competitive performance दे सकते हैं

Qwen2.5 के साथ development

Qwen2.5 को vLLM के साथ उपयोग करने के लिए, निम्न command से OpenAI API-compatible service deploy की जा सकती है:
Qwen2.5, vllm के built-in tool calling को support करता है। इस feature के लिए vllm>=0.6 आवश्यक है
Qwen2.5, Ollama ke tool calling को भी support करता है
Hugging Face transformers ke tool calling support भी उपलब्ध है
पहले Qwen-Agent ने Qwen2 के native tool calling template का उपयोग करके tool calling support दिया था, और Qwen2.5, Qwen2 template तथा Qwen-Agent के साथ compatibility बनाए रखता है

आगे की योजना?

एक साथ कई high-quality models जारी करके खुशी है, लेकिन यह भी पता है कि अभी भी बड़े challenges बाकी हैं
हाल की releases से यह दिखाया गया है कि language, vision-language, audio-language क्षेत्रों में मजबूत foundation models विकसित करने के लिए काम किया जा रहा है
लेकिन इन विभिन्न modalities को एक ही model में integrate करना महत्वपूर्ण है, ताकि सभी domains में information को seamless तरीके से process किया जा सके
data scaling के माध्यम से reasoning क्षमता में सुधार किया गया है, लेकिन हाल के reinforcement learning advances से प्रेरित होकर inference compute को scale करके model की reasoning क्षमता को और बेहतर बनाने के लिए प्रतिबद्ध हैं

1 टिप्पणियां

xguru 2024-09-20

Alibaba, ओपन सोर्स AI मॉडल QWEN जारी
Alibaba, Qwen 2 मॉडल जारी