Alibaba ने Qwen 2 मॉडल पेश किया

xguru · 2024-06-08T10:02:01+09:00

Qwen2, Qwen1.5 से विकसित मॉडल है, जिसमें 5 आकारों के pre-trained और instruction-tuned मॉडल शामिल हैं मॉडल आकार हैं Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B English और Chinese के अलावा 27 भाषाओं के डेटा पर अतिरिक्त training की गई कई benchmark evaluations में state-of-the-art प्रदर्शन दिखाता है, और coding तथा mathematics में प्रदर्शन में बड़ा सुधार हुआ है Qwen2-7B-Instruct और Qwen2-72B-Instruct मॉडल YARN का उपयोग कर अधिकतम 128K tokens की विस्तारित context length को support करते हैं Qwen2 मॉडल जानकारी सभी मॉडल आकारों में Group Query Attention(GQA) लागू किया गया है, जिससे inference speed बढ़ती है और memory usage घटता है छोटे मॉडलों के लिए embedding tying technique को प्राथमिकता दी गई है instruction-tuned मॉडलों की context length संभालने की क्षमता का मूल्यांकन Needle in a Haystack task evaluation से किया गया YARN तकनीक के जरिए Qwen2-7B-Instruct और Qwen2-72B-Instruct 128K tokens तक प्रोसेस कर सकते हैं प्रदर्शन English, Chinese के अलावा 27 भाषाओं के datasets पर pre-training और instruction tuning करके multilingual क्षमता को मजबूत किया गया code-switching संभालने की क्षमता में बड़ा सुधार हुआ pre-training dataset और optimized training methods का उपयोग करके Qwen2-72B ने Llama-3-70B जैसे नवीनतम मॉडलों से बेहतर प्रदर्शन दिखाया post-training के जरिए coding, mathematics, reasoning, instruction following और multilingual understanding जैसी क्षमताओं को और बेहतर किया गया, साथ ही human values alignment भी हासिल किया गया 16 benchmarks में Qwen2-72B-Instruct ने Qwen1.5-72B-Chat को काफी पीछे छोड़ा और Llama-3-70B-Instruct के बराबरी का प्रदर्शन दिखाया छोटे आकार के Qwen2 मॉडल भी समान या बड़े SOTA मॉडलों को पीछे छोड़ते हैं। खासकर coding और Chinese से जुड़े metrics में ये अलग नजर आते हैं प्रमुख बातें CodeQwen1.5 के code training अनुभव और डेटा को एकीकृत करके Qwen2-72B-Instruct की विभिन्न programming languages में performance को काफी बेहतर किया गया व्यापक और उच्च-गुणवत्ता वाले datasets का उपयोग कर Qwen2-72B-Instruct की mathematics problem-solving क्षमता को मजबूत किया गया 128K लंबाई वाले information extraction tasks को Qwen2-72B-Instruct पूरी तरह संभाल सकता है 10 लाख tokens वाले documents को प्रोसेस करने के लिए एक efficient agent solution भी open source किया गया multilingual harmful queries के 4 प्रकारों पर harmful response rate का मूल्यांकन करने पर, Qwen2-72B-Instruct ने GPT-4 के समान स्तर की safety दिखाई और Mistral-8x22B से काफी बेहतर रहा Qwen2 का उपयोग सभी मॉडल Hugging Face और ModelScope पर जारी किए गए हैं और स्वतंत्र रूप से उपयोग किए जा सकते हैं Qwen2-72B और instruction-tuned मॉडल Qianwen License के तहत हैं, जबकि बाकी मॉडल Apache 2.0 license अपनाते हैं विभिन्न third-party frameworks के साथ Qwen2 का उपयोग कैसे करें, इसके लिए प्रत्येक framework के docs और official docs देखें Qwen2 की भविष्य की योजनाएं बड़े Qwen2 मॉडलों को train करके data scaling के साथ model scaling की भी जांच करने की योजना है Qwen2 को vision और audio जानकारी समझ सकने वाले multimodal language model में विस्तारित करने की योजना है आगे भी नए मॉडलों को open source करके open source AI के विकास को तेज किया जाएगा

(qwenlm.github.io)

5 पॉइंट द्वारा xguru 2024-06-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Qwen2, Qwen1.5 से विकसित मॉडल है, जिसमें 5 आकारों के pre-trained और instruction-tuned मॉडल शामिल हैं
- मॉडल आकार हैं Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
English और Chinese के अलावा 27 भाषाओं के डेटा पर अतिरिक्त training की गई
कई benchmark evaluations में state-of-the-art प्रदर्शन दिखाता है, और coding तथा mathematics में प्रदर्शन में बड़ा सुधार हुआ है
Qwen2-7B-Instruct और Qwen2-72B-Instruct मॉडल YARN का उपयोग कर अधिकतम 128K tokens की विस्तारित context length को support करते हैं

Qwen2 मॉडल जानकारी

सभी मॉडल आकारों में Group Query Attention(GQA) लागू किया गया है, जिससे inference speed बढ़ती है और memory usage घटता है
छोटे मॉडलों के लिए embedding tying technique को प्राथमिकता दी गई है
instruction-tuned मॉडलों की context length संभालने की क्षमता का मूल्यांकन Needle in a Haystack task evaluation से किया गया
YARN तकनीक के जरिए Qwen2-7B-Instruct और Qwen2-72B-Instruct 128K tokens तक प्रोसेस कर सकते हैं

प्रदर्शन

English, Chinese के अलावा 27 भाषाओं के datasets पर pre-training और instruction tuning करके multilingual क्षमता को मजबूत किया गया
code-switching संभालने की क्षमता में बड़ा सुधार हुआ
pre-training dataset और optimized training methods का उपयोग करके Qwen2-72B ने Llama-3-70B जैसे नवीनतम मॉडलों से बेहतर प्रदर्शन दिखाया
post-training के जरिए coding, mathematics, reasoning, instruction following और multilingual understanding जैसी क्षमताओं को और बेहतर किया गया, साथ ही human values alignment भी हासिल किया गया
16 benchmarks में Qwen2-72B-Instruct ने Qwen1.5-72B-Chat को काफी पीछे छोड़ा और Llama-3-70B-Instruct के बराबरी का प्रदर्शन दिखाया
छोटे आकार के Qwen2 मॉडल भी समान या बड़े SOTA मॉडलों को पीछे छोड़ते हैं। खासकर coding और Chinese से जुड़े metrics में ये अलग नजर आते हैं

प्रमुख बातें

CodeQwen1.5 के code training अनुभव और डेटा को एकीकृत करके Qwen2-72B-Instruct की विभिन्न programming languages में performance को काफी बेहतर किया गया
व्यापक और उच्च-गुणवत्ता वाले datasets का उपयोग कर Qwen2-72B-Instruct की mathematics problem-solving क्षमता को मजबूत किया गया
128K लंबाई वाले information extraction tasks को Qwen2-72B-Instruct पूरी तरह संभाल सकता है
10 लाख tokens वाले documents को प्रोसेस करने के लिए एक efficient agent solution भी open source किया गया
multilingual harmful queries के 4 प्रकारों पर harmful response rate का मूल्यांकन करने पर, Qwen2-72B-Instruct ने GPT-4 के समान स्तर की safety दिखाई और Mistral-8x22B से काफी बेहतर रहा

Qwen2 का उपयोग

सभी मॉडल Hugging Face और ModelScope पर जारी किए गए हैं और स्वतंत्र रूप से उपयोग किए जा सकते हैं
Qwen2-72B और instruction-tuned मॉडल Qianwen License के तहत हैं, जबकि बाकी मॉडल Apache 2.0 license अपनाते हैं
विभिन्न third-party frameworks के साथ Qwen2 का उपयोग कैसे करें, इसके लिए प्रत्येक framework के docs और official docs देखें

Qwen2 की भविष्य की योजनाएं

बड़े Qwen2 मॉडलों को train करके data scaling के साथ model scaling की भी जांच करने की योजना है
Qwen2 को vision और audio जानकारी समझ सकने वाले multimodal language model में विस्तारित करने की योजना है
आगे भी नए मॉडलों को open source करके open source AI के विकास को तेज किया जाएगा

1 टिप्पणियां

xguru 2024-06-08

Alibaba, ओपन सोर्स AI मॉडल QWEN जारी
Qwen1.5-110B : Alibaba की ओपन सोर्स LLM Qwen1.5 सीरीज़ का पहला 100B+ मॉडल