Alibaba ने Qwen 2 मॉडल पेश किया
(qwenlm.github.io)- Qwen2, Qwen1.5 से विकसित मॉडल है, जिसमें 5 आकारों के pre-trained और instruction-tuned मॉडल शामिल हैं
- मॉडल आकार हैं Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
- English और Chinese के अलावा 27 भाषाओं के डेटा पर अतिरिक्त training की गई
- कई benchmark evaluations में state-of-the-art प्रदर्शन दिखाता है, और coding तथा mathematics में प्रदर्शन में बड़ा सुधार हुआ है
- Qwen2-7B-Instruct और Qwen2-72B-Instruct मॉडल YARN का उपयोग कर अधिकतम 128K tokens की विस्तारित context length को support करते हैं
Qwen2 मॉडल जानकारी
- सभी मॉडल आकारों में Group Query Attention(GQA) लागू किया गया है, जिससे inference speed बढ़ती है और memory usage घटता है
- छोटे मॉडलों के लिए embedding tying technique को प्राथमिकता दी गई है
- instruction-tuned मॉडलों की context length संभालने की क्षमता का मूल्यांकन Needle in a Haystack task evaluation से किया गया
- YARN तकनीक के जरिए Qwen2-7B-Instruct और Qwen2-72B-Instruct 128K tokens तक प्रोसेस कर सकते हैं
प्रदर्शन
- English, Chinese के अलावा 27 भाषाओं के datasets पर pre-training और instruction tuning करके multilingual क्षमता को मजबूत किया गया
- code-switching संभालने की क्षमता में बड़ा सुधार हुआ
- pre-training dataset और optimized training methods का उपयोग करके Qwen2-72B ने Llama-3-70B जैसे नवीनतम मॉडलों से बेहतर प्रदर्शन दिखाया
- post-training के जरिए coding, mathematics, reasoning, instruction following और multilingual understanding जैसी क्षमताओं को और बेहतर किया गया, साथ ही human values alignment भी हासिल किया गया
- 16 benchmarks में Qwen2-72B-Instruct ने Qwen1.5-72B-Chat को काफी पीछे छोड़ा और Llama-3-70B-Instruct के बराबरी का प्रदर्शन दिखाया
- छोटे आकार के Qwen2 मॉडल भी समान या बड़े SOTA मॉडलों को पीछे छोड़ते हैं। खासकर coding और Chinese से जुड़े metrics में ये अलग नजर आते हैं
प्रमुख बातें
- CodeQwen1.5 के code training अनुभव और डेटा को एकीकृत करके Qwen2-72B-Instruct की विभिन्न programming languages में performance को काफी बेहतर किया गया
- व्यापक और उच्च-गुणवत्ता वाले datasets का उपयोग कर Qwen2-72B-Instruct की mathematics problem-solving क्षमता को मजबूत किया गया
- 128K लंबाई वाले information extraction tasks को Qwen2-72B-Instruct पूरी तरह संभाल सकता है
- 10 लाख tokens वाले documents को प्रोसेस करने के लिए एक efficient agent solution भी open source किया गया
- multilingual harmful queries के 4 प्रकारों पर harmful response rate का मूल्यांकन करने पर, Qwen2-72B-Instruct ने GPT-4 के समान स्तर की safety दिखाई और Mistral-8x22B से काफी बेहतर रहा
Qwen2 का उपयोग
- सभी मॉडल Hugging Face और ModelScope पर जारी किए गए हैं और स्वतंत्र रूप से उपयोग किए जा सकते हैं
- Qwen2-72B और instruction-tuned मॉडल Qianwen License के तहत हैं, जबकि बाकी मॉडल Apache 2.0 license अपनाते हैं
- विभिन्न third-party frameworks के साथ Qwen2 का उपयोग कैसे करें, इसके लिए प्रत्येक framework के docs और official docs देखें
Qwen2 की भविष्य की योजनाएं
- बड़े Qwen2 मॉडलों को train करके data scaling के साथ model scaling की भी जांच करने की योजना है
- Qwen2 को vision और audio जानकारी समझ सकने वाले multimodal language model में विस्तारित करने की योजना है
- आगे भी नए मॉडलों को open source करके open source AI के विकास को तेज किया जाएगा
1 टिप्पणियां
Alibaba, ओपन सोर्स AI मॉडल QWEN जारी
Qwen1.5-110B : Alibaba की ओपन सोर्स LLM Qwen1.5 सीरीज़ का पहला 100B+ मॉडल