5 पॉइंट द्वारा xguru 2024-06-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen2, Qwen1.5 से विकसित मॉडल है, जिसमें 5 आकारों के pre-trained और instruction-tuned मॉडल शामिल हैं
    • मॉडल आकार हैं Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
  • English और Chinese के अलावा 27 भाषाओं के डेटा पर अतिरिक्त training की गई
  • कई benchmark evaluations में state-of-the-art प्रदर्शन दिखाता है, और coding तथा mathematics में प्रदर्शन में बड़ा सुधार हुआ है
  • Qwen2-7B-Instruct और Qwen2-72B-Instruct मॉडल YARN का उपयोग कर अधिकतम 128K tokens की विस्तारित context length को support करते हैं

Qwen2 मॉडल जानकारी

  • सभी मॉडल आकारों में Group Query Attention(GQA) लागू किया गया है, जिससे inference speed बढ़ती है और memory usage घटता है
  • छोटे मॉडलों के लिए embedding tying technique को प्राथमिकता दी गई है
  • instruction-tuned मॉडलों की context length संभालने की क्षमता का मूल्यांकन Needle in a Haystack task evaluation से किया गया
  • YARN तकनीक के जरिए Qwen2-7B-Instruct और Qwen2-72B-Instruct 128K tokens तक प्रोसेस कर सकते हैं

प्रदर्शन

  • English, Chinese के अलावा 27 भाषाओं के datasets पर pre-training और instruction tuning करके multilingual क्षमता को मजबूत किया गया
  • code-switching संभालने की क्षमता में बड़ा सुधार हुआ
  • pre-training dataset और optimized training methods का उपयोग करके Qwen2-72B ने Llama-3-70B जैसे नवीनतम मॉडलों से बेहतर प्रदर्शन दिखाया
  • post-training के जरिए coding, mathematics, reasoning, instruction following और multilingual understanding जैसी क्षमताओं को और बेहतर किया गया, साथ ही human values alignment भी हासिल किया गया
  • 16 benchmarks में Qwen2-72B-Instruct ने Qwen1.5-72B-Chat को काफी पीछे छोड़ा और Llama-3-70B-Instruct के बराबरी का प्रदर्शन दिखाया
  • छोटे आकार के Qwen2 मॉडल भी समान या बड़े SOTA मॉडलों को पीछे छोड़ते हैं। खासकर coding और Chinese से जुड़े metrics में ये अलग नजर आते हैं

प्रमुख बातें

  • CodeQwen1.5 के code training अनुभव और डेटा को एकीकृत करके Qwen2-72B-Instruct की विभिन्न programming languages में performance को काफी बेहतर किया गया
  • व्यापक और उच्च-गुणवत्ता वाले datasets का उपयोग कर Qwen2-72B-Instruct की mathematics problem-solving क्षमता को मजबूत किया गया
  • 128K लंबाई वाले information extraction tasks को Qwen2-72B-Instruct पूरी तरह संभाल सकता है
  • 10 लाख tokens वाले documents को प्रोसेस करने के लिए एक efficient agent solution भी open source किया गया
  • multilingual harmful queries के 4 प्रकारों पर harmful response rate का मूल्यांकन करने पर, Qwen2-72B-Instruct ने GPT-4 के समान स्तर की safety दिखाई और Mistral-8x22B से काफी बेहतर रहा

Qwen2 का उपयोग

  • सभी मॉडल Hugging Face और ModelScope पर जारी किए गए हैं और स्वतंत्र रूप से उपयोग किए जा सकते हैं
  • Qwen2-72B और instruction-tuned मॉडल Qianwen License के तहत हैं, जबकि बाकी मॉडल Apache 2.0 license अपनाते हैं
  • विभिन्न third-party frameworks के साथ Qwen2 का उपयोग कैसे करें, इसके लिए प्रत्येक framework के docs और official docs देखें

Qwen2 की भविष्य की योजनाएं

  • बड़े Qwen2 मॉडलों को train करके data scaling के साथ model scaling की भी जांच करने की योजना है
  • Qwen2 को vision और audio जानकारी समझ सकने वाले multimodal language model में विस्तारित करने की योजना है
  • आगे भी नए मॉडलों को open source करके open source AI के विकास को तेज किया जाएगा