1 पॉइंट द्वारा GN⁺ 2025-01-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen2.5-Max एक बड़े पैमाने का Mixture-of-Experts (MoE) मॉडल है, जिसे 20 ट्रिलियन (20T) से अधिक tokens पर pre-train किया गया है
  • इसके बाद Supervised Fine-Tuning (SFT) और human feedback का उपयोग करने वाले reinforcement learning (RLHF) के जरिए post-training किया गया
  • DeepSeek V3, GPT-4o, Claude-3.5-Sonnet, Llama-3.1-405B आदि के साथ तुलना किए गए अधिकांश benchmarks में इसने शानदार प्रदर्शन दिखाया और बढ़त बनाई
    • Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond आदि में यह DeepSeek V3 से आगे रहा, और MMLU-Pro में भी प्रतिस्पर्धी नतीजे दिखाए।

प्रमुख benchmark परिणाम

  • Arena-Hard: human preference के अनुमान आधारित मूल्यांकन
    Qwen2.5-Max ने 89.4 अंक हासिल किए और सबसे ऊँचा प्रदर्शन दिखाया। यह DeepSeek V3 (85.5), GPT-4o (85.2), Claude-3.5-Sonnet (77.9) से बेहतर रहा। Llama-3.1-405B ने 69.3 अंक के साथ अपेक्षाकृत कम प्रदर्शन दिखाया।
  • MMLU-Pro: university-level knowledge का मूल्यांकन
    Qwen2.5-Max ने 76.1 अंक हासिल किए, जो DeepSeek V3 (75.9) के लगभग बराबर है। GPT-4o (78.0) थोड़ा आगे रहा, लेकिन Qwen2.5-Max ने Claude-3.5-Sonnet (77.0) और Llama-3.1-405B (73.3) से बेहतर प्रदर्शन किया।
  • GPQA-Diamond: सामान्य question-answering क्षमता का मूल्यांकन
    Qwen2.5-Max ने 60.1 अंक के साथ DeepSeek V3 (59.1) को थोड़ा पीछे छोड़ा, जबकि GPT-4o (53.6) और Claude-3.5-Sonnet (51.1) से बेहतर रहा, लेकिन Llama-3.1-405B (65.0) से थोड़ा कम रहा।
  • LiveCodeBench: coding क्षमता का मूल्यांकन
    Qwen2.5-Max ने 38.7 अंक दर्ज किए, जो DeepSeek V3 (37.6) से थोड़ा अधिक है। यह GPT-4o (35.1), Claude-3.5-Sonnet (30.2) और Llama-3.1-405B (38.9) के साथ लगभग समान स्तर पर रहा।
  • LiveBench: समग्र model performance का मूल्यांकन
    Qwen2.5-Max ने 62.2 अंक के साथ सबसे ऊँचा स्कोर दर्ज किया। यह DeepSeek V3 (60.5), GPT-4o (60.3), Claude-3.5-Sonnet (56.0) और Llama-3.1-405B (53.2) से बेहतर रहा।

भविष्य की दिशा

  • डेटा और मॉडल आकार का विस्तार यह दिखाता है कि model intelligence आगे बढ़ रही है, और बड़े language models की thinking और reasoning क्षमता को बेहतर बनाने के लिए शोध जारी है
  • reinforcement learning के नवाचारी उपयोग के जरिए मानव बुद्धिमत्ता से आगे निकलने वाले models विकसित करने और नए ज्ञान व समझ के क्षेत्रों की खोज की संभावनाएँ खुलती हैं

1 टिप्पणियां

 
xguru 2025-01-29

2023-08-03 Alibaba, ओपन सोर्स AI मॉडल QWEN जारी
2024-04-25 Qwen1.5-110B : Alibaba की ओपन सोर्स LLM Qwen1.5 सीरीज़ का पहला 100B+ मॉडल
2024-06-07 Alibaba, Qwen 2 मॉडल जारी
2024-09-19 Qwen2.5 - कई foundation model जारी
2024-11-28 QwQ - ChatGPT o1 जैसा Alibaba का reasoning LLM
2024-12-24 Qwen के नए visual reasoning मॉडल QvQ के इस्तेमाल का अनुभव
2025-01-27 Qwen2.5-1M - 10 लाख token तक सपोर्ट करने वाले Qwen को self-host करना

DeepSeek जहाँ ज़बरदस्त हलचल मचा रहा है, वहीं Qwen भी हर दिन एक-एक करके शानदार नतीजे लगातार निकाल रहा है।
चीनी कंपनियाँ वाकई डराने वाली हैं।