Qwen2.5-Max: बड़े पैमाने के MoE मॉडल की बुद्धिमत्ता की पड़ताल

(qwenlm.github.io)

1 पॉइंट द्वारा GN⁺ 2025-01-29 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Qwen2.5-Max एक बड़े पैमाने का MoE मॉडल है, जिसे 20 ट्रिलियन से अधिक tokens पर pretrain किया गया है, और SFT व RLHF post-training के बाद Alibaba Cloud API और Qwen Chat में जारी किया गया है
मूल्यांकन में MMLU-Pro, LiveCodeBench, LiveBench और Arena-Hard शामिल हैं, और instruct मॉडल की तुलना chat·coding जैसे वास्तविक downstream उपयोगों पर केंद्रित है
Qwen2.5-Max ने Arena-Hard, LiveBench, LiveCodeBench और GPQA-Diamond में DeepSeek V3 को पीछे छोड़ा, और MMLU-Pro सहित अन्य बेंचमार्क में भी प्रतिस्पर्धी नतीजे दिए
base मॉडल तुलना में GPT-4o और Claude-3.5-Sonnet तक सीधी पहुंच न होने के कारण DeepSeek V3, Llama-3.1-405B और Qwen2.5-72B को तुलना के लिए चुना गया
API मॉडल नाम qwen-max-2025-01-25 है, और यह OpenAI API compatible होने के कारण मौजूदा OpenAI client-आधारित call flow का उपयोग कर सकता है

मॉडल का पैमाना और बेंचमार्क परिणाम

Qwen2.5-Max एक बड़े पैमाने का MoE मॉडल है, जिसे इस धारणा के आधार पर विकसित किया गया कि data size और model size का विस्तार मॉडल की बुद्धिमत्ता में सुधार ला सकता है
मॉडल को 20 ट्रिलियन से अधिक tokens पर pretrain किया गया, और उसके बाद चुने गए Supervised Fine-Tuning(SFT) और Reinforcement Learning from Human Feedback(RLHF) के साथ post-training किया गया
प्रदर्शन मूल्यांकन के लिए प्रमुख knowledge, coding और समग्र क्षमता वाले benchmarks का साथ में उपयोग किया गया
- MMLU-Pro: विश्वविद्यालय-स्तर के प्रश्नों के जरिए knowledge मूल्यांकन
- LiveCodeBench: coding क्षमता का मूल्यांकन
- LiveBench: सामान्य क्षमता का समग्र मूल्यांकन
- Arena-Hard: मानव वरीयता के अधिक करीब मूल्यांकन
instruct मॉडल तुलना में Qwen2.5-Max, DeepSeek V3, GPT-4o और Claude-3.5-Sonnet को साथ रखा गया
- Qwen2.5-Max ने Arena-Hard, LiveBench, LiveCodeBench और GPQA-Diamond में DeepSeek V3 को पीछे छोड़ा
- MMLU-Pro सहित अन्य मूल्यांकनों में भी इसने प्रतिस्पर्धी परिणाम दिखाए
base मॉडल तुलना में GPT-4o और Claude-3.5-Sonnet जैसे proprietary मॉडल उपलब्ध न होने के कारण मूल्यांकन open-weight मॉडल्स पर केंद्रित रहा
- तुलना के मॉडल थे DeepSeek V3, Llama-3.1-405B, Qwen2.5-72B
- Qwen2.5-Max base मॉडल ने अधिकांश benchmarks में स्पष्ट बढ़त दिखाई
आगे के versions का लक्ष्य post-training techniques में सुधार के जरिए और बेहतर प्रदर्शन हासिल करना है

API उपयोग और अगली चुनौतियाँ

Qwen2.5-Max को Qwen Chat में इस्तेमाल किया जा सकता है, जहां सीधे chat करने के साथ artifacts, search आदि भी उपयोग किए जा सकते हैं
API Alibaba Cloud के जरिए उपलब्ध है
- मॉडल नाम qwen-max-2025-01-25 है
- Alibaba Cloud खाता रजिस्टर करने और Model Studio सेवा सक्रिय करने के बाद console में API key बनाई जा सकती है
Qwen API OpenAI API compatible है, इसलिए इसे OpenAI client के साथ call किया जा सकता है

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

आगे का काम विस्तारित reinforcement learning लागू करके बड़े language models की सोच और reasoning क्षमता को बढ़ाने पर केंद्रित है
Qwen2.5 से संबंधित citation जानकारी Qwen2.5 technical report arXiv preprint arXiv:2412.15115 है

2 टिप्पणियां

GN⁺ 2025-01-29

Hacker News की राय

DeepSeek V3 के हालिया रिलीज़ ने दिखाया कि scaling प्रक्रिया की मुख्य बारीकियाँ कितनी उपयोगी हो सकती हैं, ऐसा कहने के बावजूद वे अपनी training जानकारी सार्वजनिक नहीं कर रहे हैं
अगर यह private API है और कोई अतिरिक्त जानकारी नहीं है, तो “o1 के काफ़ी करीब” वाली बात में मेरी खास दिलचस्पी नहीं है
- यह “o1 के काफ़ी करीब” भी नहीं है। तुलना सिर्फ़ पुराने 4o से है
  यह मान लेना ठीक होगा कि Qwen2.5-Max हालिया reasoning models (o1, DeepSeek-R1, Gemini 2.0 Flash Thinking) से कम score करेगा
  reasoning के लिए reinforcement learning लागू करने पर यह बहुत मजबूत model बन सकता है, लेकिन सफल recipes सभी private हैं, इसलिए इसमें समय लग सकता है। इस बीच दूसरे models की reasoning chains के आधार पर supervised fine-tuning (SFT) किया जा सकता है, लेकिन DeepSeek-R1 technical report में भी कहा गया था कि यह reinforcement learning जितना अच्छा नहीं है
मुझे लगा HN के front page पर DeepSeek से जुड़े तीन items हैं, लेकिन पता चला कि यह चौथा था। क्योंकि यह ऐसी पोस्ट थी जिसमें कहा गया था कि Qwen team के पास DeepSeek-V3 से बेहतर एक secret version Qwen है
याद नहीं कि आख़िरी बार HN front page का 20% हिस्सा एक ही topic पर कब था। हालांकि NVIDIA जैसी कंपनी का कल की तरह market cap में 569 billion dollar गंवाना भी कोई आम बात नहीं लगती
- मैं यह भूल गया कि 4 ÷ 30, 20% नहीं होता। असल में यह 13% के करीब है। बेवकूफ़ी भरी गलती थी
HuggingFace demo: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
स्रोत: https://x.com/Alibaba_Qwen/status/1884263157574820053
यह काफ़ी चौंकाने वाला है कि एक चीनी कंपनी ने इसे Chinese New Year की पूर्व संध्या पर घोषित किया। लगता है DeepSeek की announcement ने सचमुच आग लगा दी है
अभी चीनी tech companies में कुछ चल रहा है, यह अपने-आप में हैरानी की बात है
- DeepSeek engineers ज़रूरी capacity से काफ़ी कम पर अटके होंगे और outages से निपटने में पूरी तरह जुटे होंगे। competitors ने या तो पहले ही जल्दबाज़ी में launch कर दिया है, या जो तैयार था उसे चुपचाप निकालने का फैसला किया है। माहौल ऐसा है कि सब बहुत कड़ी मेहनत कर रहे हैं
- यह वैसा ही है जब Gemini, Chatbot Arena leaderboard में नंबर 1 पर आया और OpenAI ने अगले दिन model जारी कर दिया था
यह Qwen का नया सबसे high-performance model लगता है, और अभी API-only है। वे कह रहे हैं कि यह DeepSeek v3 से बेहतर है
- https://chat.qwenlm.ai/ पर model selector के ज़रिए इस्तेमाल किया जा सकता है
मैंने अपना NYT Connections benchmark चलाया, तो 18.6 score आया, जो Qwen 2.5 72B के 14.8 से बेहतर है। बाकी benchmarks भी बाद में चलाने का इरादा है
https://github.com/lechmazur/nyt-connections/
cloud में mixture of experts (MoE) थोड़ा अस्पष्ट-सा लगता है। लेकिन desktop-grade hardware पर यह सच में चमक सकता है
memory धीरे-धीरे तेज़ हो रही है, इसलिए निकट भविष्य में अपेक्षाकृत बड़े models पर भी MoE इतना दर्दनाक रूप से धीमा नहीं रहेगा
weights नहीं हैं तो evidence भी नहीं है
- क्या OpenAI जब नया model launch करेगा, तब भी यही कहोगे?
यह reasoning model नहीं है। अगर benchmarks में इसने DeepSeek V3 को हराया है, तो इसका reasoning model version शायद o1 Pro को भी हरा सकता है

xguru 2025-01-29

2023-08-03 Alibaba, ओपन सोर्स AI मॉडल QWEN जारी
2024-04-25 Qwen1.5-110B : Alibaba की ओपन सोर्स LLM Qwen1.5 सीरीज़ का पहला 100B+ मॉडल
2024-06-07 Alibaba, Qwen 2 मॉडल जारी
2024-09-19 Qwen2.5 - कई foundation model जारी
2024-11-28 QwQ - ChatGPT o1 जैसा Alibaba का reasoning LLM
2024-12-24 Qwen के नए visual reasoning मॉडल QvQ के इस्तेमाल का अनुभव
2025-01-27 Qwen2.5-1M - 10 लाख token तक सपोर्ट करने वाले Qwen को self-host करना

DeepSeek जहाँ ज़बरदस्त हलचल मचा रहा है, वहीं Qwen भी हर दिन एक-एक करके शानदार नतीजे लगातार निकाल रहा है।
चीनी कंपनियाँ वाकई डराने वाली हैं।