QwQ-32B: reinforcement learning के साथ कम parameters में DeepSeek-R1 जैसी performance

(qwenlm.github.io)

3 पॉइंट द्वारा GN⁺ 2025-03-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

QwQ-32B मॉडल 32 अरब parameters वाला मॉडल है, जो DeepSeek-R1 जैसी performance दिखाता है
यह मॉडल बड़े language models की intelligence को मजबूत करने के लिए reinforcement learning (RL) का उपयोग करता है
यह Hugging Face और ModelScope पर Apache 2.0 लाइसेंस के तहत उपलब्ध है, और Qwen Chat के जरिए access किया जा सकता है

प्रदर्शन

QwQ-32B को mathematical reasoning, coding ability और general problem-solving ability को मापने वाले विभिन्न benchmarks पर टेस्ट किया गया
इसकी performance का मूल्यांकन DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, और मूल DeepSeek-R1 के साथ तुलना करके किया गया
- QwQ-32B ने LiveBench और BFCL में सर्वोच्च performance दर्ज की, और IFEval व AIME24 में भी DeepSeek-R1-671B के समान स्तर पर रहा
- LiveCodeBench में यह DeepSeek-R1-671B से थोड़ा पीछे रहा, लेकिन फिर भी अन्य मॉडलों से बेहतर रहा
- कुल मिलाकर, इसने DeepSeek-R1-671B के समान या उससे बेहतर performance दिखाते हुए काफी कम parameters (32.5 अरब vs 671 अरब) के साथ अपनी प्रतिस्पर्धात्मकता साबित की
- यानी, मुख्य बिंदु यह है कि QwQ-32B reinforcement learning से optimized मॉडल है, जिसने काफी छोटे scale के बावजूद top-tier performance हासिल की

reinforcement learning

शुरुआती चरण में math और coding tasks के लिए reinforcement learning (RL) scaling approach अपनाया गया
पारंपरिक reward model की जगह correctness verifier और code execution server का उपयोग किया गया, ताकि final solution की शुद्धता सुनिश्चित हो सके
general abilities के लिए एक अतिरिक्त RL चरण भी है, जो human preferences और agent performance जैसी सामान्य क्षमताओं के performance को बेहतर बनाता है

आगे का काम

Qwen अभी reinforcement learning (RL) को scale करके reasoning ability बढ़ाने के शुरुआती चरण में है
मजबूत किए गए base model और scaled compute resources को मिलाकर artificial general intelligence (AGI) हासिल करने के और करीब पहुंचने की दिशा में काम किया जाएगा
agents और RL के integration के जरिए long-term reasoning को संभव बनाकर अधिक intelligence प्रदर्शित करने की दिशा में भी खोज जारी है

1 टिप्पणियां

GN⁺ 2025-03-06

Hacker News राय

लंबे context length (130k tokens) पर ध्यान देना चाहिए। पर्याप्त context के बिना लंबा CoT बनाना निरर्थक है
- पहला prompt बहुत लंबा था, इसलिए वह task भूल गया
- user ने कोई specific task नहीं दिया था
- शुरुआती निर्देश AI agent की तरह व्यवहार करने के लिए था
- लगता है user ने कोई समस्या देकर step-by-step reasoning करने को कहा था
गणित की पढ़ाई और coding सामान्य reasoning क्षमता को बेहतर बनाते हैं
DeepSeek से 20 गुना छोटा है। यह किस hardware पर चल सकता है, यह जानने की जिज्ञासा है
- शायद 512GB M3 Ultra की ज़रूरत नहीं होगी
- DeepSeek के बराबर है, लेकिन 20 गुना छोटा
चीन की रणनीति open source software और robotics से revenue कमाने की है
- अमेरिका अपनी बढ़त कैसे बनाए रखेगा, यह जानने की जिज्ञासा है
- भारत इस प्रतिस्पर्धा में भाग नहीं ले पा रहा है
Qwen2.5-plus को टेस्ट करने के लिए एक link दिया गया है
इसे 2024 के नवंबर में "preview" के रूप में जारी किया गया था
- यह "रुको" जैसी अभिव्यक्ति का बहुत उपयोग करता है
- कई reasoning tokens बनाने के बाद plot खो देने की समस्या होती है
यह Deepseek-R1 के ठीक नीचे स्थित है
- 32B पर यह बहुत प्रभावशाली है
- कभी-कभी thinking tokens अंतिम उत्तर से 10 गुना बड़े होते हैं
- सप्ताहांत में इसे function calling के साथ टेस्ट करने की योजना है
व्यक्तिगत अनुभव में उल्टा पढ़कर सवाल का जवाब देने वाला टेस्ट किया गया
- "ip fo eulav si tahw" को उल्टा पढ़ने पर "what is value of pi" बनता है
- π का मान लगभग 3.14159 है
- π एक irrational number है, जो अनंत तक बिना दोहराव के चलता है
इसने तुरंत प्रोसेस किया और अनुभव सकारात्मक रहा

QwQ-32B: reinforcement learning के साथ कम parameters में DeepSeek-R1 जैसी performance

प्रदर्शन

reinforcement learning

आगे का काम

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय