- QwQ-32B मॉडल 32 अरब parameters वाला मॉडल है, जो DeepSeek-R1 जैसी performance दिखाता है
- यह मॉडल बड़े language models की intelligence को मजबूत करने के लिए reinforcement learning (RL) का उपयोग करता है
- यह Hugging Face और ModelScope पर Apache 2.0 लाइसेंस के तहत उपलब्ध है, और Qwen Chat के जरिए access किया जा सकता है
प्रदर्शन
- QwQ-32B को mathematical reasoning, coding ability और general problem-solving ability को मापने वाले विभिन्न benchmarks पर टेस्ट किया गया
- इसकी performance का मूल्यांकन DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, और मूल DeepSeek-R1 के साथ तुलना करके किया गया
- QwQ-32B ने LiveBench और BFCL में सर्वोच्च performance दर्ज की, और IFEval व AIME24 में भी DeepSeek-R1-671B के समान स्तर पर रहा
- LiveCodeBench में यह DeepSeek-R1-671B से थोड़ा पीछे रहा, लेकिन फिर भी अन्य मॉडलों से बेहतर रहा
- कुल मिलाकर, इसने DeepSeek-R1-671B के समान या उससे बेहतर performance दिखाते हुए काफी कम parameters (32.5 अरब vs 671 अरब) के साथ अपनी प्रतिस्पर्धात्मकता साबित की
- यानी, मुख्य बिंदु यह है कि QwQ-32B reinforcement learning से optimized मॉडल है, जिसने काफी छोटे scale के बावजूद top-tier performance हासिल की
reinforcement learning
- शुरुआती चरण में math और coding tasks के लिए reinforcement learning (RL) scaling approach अपनाया गया
- पारंपरिक reward model की जगह correctness verifier और code execution server का उपयोग किया गया, ताकि final solution की शुद्धता सुनिश्चित हो सके
- general abilities के लिए एक अतिरिक्त RL चरण भी है, जो human preferences और agent performance जैसी सामान्य क्षमताओं के performance को बेहतर बनाता है
आगे का काम
- Qwen अभी reinforcement learning (RL) को scale करके reasoning ability बढ़ाने के शुरुआती चरण में है
- मजबूत किए गए base model और scaled compute resources को मिलाकर artificial general intelligence (AGI) हासिल करने के और करीब पहुंचने की दिशा में काम किया जाएगा
- agents और RL के integration के जरिए long-term reasoning को संभव बनाकर अधिक intelligence प्रदर्शित करने की दिशा में भी खोज जारी है
1 टिप्पणियां
Hacker News राय
लंबे context length (130k tokens) पर ध्यान देना चाहिए। पर्याप्त context के बिना लंबा CoT बनाना निरर्थक है
गणित की पढ़ाई और coding सामान्य reasoning क्षमता को बेहतर बनाते हैं
DeepSeek से 20 गुना छोटा है। यह किस hardware पर चल सकता है, यह जानने की जिज्ञासा है
चीन की रणनीति open source software और robotics से revenue कमाने की है
Qwen2.5-plus को टेस्ट करने के लिए एक link दिया गया है
इसे 2024 के नवंबर में "preview" के रूप में जारी किया गया था
यह Deepseek-R1 के ठीक नीचे स्थित है
व्यक्तिगत अनुभव में उल्टा पढ़कर सवाल का जवाब देने वाला टेस्ट किया गया
इसने तुरंत प्रोसेस किया और अनुभव सकारात्मक रहा