3 पॉइंट द्वारा GN⁺ 2025-03-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • QwQ-32B मॉडल 32 अरब parameters वाला मॉडल है, जो DeepSeek-R1 जैसी performance दिखाता है
  • यह मॉडल बड़े language models की intelligence को मजबूत करने के लिए reinforcement learning (RL) का उपयोग करता है
  • यह Hugging Face और ModelScope पर Apache 2.0 लाइसेंस के तहत उपलब्ध है, और Qwen Chat के जरिए access किया जा सकता है

प्रदर्शन

  • QwQ-32B को mathematical reasoning, coding ability और general problem-solving ability को मापने वाले विभिन्न benchmarks पर टेस्ट किया गया
  • इसकी performance का मूल्यांकन DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, और मूल DeepSeek-R1 के साथ तुलना करके किया गया
    • QwQ-32B ने LiveBench और BFCL में सर्वोच्च performance दर्ज की, और IFEval व AIME24 में भी DeepSeek-R1-671B के समान स्तर पर रहा
    • LiveCodeBench में यह DeepSeek-R1-671B से थोड़ा पीछे रहा, लेकिन फिर भी अन्य मॉडलों से बेहतर रहा
    • कुल मिलाकर, इसने DeepSeek-R1-671B के समान या उससे बेहतर performance दिखाते हुए काफी कम parameters (32.5 अरब vs 671 अरब) के साथ अपनी प्रतिस्पर्धात्मकता साबित की
    • यानी, मुख्य बिंदु यह है कि QwQ-32B reinforcement learning से optimized मॉडल है, जिसने काफी छोटे scale के बावजूद top-tier performance हासिल की

reinforcement learning

  • शुरुआती चरण में math और coding tasks के लिए reinforcement learning (RL) scaling approach अपनाया गया
  • पारंपरिक reward model की जगह correctness verifier और code execution server का उपयोग किया गया, ताकि final solution की शुद्धता सुनिश्चित हो सके
  • general abilities के लिए एक अतिरिक्त RL चरण भी है, जो human preferences और agent performance जैसी सामान्य क्षमताओं के performance को बेहतर बनाता है

आगे का काम

  • Qwen अभी reinforcement learning (RL) को scale करके reasoning ability बढ़ाने के शुरुआती चरण में है
  • मजबूत किए गए base model और scaled compute resources को मिलाकर artificial general intelligence (AGI) हासिल करने के और करीब पहुंचने की दिशा में काम किया जाएगा
  • agents और RL के integration के जरिए long-term reasoning को संभव बनाकर अधिक intelligence प्रदर्शित करने की दिशा में भी खोज जारी है

1 टिप्पणियां

 
GN⁺ 2025-03-06
Hacker News राय
  • लंबे context length (130k tokens) पर ध्यान देना चाहिए। पर्याप्त context के बिना लंबा CoT बनाना निरर्थक है

    • पहला prompt बहुत लंबा था, इसलिए वह task भूल गया
    • user ने कोई specific task नहीं दिया था
    • शुरुआती निर्देश AI agent की तरह व्यवहार करने के लिए था
    • लगता है user ने कोई समस्या देकर step-by-step reasoning करने को कहा था
  • गणित की पढ़ाई और coding सामान्य reasoning क्षमता को बेहतर बनाते हैं

  • DeepSeek से 20 गुना छोटा है। यह किस hardware पर चल सकता है, यह जानने की जिज्ञासा है

    • शायद 512GB M3 Ultra की ज़रूरत नहीं होगी
    • DeepSeek के बराबर है, लेकिन 20 गुना छोटा
  • चीन की रणनीति open source software और robotics से revenue कमाने की है

    • अमेरिका अपनी बढ़त कैसे बनाए रखेगा, यह जानने की जिज्ञासा है
    • भारत इस प्रतिस्पर्धा में भाग नहीं ले पा रहा है
  • Qwen2.5-plus को टेस्ट करने के लिए एक link दिया गया है

  • इसे 2024 के नवंबर में "preview" के रूप में जारी किया गया था

    • यह "रुको" जैसी अभिव्यक्ति का बहुत उपयोग करता है
    • कई reasoning tokens बनाने के बाद plot खो देने की समस्या होती है
  • यह Deepseek-R1 के ठीक नीचे स्थित है

    • 32B पर यह बहुत प्रभावशाली है
    • कभी-कभी thinking tokens अंतिम उत्तर से 10 गुना बड़े होते हैं
    • सप्ताहांत में इसे function calling के साथ टेस्ट करने की योजना है
  • व्यक्तिगत अनुभव में उल्टा पढ़कर सवाल का जवाब देने वाला टेस्ट किया गया

    • "ip fo eulav si tahw" को उल्टा पढ़ने पर "what is value of pi" बनता है
    • π का मान लगभग 3.14159 है
    • π एक irrational number है, जो अनंत तक बिना दोहराव के चलता है
  • इसने तुरंत प्रोसेस किया और अनुभव सकारात्मक रहा