DeepSeek-R1 क्या है?

  • OpenAI का o1 मॉडल इस तरह प्रशिक्षित किया गया था कि LLMs रीजनिंग कार्यों को बेहतर ढंग से कर सकें, इसके लिए अधिक compute का उपयोग किया गया।
  • DeepSeek-R1, OpenAI के o1 मॉडल के समान या उससे बेहतर प्रदर्शन दिखाता है, और pure reinforcement learning (RL) के माध्यम से बिना मानव पर्यवेक्षण के रीजनिंग करना सीखता है।
  • DeepSeek-R1 के सार्वजनिक होने के बाद data collection, model training और scaling laws को लेकर कई प्रश्न उठे।

उन्होंने यह कैसे किया?

  • DeepSeek-R1, DeepSeek-V3 पर आधारित एक reasoning model है, और यह 671B Mixture of Experts (MoE) मॉडल है।
  • DeepSeek-R1-Zero को केवल reinforcement learning से प्रशिक्षित किया गया था, और efficiency बढ़ाने के लिए Group Relative Policy Optimization (GRPO) का उपयोग किया गया।
  • DeepSeek-R1 ने शुरुआती चरण में छोटे उदाहरणों का उपयोग करके स्पष्टता और पठनीयता में सुधार किया, फिर reinforcement learning और refinement चरणों से गुजरकर सुसंगत उत्तर उत्पन्न किए।

Open-R1: गायब हिस्से

  • DeepSeek-R1 का सार्वजनिक होना समुदाय के लिए बहुत सहायक था, लेकिन dataset और code सार्वजनिक नहीं किए गए।
  • Open-R1 प्रोजेक्ट का लक्ष्य DeepSeek-R1 के data और training pipeline का पुनर्निर्माण करना है, और यह पारदर्शिता देना है कि reinforcement learning रीजनिंग को कैसे बेहतर बनाता है।

Open-R1 की चरणबद्ध योजना

  1. R1-Distill मॉडल का पुनर्निर्माण: DeepSeek-R1 से उच्च-गुणवत्ता वाला reasoning dataset निकालना और distillation training करना
  2. R1-Zero की pure RL training pipeline की प्रतिकृति बनाना: बड़े पैमाने पर math, logic, और code datasets बनाना
  3. base model → SFT → RL चरणबद्ध training process बनाना

योगदान कैसे करें

  • Open-R1 प्रोजेक्ट में योगदान देने के कई तरीके हैं, जैसे code contribution और Hugging Face पर चर्चा में भाग लेना।
  • यह प्रोजेक्ट केवल परिणामों की प्रतिकृति बनाने पर नहीं, बल्कि समुदाय के साथ insights साझा करने पर भी केंद्रित है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.