DeepSeek-R1 क्या है?
- OpenAI का o1 मॉडल इस तरह प्रशिक्षित किया गया था कि LLMs रीजनिंग कार्यों को बेहतर ढंग से कर सकें, इसके लिए अधिक compute का उपयोग किया गया।
- DeepSeek-R1, OpenAI के o1 मॉडल के समान या उससे बेहतर प्रदर्शन दिखाता है, और pure reinforcement learning (RL) के माध्यम से बिना मानव पर्यवेक्षण के रीजनिंग करना सीखता है।
- DeepSeek-R1 के सार्वजनिक होने के बाद data collection, model training और scaling laws को लेकर कई प्रश्न उठे।
उन्होंने यह कैसे किया?
- DeepSeek-R1, DeepSeek-V3 पर आधारित एक reasoning model है, और यह 671B Mixture of Experts (MoE) मॉडल है।
- DeepSeek-R1-Zero को केवल reinforcement learning से प्रशिक्षित किया गया था, और efficiency बढ़ाने के लिए Group Relative Policy Optimization (GRPO) का उपयोग किया गया।
- DeepSeek-R1 ने शुरुआती चरण में छोटे उदाहरणों का उपयोग करके स्पष्टता और पठनीयता में सुधार किया, फिर reinforcement learning और refinement चरणों से गुजरकर सुसंगत उत्तर उत्पन्न किए।
Open-R1: गायब हिस्से
- DeepSeek-R1 का सार्वजनिक होना समुदाय के लिए बहुत सहायक था, लेकिन dataset और code सार्वजनिक नहीं किए गए।
- Open-R1 प्रोजेक्ट का लक्ष्य DeepSeek-R1 के data और training pipeline का पुनर्निर्माण करना है, और यह पारदर्शिता देना है कि reinforcement learning रीजनिंग को कैसे बेहतर बनाता है।
Open-R1 की चरणबद्ध योजना
- R1-Distill मॉडल का पुनर्निर्माण: DeepSeek-R1 से उच्च-गुणवत्ता वाला reasoning dataset निकालना और distillation training करना
- R1-Zero की pure RL training pipeline की प्रतिकृति बनाना: बड़े पैमाने पर math, logic, और code datasets बनाना
- base model → SFT → RL चरणबद्ध training process बनाना
योगदान कैसे करें
- Open-R1 प्रोजेक्ट में योगदान देने के कई तरीके हैं, जैसे code contribution और Hugging Face पर चर्चा में भाग लेना।
- यह प्रोजेक्ट केवल परिणामों की प्रतिकृति बनाने पर नहीं, बल्कि समुदाय के साथ insights साझा करने पर भी केंद्रित है।
अभी कोई टिप्पणी नहीं है.