Open-R1: DeepSeek-R1 का पूर्ण ओपन सोर्स पुनर्निर्माण प्रोजेक्ट

(huggingface.co)

16 पॉइंट द्वारा GN⁺ 2025-01-29 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

DeepSeek-R1 क्या है?

OpenAI का o1 मॉडल इस तरह प्रशिक्षित किया गया था कि LLMs रीजनिंग कार्यों को बेहतर ढंग से कर सकें, इसके लिए अधिक compute का उपयोग किया गया।
DeepSeek-R1, OpenAI के o1 मॉडल के समान या उससे बेहतर प्रदर्शन दिखाता है, और pure reinforcement learning (RL) के माध्यम से बिना मानव पर्यवेक्षण के रीजनिंग करना सीखता है।
DeepSeek-R1 के सार्वजनिक होने के बाद data collection, model training और scaling laws को लेकर कई प्रश्न उठे।

उन्होंने यह कैसे किया?

DeepSeek-R1, DeepSeek-V3 पर आधारित एक reasoning model है, और यह 671B Mixture of Experts (MoE) मॉडल है।
DeepSeek-R1-Zero को केवल reinforcement learning से प्रशिक्षित किया गया था, और efficiency बढ़ाने के लिए Group Relative Policy Optimization (GRPO) का उपयोग किया गया।
DeepSeek-R1 ने शुरुआती चरण में छोटे उदाहरणों का उपयोग करके स्पष्टता और पठनीयता में सुधार किया, फिर reinforcement learning और refinement चरणों से गुजरकर सुसंगत उत्तर उत्पन्न किए।

Open-R1: गायब हिस्से

DeepSeek-R1 का सार्वजनिक होना समुदाय के लिए बहुत सहायक था, लेकिन dataset और code सार्वजनिक नहीं किए गए।
Open-R1 प्रोजेक्ट का लक्ष्य DeepSeek-R1 के data और training pipeline का पुनर्निर्माण करना है, और यह पारदर्शिता देना है कि reinforcement learning रीजनिंग को कैसे बेहतर बनाता है।

Open-R1 की चरणबद्ध योजना

R1-Distill मॉडल का पुनर्निर्माण: DeepSeek-R1 से उच्च-गुणवत्ता वाला reasoning dataset निकालना और distillation training करना
R1-Zero की pure RL training pipeline की प्रतिकृति बनाना: बड़े पैमाने पर math, logic, और code datasets बनाना
base model → SFT → RL चरणबद्ध training process बनाना

योगदान कैसे करें

Open-R1 प्रोजेक्ट में योगदान देने के कई तरीके हैं, जैसे code contribution और Hugging Face पर चर्चा में भाग लेना।
यह प्रोजेक्ट केवल परिणामों की प्रतिकृति बनाने पर नहीं, बल्कि समुदाय के साथ insights साझा करने पर भी केंद्रित है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.