इलस्ट्रेटेड DeepSeek-R1
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
DeepSeek-R1 का परिचय
- DeepSeek-R1, AI प्रगति में एक महत्वपूर्ण मील का पत्थर है, और ML अनुसंधान एवं विकास समुदाय पर इसका बड़ा प्रभाव पड़ा है.
- यह मॉडल एक open-weight model है, और इसका छोटे आकार का distilled version भी उपलब्ध है.
- यह OpenAI O1 जैसे reasoning models को पुनर्निर्मित करने वाली training methods को साझा करता है और उन्हें प्रतिबिंबित करता है.
-
LLM प्रशिक्षण का सारांश
- DeepSeek-R1, मौजूदा LLMs की तरह एक बार में एक token जनरेट करता है, और गणित तथा reasoning समस्याओं को हल करने में उत्कृष्ट है.
- उच्च-गुणवत्ता वाला LLM बनाने की सामान्य प्रक्रिया इस प्रकार है:
- बड़े पैमाने के web data का उपयोग कर अगले शब्द की भविष्यवाणी करने वाला language modeling चरण.
- supervised fine-tuning चरण, जो मॉडल को निर्देशों का पालन करने और प्रश्नों का उत्तर देने योग्य बनाता है.
- preference alignment चरण, जो मानव प्राथमिकताओं के अनुसार मॉडल के व्यवहार को परिष्कृत करता है.
-
DeepSeek-R1 की प्रशिक्षण प्रक्रिया
- DeepSeek-R1, DeepSeek-V3 मॉडल के base model का उपयोग करता है, और SFT तथा preference alignment चरणों से गुजरता है.
- R1 निर्माण प्रक्रिया में ध्यान देने योग्य तीन विशेष बातें:
- लंबी reasoning chain SFT data: इसमें 6 लाख लंबे reasoning उदाहरण शामिल हैं.
- अस्थायी high-quality reasoning LLM: यह reasoning में विशेषज्ञता वाला मॉडल है, जिसे कम मात्रा के labeled data और बड़े पैमाने के reinforcement learning के माध्यम से बनाया गया है.
- बड़े पैमाने के reinforcement learning से reasoning model निर्माण: R1-Zero नामक मॉडल के माध्यम से reasoning उदाहरण बनाए जाते हैं, और इनके आधार पर सामान्य मॉडल को प्रशिक्षित किया जाता है.
-
R1-Zero की विशेषताएँ
- R1-Zero, labeled SFT training set के बिना भी reasoning कार्यों में उत्कृष्ट है.
- यह संकेत देता है कि आधुनिक base models गुणवत्ता और क्षमता के एक निश्चित स्तर से आगे बढ़ रहे हैं.
- reasoning समस्याएँ स्वचालित रूप से verify या label की जा सकती हैं.
-
SFT reasoning data निर्माण
- अस्थायी reasoning model, कुछ हज़ार reasoning problem examples का उपयोग करके SFT training चरण से गुजरता है.
- यह data, R1-Zero के outputs को अधिक पढ़ने योग्य बनाकर तैयार किया जाता है.
-
सामान्य RL प्रशिक्षण चरण
- R1, reasoning और non-reasoning दोनों प्रकार के कार्यों में उत्कृष्ट है.
- usefulness और safety reward models का उपयोग करके इसे विभिन्न applications में लागू किया जाता है.
-
आर्किटेक्चर
- DeepSeek-R1, 61 Transformer decoder blocks से बना है.
- पहले 3 dense layers हैं, और बाकी mixture-of-experts layers हैं.
-
निष्कर्ष
- यह DeepSeek-R1 मॉडल की मुख्य अवधारणाओं को समझने में मदद करता है.
- अतिरिक्त जानकारी Hands-On Large Language Models पुस्तक या GitHub पर देखी जा सकती है.
अभी कोई टिप्पणी नहीं है.