The Illustrated DeepSeek-R1

  • DeepSeek-R1 का परिचय

    • DeepSeek-R1, AI प्रगति में एक महत्वपूर्ण मील का पत्थर है, और ML अनुसंधान एवं विकास समुदाय पर इसका बड़ा प्रभाव पड़ा है.
    • यह मॉडल एक open-weight model है, और इसका छोटे आकार का distilled version भी उपलब्ध है.
    • यह OpenAI O1 जैसे reasoning models को पुनर्निर्मित करने वाली training methods को साझा करता है और उन्हें प्रतिबिंबित करता है.
  • LLM प्रशिक्षण का सारांश

    • DeepSeek-R1, मौजूदा LLMs की तरह एक बार में एक token जनरेट करता है, और गणित तथा reasoning समस्याओं को हल करने में उत्कृष्ट है.
    • उच्च-गुणवत्ता वाला LLM बनाने की सामान्य प्रक्रिया इस प्रकार है:
      1. बड़े पैमाने के web data का उपयोग कर अगले शब्द की भविष्यवाणी करने वाला language modeling चरण.
      2. supervised fine-tuning चरण, जो मॉडल को निर्देशों का पालन करने और प्रश्नों का उत्तर देने योग्य बनाता है.
      3. preference alignment चरण, जो मानव प्राथमिकताओं के अनुसार मॉडल के व्यवहार को परिष्कृत करता है.
  • DeepSeek-R1 की प्रशिक्षण प्रक्रिया

    • DeepSeek-R1, DeepSeek-V3 मॉडल के base model का उपयोग करता है, और SFT तथा preference alignment चरणों से गुजरता है.
    • R1 निर्माण प्रक्रिया में ध्यान देने योग्य तीन विशेष बातें:
      1. लंबी reasoning chain SFT data: इसमें 6 लाख लंबे reasoning उदाहरण शामिल हैं.
      2. अस्थायी high-quality reasoning LLM: यह reasoning में विशेषज्ञता वाला मॉडल है, जिसे कम मात्रा के labeled data और बड़े पैमाने के reinforcement learning के माध्यम से बनाया गया है.
      3. बड़े पैमाने के reinforcement learning से reasoning model निर्माण: R1-Zero नामक मॉडल के माध्यम से reasoning उदाहरण बनाए जाते हैं, और इनके आधार पर सामान्य मॉडल को प्रशिक्षित किया जाता है.
  • R1-Zero की विशेषताएँ

    • R1-Zero, labeled SFT training set के बिना भी reasoning कार्यों में उत्कृष्ट है.
    • यह संकेत देता है कि आधुनिक base models गुणवत्ता और क्षमता के एक निश्चित स्तर से आगे बढ़ रहे हैं.
    • reasoning समस्याएँ स्वचालित रूप से verify या label की जा सकती हैं.
  • SFT reasoning data निर्माण

    • अस्थायी reasoning model, कुछ हज़ार reasoning problem examples का उपयोग करके SFT training चरण से गुजरता है.
    • यह data, R1-Zero के outputs को अधिक पढ़ने योग्य बनाकर तैयार किया जाता है.
  • सामान्य RL प्रशिक्षण चरण

    • R1, reasoning और non-reasoning दोनों प्रकार के कार्यों में उत्कृष्ट है.
    • usefulness और safety reward models का उपयोग करके इसे विभिन्न applications में लागू किया जाता है.
  • आर्किटेक्चर

    • DeepSeek-R1, 61 Transformer decoder blocks से बना है.
    • पहले 3 dense layers हैं, और बाकी mixture-of-experts layers हैं.
  • निष्कर्ष

    • यह DeepSeek-R1 मॉडल की मुख्य अवधारणाओं को समझने में मदद करता है.
    • अतिरिक्त जानकारी Hands-On Large Language Models पुस्तक या GitHub पर देखी जा सकती है.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.