8 पॉइंट द्वारा GN⁺ 2025-01-21 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek ने पहली पीढ़ी के reasoning मॉडल DeepSeek-R1-Zero और DeepSeek-R1 जारी किए
  • DeepSeek-R1-Zero को केवल बड़े पैमाने के reinforcement learning (RL) से प्रशिक्षित किया गया, और इसने स्वयं विभिन्न reasoning क्षमताएँ सीख लीं
  • लेकिन repetition/पठनीयता की समस्याएँ और language mixing सामने आई, इसलिए इन्हें सुधारने और प्रदर्शन बढ़ाने के लिए SFT चरण जोड़कर DeepSeek-R1 प्रस्तुत किया गया
  • DeepSeek-R1 ने गणित, code और reasoning कार्यों में OpenAI-o1 स्तर का प्रदर्शन हासिल किया
  • research community के समर्थन के लिए DeepSeek-R1-Zero, DeepSeek-R1, और इन मॉडलों से reasoning patterns transfer करके बनाए गए distillation मॉडल भी जारी किए गए
  • खास तौर पर DeepSeek-R1-Distill-Qwen-32B ने OpenAI-o1-mini से बेहतर प्रदर्शन हासिल किया

मॉडल सारांश

  • Post-Training: बेस मॉडल पर बड़े पैमाने का reinforcement learning

    • DeepSeek-R1-Zero पहली पीढ़ी का मॉडल है जिस पर SFT के बिना केवल RL लागू किया गया
    • RL प्रक्रिया के जरिए इसने Chain-of-thought खोज क्षमता, self-verification, reflection जैसी विभिन्न reasoning patterns सीखी
    • यह दिखाता है कि “SFT के बिना भी बड़े मॉडल केवल RL से मजबूत reasoning क्षमता हासिल कर सकते हैं”
    • DeepSeek-R1 ने इसी प्रक्रिया के आधार पर बीच में SFT जोड़कर reasoning क्षमता और सामान्य language usage क्षमता को और मजबूत किया
  • Distillation: छोटे मॉडल भी शक्तिशाली हो सकते हैं

    • यह प्रदर्शित किया गया कि बड़े मॉडल द्वारा सीखे गए reasoning patterns को छोटे मॉडलों में भी transfer किया जा सकता है
    • DeepSeek-R1 द्वारा जनरेट किए गए डेटा का उपयोग करके Qwen, Llama सीरीज़ आदि पर fine-tuning की गई, और छोटे dense मॉडल भी उत्कृष्ट प्रदर्शन दिखाते हैं
    • 1.5B, 7B, 8B, 14B, 32B, 70B जैसे विभिन्न आकार के distill मॉडल जारी किए गए

मॉडल डाउनलोड

DeepSeek-R1 Models

  • DeepSeek-R1-Zero / DeepSeek-R1
    • पैरामीटर: कुल 671B (वास्तव में सक्रिय पैरामीटर 37B)
    • context length 128K
    • HuggingFace से डाउनलोड किया जा सकता है, और इसे DeepSeek-V3-Base मॉडल पर RL तरीके से प्रशिक्षित किया गया है

DeepSeek-R1-Distill Models

  • Qwen2.5 और Llama3 सीरीज़ के आधार पर distillation
  • 1.5B से 70B तक विभिन्न parameter sizes उपलब्ध
  • DeepSeek-R1 द्वारा जनरेट किए गए उच्च-गुणवत्ता वाले reasoning डेटा का उपयोग करके fine-tune किए गए
  • कुछ settings (tokenizer, config) में बदलाव किए गए हैं, इसलिए बताए गए settings का उपयोग करना चाहिए

मूल्यांकन परिणाम

DeepSeek-R1-Evaluation

  • DeepSeek-R1 ने अंग्रेज़ी (MMLU, DROP आदि), code (Codeforces, LiveCodeBench आदि), गणित (AIME, MATH-500 आदि), चीनी (C-Eval आदि) में उच्च स्कोर हासिल किए
  • खास तौर पर गणित श्रेणी में AIME, MATH-500 आदि पर ऊँचे pass@1 परिणाम दिखाए
  • OpenAI-o1-mini, Claude, GPT-4 आदि के साथ तुलना में कई मदों पर प्रतिस्पर्धी प्रदर्शन दिखा

Distilled Model Evaluation

  • distillation मॉडलों ने भी गणित (AIME, MATH आदि), code (Codeforces आदि) benchmarks पर शानदार परिणाम दिखाए
  • DeepSeek-R1-Distill-Qwen-32B, DeepSeek-R1-Distill-Llama-70B आदि ने ऊँचे pass@1 और code solving प्रदर्शन दिखाए, जिससे छोटे मॉडलों की उपयोगिता का संकेत मिलता है

चैट वेबसाइट & API प्लेटफ़ॉर्म

  • chat.deepseek.com पर DeepSeek-R1 के साथ बातचीत का अनुभव लिया जा सकता है
  • OpenAI-compatible API प्लेटफ़ॉर्म platform.deepseek.com भी उपलब्ध है

लोकल रन करने का तरीका

DeepSeek-R1 Models

  • DeepSeek-V3 repository को देखकर 128K token max length setting जैसी जानकारी जाँचने के बाद इसे चलाया जा सकता है

DeepSeek-R1-Distill Models

  • इन्हें Qwen, Llama मॉडलों की तरह ही उपयोग किया जा सकता है
  • उदाहरण: vLLM, SGLang आदि का उपयोग करके तेज़ी से serve किया जा सकता है
  • temperature को लगभग 0.5~0.7 पर सेट करने की सिफारिश की जाती है

लाइसेंस

  • DeepSeek-R1 सीरीज़ MIT लाइसेंस के तहत वितरित की जाती है
  • हालांकि, Qwen-आधारित मॉडल Apache 2.0 और Llama-आधारित मॉडल llama3.x लाइसेंस का पालन करते हैं, इस बात का ध्यान रखना चाहिए
  • commercial use की अनुमति, modification और derivative models बनाने की सुविधा जैसी लचीली लाइसेंस नीति उपलब्ध है

5 टिप्पणियां

 
crawler 2025-01-21

कुछ लोग टिप्पणियों में ऐसे अच्छे से लिंक जोड़ते हैं, या मूल लेख से उद्धरण भी देते हैं—क्या कहीं ऐसी सिंटैक्स की सूची है जिन्हें टिप्पणियों में इस्तेमाल किया जा सकता है? कुछ दिनों से देखते-देखते यह साइट मुझे और भी पसंद आने लगी है, इसलिए अब टिप्पणी भी करना चाहता/चाहती हूँ।

 
savvykang 2025-01-21

https://news.hada.io/guidelines

> Markdown समर्थित है
> यह मुख्य लेख और टिप्पणियों दोनों में समर्थित है।
> डिफ़ॉल्ट रूप से यह CommonMark विनिर्देश का पालन करता है।
> इमेज समर्थित नहीं हैं।

 
crawler 2025-01-21

धन्यवाद, मैं इसे दूसरे कमेंट में quote करके इस्तेमाल करने की कोशिश कर रहा था, लेकिन edit नहीं कर सकता था, इसलिए सुरक्षित रहने के लिए नहीं लिखा, मगर Markdown सही था।
इसे काम में लाऊँगा haha

 
GN⁺ 2025-01-21
Hacker News राय
  • Llama 3 के quantized वर्ज़न का इस्तेमाल करके प्रयोग चलाए जा रहे हैं। Ollama और llm-ollama plugin का उपयोग कर मॉडल चलाया गया और logs रिकॉर्ड किए गए। मॉडल लोड करने के बाद uvx का इस्तेमाल करके अलग-अलग prompts टेस्ट किए जा सकते हैं। प्रयोग के नतीजे blog में लिखे गए हैं.

  • DeepSeek-R1-Zero को repetition, readability problems और language mixing जैसी समस्याओं का सामना करना पड़ा। इसे हल करने के लिए DeepSeek-R1 लाया गया। OpenAI o1 और QwQ-32B-Preview के साथ किए गए प्रयोगों में QwQ के बार-बार repetition loop में फँसने की प्रवृत्ति दिखी। DeepSeek-R1 ने इन समस्याओं को हल किया। इसे MIT license के तहत उपलब्ध कराया गया है, जिससे ज़्यादा लोग इसका मूल्यांकन कर सकें.

  • "strawberry" में 'r' कितने हैं, यह पूछने पर मॉडल अपने आप से बहस करते हुए सही जवाब तक पहुँचने की प्रक्रिया दिखाता है। इस प्रक्रिया को मज़ेदार बताया गया है.

  • ChatGPT o1, DeepSeek का DeepThink, और Gemini 2.0 Flash Thinking Experimental की तुलना में ChatGPT o1 सबसे बेहतर रहा, जबकि DeepSeek सबसे कमज़ोर था। DeepSeek-R1 को टेस्ट करने पर पहले की तुलना में बेहतर प्रदर्शन दिखा। व्यक्तिगत उपयोग के मामलों में LLM ज़्यादा उपयोगी लगा.

  • Benchmark नतीजों में Llama 8B मॉडल को Claude 3.5 Sonnet से ज़्यादा शक्तिशाली बताया गया। छोटे मॉडल की इतनी मज़बूत performance पर हैरानी जताई गई.

  • यह बात चौंकाने वाली बताई गई कि सिर्फ 1 साल पहले बनी एक छोटी कंपनी OpenAI से प्रतिस्पर्धा कर सकती है। कहा गया कि चीन AI क्षेत्र में अमेरिका से आगे निकल रहा है, और मॉडल को open source में जारी करने के कारण इसे असली "Open AI" कंपनी कहा गया.

  • DS3 को लेकर शुरुआती उम्मीदें थीं, लेकिन बाद में function calling issues, response quality में गिरावट और support की कमी जैसी समस्याएँ मिलीं। हालांकि इसकी वजह से दूसरे APIs पर traffic कम हुआ और latency बेहतर हो गई.

  • 7b और 8b वर्ज़न के अंतर को लेकर भ्रम जताया गया। यह भी बताया गया कि Ollama पर Qwen 7B वर्ज़न अपलोड किया गया है.