DeepSeek-R1 मॉडल जारी

(github.com/deepseek-ai)

8 पॉइंट द्वारा GN⁺ 2025-01-21 | 5 टिप्पणियां | WhatsApp पर शेयर करें

DeepSeek ने पहली पीढ़ी के reasoning मॉडल DeepSeek-R1-Zero और DeepSeek-R1 जारी किए
DeepSeek-R1-Zero को केवल बड़े पैमाने के reinforcement learning (RL) से प्रशिक्षित किया गया, और इसने स्वयं विभिन्न reasoning क्षमताएँ सीख लीं
लेकिन repetition/पठनीयता की समस्याएँ और language mixing सामने आई, इसलिए इन्हें सुधारने और प्रदर्शन बढ़ाने के लिए SFT चरण जोड़कर DeepSeek-R1 प्रस्तुत किया गया
DeepSeek-R1 ने गणित, code और reasoning कार्यों में OpenAI-o1 स्तर का प्रदर्शन हासिल किया
research community के समर्थन के लिए DeepSeek-R1-Zero, DeepSeek-R1, और इन मॉडलों से reasoning patterns transfer करके बनाए गए distillation मॉडल भी जारी किए गए
खास तौर पर DeepSeek-R1-Distill-Qwen-32B ने OpenAI-o1-mini से बेहतर प्रदर्शन हासिल किया

मॉडल सारांश

Post-Training: बेस मॉडल पर बड़े पैमाने का reinforcement learning
- DeepSeek-R1-Zero पहली पीढ़ी का मॉडल है जिस पर SFT के बिना केवल RL लागू किया गया
- RL प्रक्रिया के जरिए इसने Chain-of-thought खोज क्षमता, self-verification, reflection जैसी विभिन्न reasoning patterns सीखी
- यह दिखाता है कि “SFT के बिना भी बड़े मॉडल केवल RL से मजबूत reasoning क्षमता हासिल कर सकते हैं”
- DeepSeek-R1 ने इसी प्रक्रिया के आधार पर बीच में SFT जोड़कर reasoning क्षमता और सामान्य language usage क्षमता को और मजबूत किया
Distillation: छोटे मॉडल भी शक्तिशाली हो सकते हैं
- यह प्रदर्शित किया गया कि बड़े मॉडल द्वारा सीखे गए reasoning patterns को छोटे मॉडलों में भी transfer किया जा सकता है
- DeepSeek-R1 द्वारा जनरेट किए गए डेटा का उपयोग करके Qwen, Llama सीरीज़ आदि पर fine-tuning की गई, और छोटे dense मॉडल भी उत्कृष्ट प्रदर्शन दिखाते हैं
- 1.5B, 7B, 8B, 14B, 32B, 70B जैसे विभिन्न आकार के distill मॉडल जारी किए गए

मॉडल डाउनलोड

DeepSeek-R1 Models

DeepSeek-R1-Zero / DeepSeek-R1
- पैरामीटर: कुल 671B (वास्तव में सक्रिय पैरामीटर 37B)
- context length 128K
- HuggingFace से डाउनलोड किया जा सकता है, और इसे DeepSeek-V3-Base मॉडल पर RL तरीके से प्रशिक्षित किया गया है

DeepSeek-R1-Distill Models

Qwen2.5 और Llama3 सीरीज़ के आधार पर distillation
1.5B से 70B तक विभिन्न parameter sizes उपलब्ध
DeepSeek-R1 द्वारा जनरेट किए गए उच्च-गुणवत्ता वाले reasoning डेटा का उपयोग करके fine-tune किए गए
कुछ settings (tokenizer, config) में बदलाव किए गए हैं, इसलिए बताए गए settings का उपयोग करना चाहिए

मूल्यांकन परिणाम

DeepSeek-R1-Evaluation

DeepSeek-R1 ने अंग्रेज़ी (MMLU, DROP आदि), code (Codeforces, LiveCodeBench आदि), गणित (AIME, MATH-500 आदि), चीनी (C-Eval आदि) में उच्च स्कोर हासिल किए
खास तौर पर गणित श्रेणी में AIME, MATH-500 आदि पर ऊँचे pass@1 परिणाम दिखाए
OpenAI-o1-mini, Claude, GPT-4 आदि के साथ तुलना में कई मदों पर प्रतिस्पर्धी प्रदर्शन दिखा

Distilled Model Evaluation

distillation मॉडलों ने भी गणित (AIME, MATH आदि), code (Codeforces आदि) benchmarks पर शानदार परिणाम दिखाए
DeepSeek-R1-Distill-Qwen-32B, DeepSeek-R1-Distill-Llama-70B आदि ने ऊँचे pass@1 और code solving प्रदर्शन दिखाए, जिससे छोटे मॉडलों की उपयोगिता का संकेत मिलता है

चैट वेबसाइट & API प्लेटफ़ॉर्म

chat.deepseek.com पर DeepSeek-R1 के साथ बातचीत का अनुभव लिया जा सकता है
OpenAI-compatible API प्लेटफ़ॉर्म platform.deepseek.com भी उपलब्ध है

लोकल रन करने का तरीका

DeepSeek-R1 Models

DeepSeek-V3 repository को देखकर 128K token max length setting जैसी जानकारी जाँचने के बाद इसे चलाया जा सकता है

DeepSeek-R1-Distill Models

इन्हें Qwen, Llama मॉडलों की तरह ही उपयोग किया जा सकता है
उदाहरण: vLLM, SGLang आदि का उपयोग करके तेज़ी से serve किया जा सकता है
temperature को लगभग 0.5~0.7 पर सेट करने की सिफारिश की जाती है

लाइसेंस

DeepSeek-R1 सीरीज़ MIT लाइसेंस के तहत वितरित की जाती है
हालांकि, Qwen-आधारित मॉडल Apache 2.0 और Llama-आधारित मॉडल llama3.x लाइसेंस का पालन करते हैं, इस बात का ध्यान रखना चाहिए
commercial use की अनुमति, modification और derivative models बनाने की सुविधा जैसी लचीली लाइसेंस नीति उपलब्ध है

5 टिप्पणियां

xguru 2025-01-21

Deepseek - चीन की AI प्रतिस्पर्धा का नेतृत्व करने वाला शांत दिग्गज
Deepseek V3 ने overfitting की जांच करने वाले benchmark में अच्छा प्रदर्शन नहीं दिखाया
DeepSeek v3 पर नोट्स - "क्या यह सच में GPT-4o या 3.5 Sonnet से बेहतर है?"

crawler 2025-01-21

कुछ लोग टिप्पणियों में ऐसे अच्छे से लिंक जोड़ते हैं, या मूल लेख से उद्धरण भी देते हैं—क्या कहीं ऐसी सिंटैक्स की सूची है जिन्हें टिप्पणियों में इस्तेमाल किया जा सकता है? कुछ दिनों से देखते-देखते यह साइट मुझे और भी पसंद आने लगी है, इसलिए अब टिप्पणी भी करना चाहता/चाहती हूँ।

savvykang 2025-01-21

https://news.hada.io/guidelines

> Markdown समर्थित है
> यह मुख्य लेख और टिप्पणियों दोनों में समर्थित है।
> डिफ़ॉल्ट रूप से यह CommonMark विनिर्देश का पालन करता है।
> इमेज समर्थित नहीं हैं।

crawler 2025-01-21

धन्यवाद, मैं इसे दूसरे कमेंट में quote करके इस्तेमाल करने की कोशिश कर रहा था, लेकिन edit नहीं कर सकता था, इसलिए सुरक्षित रहने के लिए नहीं लिखा, मगर Markdown सही था।
इसे काम में लाऊँगा haha

GN⁺ 2025-01-21

Hacker News राय

Llama 3 के quantized वर्ज़न का इस्तेमाल करके प्रयोग चलाए जा रहे हैं। Ollama और llm-ollama plugin का उपयोग कर मॉडल चलाया गया और logs रिकॉर्ड किए गए। मॉडल लोड करने के बाद uvx का इस्तेमाल करके अलग-अलग prompts टेस्ट किए जा सकते हैं। प्रयोग के नतीजे blog में लिखे गए हैं.
DeepSeek-R1-Zero को repetition, readability problems और language mixing जैसी समस्याओं का सामना करना पड़ा। इसे हल करने के लिए DeepSeek-R1 लाया गया। OpenAI o1 और QwQ-32B-Preview के साथ किए गए प्रयोगों में QwQ के बार-बार repetition loop में फँसने की प्रवृत्ति दिखी। DeepSeek-R1 ने इन समस्याओं को हल किया। इसे MIT license के तहत उपलब्ध कराया गया है, जिससे ज़्यादा लोग इसका मूल्यांकन कर सकें.
"strawberry" में 'r' कितने हैं, यह पूछने पर मॉडल अपने आप से बहस करते हुए सही जवाब तक पहुँचने की प्रक्रिया दिखाता है। इस प्रक्रिया को मज़ेदार बताया गया है.
ChatGPT o1, DeepSeek का DeepThink, और Gemini 2.0 Flash Thinking Experimental की तुलना में ChatGPT o1 सबसे बेहतर रहा, जबकि DeepSeek सबसे कमज़ोर था। DeepSeek-R1 को टेस्ट करने पर पहले की तुलना में बेहतर प्रदर्शन दिखा। व्यक्तिगत उपयोग के मामलों में LLM ज़्यादा उपयोगी लगा.
Benchmark नतीजों में Llama 8B मॉडल को Claude 3.5 Sonnet से ज़्यादा शक्तिशाली बताया गया। छोटे मॉडल की इतनी मज़बूत performance पर हैरानी जताई गई.
यह बात चौंकाने वाली बताई गई कि सिर्फ 1 साल पहले बनी एक छोटी कंपनी OpenAI से प्रतिस्पर्धा कर सकती है। कहा गया कि चीन AI क्षेत्र में अमेरिका से आगे निकल रहा है, और मॉडल को open source में जारी करने के कारण इसे असली "Open AI" कंपनी कहा गया.
DS3 को लेकर शुरुआती उम्मीदें थीं, लेकिन बाद में function calling issues, response quality में गिरावट और support की कमी जैसी समस्याएँ मिलीं। हालांकि इसकी वजह से दूसरे APIs पर traffic कम हुआ और latency बेहतर हो गई.
7b और 8b वर्ज़न के अंतर को लेकर भ्रम जताया गया। यह भी बताया गया कि Ollama पर Qwen 7B वर्ज़न अपलोड किया गया है.

DeepSeek-R1 मॉडल जारी

मॉडल सारांश

मॉडल डाउनलोड

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

मूल्यांकन परिणाम

DeepSeek-R1-Evaluation

Distilled Model Evaluation

चैट वेबसाइट & API प्लेटफ़ॉर्म

लोकल रन करने का तरीका

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

लाइसेंस

संबंधित पढ़ाई

5 टिप्पणियां

Hacker News राय