DeepSeek-R1: सुदृढीकरण अधिगम के माध्यम से बड़े भाषा मॉडलों की तर्क क्षमता में सुधार

(arxiv.org)

3 पॉइंट द्वारा GN⁺ 2025-01-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

DeepSeek-R1: LLM की तर्क क्षमता को मजबूत करना
- DeepSeek-R1-Zero और DeepSeek-R1 नामक पहली पीढ़ी के reasoning models का परिचय दिया गया है
- DeepSeek-R1-Zero को बड़े पैमाने के reinforcement learning के माध्यम से प्रशिक्षित किया गया, और इसने supervised fine-tuning के बिना भी उत्कृष्ट तर्क क्षमता दिखाई
- हालांकि, इसे पठनीयता की समस्याओं और language mixing जैसी चुनौतियों का सामना करना पड़ा
- इन समस्याओं को हल करने और reasoning performance को बेहतर बनाने के लिए, DeepSeek-R1 पेश किया गया, जिसमें multi-stage training और reinforcement learning से पहले प्रारंभिक डेटा का उपयोग शामिल है
- DeepSeek-R1 ने OpenAI-o1-1217 के समान प्रदर्शन हासिल किया
- शोध समुदाय के समर्थन के लिए, DeepSeek-R1-Zero, DeepSeek-R1, और Qwen तथा Llama आधारित distilled 6 dense models (1.5B, 7B, 8B, 14B, 32B, 70B) को open source के रूप में जारी किया गया है
विषय और उद्धरण
- विषय: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
- उद्धरण: arXiv:2501.12948 [cs.CL]
सबमिशन इतिहास
- सबमिट करने वाले: Wenfeng Liang
- सबमिशन तिथि: 22 जनवरी 2025
एक्सेस के तरीके
- PDF, HTML, TeX source आदि विभिन्न फ़ॉर्मैट में पेपर तक पहुंच संभव है
संदर्भ और citation tools
- विभिन्न संदर्भ और citation tools उपलब्ध कराए गए हैं
कोड, डेटा, मीडिया
- संबंधित कोड और डेटा उपलब्ध कराए गए हैं
arXivLabs के बारे में जानकारी
- arXivLabs के बारे में विवरण और सहायता संबंधी जानकारी उपलब्ध कराई गई है

1 टिप्पणियां

GN⁺ 2025-01-26

Hacker News राय

DeepSeek V3 पेपर को ज़रूरी pre-reading सामग्री माना जा रहा है
- R1 + Sonnet का संयोजन दूसरे संयोजनों से बेहतर है
- कई जगहों पर स्वतंत्र reproduction studies चल रही हैं
- R1 distillation बहुत आसान है, इसलिए यह अक्सर होगा
- DeepSeek-R1 ने Silicon Valley में बड़ा असर डाला है
Ollama के r1-14b मॉडल को इस्तेमाल करने पर लगा कि मॉडल real time में अलग-अलग approaches आज़माता है और विकल्प चुनता है, जो इंसानी व्यवहार की याद दिलाता है
DeepSeek V3 ठीक उस समय आया जब Claude Sonnet में समस्याएँ आ गई थीं
- DeepSeek की pricing बहुत सस्ती है, जो बड़ा फ़ायदा है
- Aider और Cursor में पूरी तरह DeepSeek पर switch कर लिया
DeepSeek का chat feature, ChatGPT Pro की तुलना में इस्तेमाल करने में आसान है
- मॉडल की thought process पढ़ी जा सकती है, जिससे debugging आसान हो जाती है
यह देखकर हैरानी हुई कि GPT-O1 मॉडल की thought process मॉडल के अंदर ही होती है
- जिज्ञासा है कि क्या OpenAI, O1 की thought process सार्वजनिक करेगा
DeepSeek R1 की performance ही नहीं, इसके छोटे distilled models भी प्रभावशाली हैं
- Qwen-आधारित 7b distilled model भी शानदार है
- 32b distilled model घर के server के default model के रूप में इस्तेमाल हो रहा है
Larry Ellison और Masayoshi Son, ASI के ज़रिए अमरत्व हासिल करने का लक्ष्य रखते हैं
- ASI development के लिए भारी निवेश किया जा रहा है
Arxiv पर 100 से ज़्यादा authors ने team name के तहत पेपर प्रकाशित किया
- इससे teamwork और morale बढ़ाने में मदद मिलती है

DeepSeek-R1: सुदृढीकरण अधिगम के माध्यम से बड़े भाषा मॉडलों की तर्क क्षमता में सुधार

DeepSeek-R1: LLM की तर्क क्षमता को मजबूत करना

विषय और उद्धरण

सबमिशन इतिहास

एक्सेस के तरीके

संदर्भ और citation tools

कोड, डेटा, मीडिया

arXivLabs के बारे में जानकारी

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय