-
DeepSeek-R1: LLM की तर्क क्षमता को मजबूत करना
- DeepSeek-R1-Zero और DeepSeek-R1 नामक पहली पीढ़ी के reasoning models का परिचय दिया गया है
- DeepSeek-R1-Zero को बड़े पैमाने के reinforcement learning के माध्यम से प्रशिक्षित किया गया, और इसने supervised fine-tuning के बिना भी उत्कृष्ट तर्क क्षमता दिखाई
- हालांकि, इसे पठनीयता की समस्याओं और language mixing जैसी चुनौतियों का सामना करना पड़ा
- इन समस्याओं को हल करने और reasoning performance को बेहतर बनाने के लिए, DeepSeek-R1 पेश किया गया, जिसमें multi-stage training और reinforcement learning से पहले प्रारंभिक डेटा का उपयोग शामिल है
- DeepSeek-R1 ने OpenAI-o1-1217 के समान प्रदर्शन हासिल किया
- शोध समुदाय के समर्थन के लिए, DeepSeek-R1-Zero, DeepSeek-R1, और Qwen तथा Llama आधारित distilled 6 dense models (1.5B, 7B, 8B, 14B, 32B, 70B) को open source के रूप में जारी किया गया है
-
विषय और उद्धरण
- विषय: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
- उद्धरण: arXiv:2501.12948 [cs.CL]
-
सबमिशन इतिहास
- सबमिट करने वाले: Wenfeng Liang
- सबमिशन तिथि: 22 जनवरी 2025
-
एक्सेस के तरीके
- PDF, HTML, TeX source आदि विभिन्न फ़ॉर्मैट में पेपर तक पहुंच संभव है
-
संदर्भ और citation tools
- विभिन्न संदर्भ और citation tools उपलब्ध कराए गए हैं
-
कोड, डेटा, मीडिया
- संबंधित कोड और डेटा उपलब्ध कराए गए हैं
-
arXivLabs के बारे में जानकारी
- arXivLabs के बारे में विवरण और सहायता संबंधी जानकारी उपलब्ध कराई गई है
1 टिप्पणियां
Hacker News राय
DeepSeek V3 पेपर को ज़रूरी pre-reading सामग्री माना जा रहा है
Ollama के r1-14b मॉडल को इस्तेमाल करने पर लगा कि मॉडल real time में अलग-अलग approaches आज़माता है और विकल्प चुनता है, जो इंसानी व्यवहार की याद दिलाता है
DeepSeek V3 ठीक उस समय आया जब Claude Sonnet में समस्याएँ आ गई थीं
DeepSeek का chat feature, ChatGPT Pro की तुलना में इस्तेमाल करने में आसान है
यह देखकर हैरानी हुई कि GPT-O1 मॉडल की thought process मॉडल के अंदर ही होती है
DeepSeek R1 की performance ही नहीं, इसके छोटे distilled models भी प्रभावशाली हैं
Larry Ellison और Masayoshi Son, ASI के ज़रिए अमरत्व हासिल करने का लक्ष्य रखते हैं
Arxiv पर 100 से ज़्यादा authors ने team name के तहत पेपर प्रकाशित किया