3 पॉइंट द्वारा GN⁺ 2025-01-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek-R1: LLM की तर्क क्षमता को मजबूत करना

    • DeepSeek-R1-Zero और DeepSeek-R1 नामक पहली पीढ़ी के reasoning models का परिचय दिया गया है
    • DeepSeek-R1-Zero को बड़े पैमाने के reinforcement learning के माध्यम से प्रशिक्षित किया गया, और इसने supervised fine-tuning के बिना भी उत्कृष्ट तर्क क्षमता दिखाई
    • हालांकि, इसे पठनीयता की समस्याओं और language mixing जैसी चुनौतियों का सामना करना पड़ा
    • इन समस्याओं को हल करने और reasoning performance को बेहतर बनाने के लिए, DeepSeek-R1 पेश किया गया, जिसमें multi-stage training और reinforcement learning से पहले प्रारंभिक डेटा का उपयोग शामिल है
    • DeepSeek-R1 ने OpenAI-o1-1217 के समान प्रदर्शन हासिल किया
    • शोध समुदाय के समर्थन के लिए, DeepSeek-R1-Zero, DeepSeek-R1, और Qwen तथा Llama आधारित distilled 6 dense models (1.5B, 7B, 8B, 14B, 32B, 70B) को open source के रूप में जारी किया गया है
  • विषय और उद्धरण

    • विषय: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
    • उद्धरण: arXiv:2501.12948 [cs.CL]
  • सबमिशन इतिहास

    • सबमिट करने वाले: Wenfeng Liang
    • सबमिशन तिथि: 22 जनवरी 2025
  • एक्सेस के तरीके

    • PDF, HTML, TeX source आदि विभिन्न फ़ॉर्मैट में पेपर तक पहुंच संभव है
  • संदर्भ और citation tools

    • विभिन्न संदर्भ और citation tools उपलब्ध कराए गए हैं
  • कोड, डेटा, मीडिया

    • संबंधित कोड और डेटा उपलब्ध कराए गए हैं
  • arXivLabs के बारे में जानकारी

    • arXivLabs के बारे में विवरण और सहायता संबंधी जानकारी उपलब्ध कराई गई है

1 टिप्पणियां

 
GN⁺ 2025-01-26
Hacker News राय
  • DeepSeek V3 पेपर को ज़रूरी pre-reading सामग्री माना जा रहा है

    • R1 + Sonnet का संयोजन दूसरे संयोजनों से बेहतर है
    • कई जगहों पर स्वतंत्र reproduction studies चल रही हैं
    • R1 distillation बहुत आसान है, इसलिए यह अक्सर होगा
    • DeepSeek-R1 ने Silicon Valley में बड़ा असर डाला है
  • Ollama के r1-14b मॉडल को इस्तेमाल करने पर लगा कि मॉडल real time में अलग-अलग approaches आज़माता है और विकल्प चुनता है, जो इंसानी व्यवहार की याद दिलाता है

  • DeepSeek V3 ठीक उस समय आया जब Claude Sonnet में समस्याएँ आ गई थीं

    • DeepSeek की pricing बहुत सस्ती है, जो बड़ा फ़ायदा है
    • Aider और Cursor में पूरी तरह DeepSeek पर switch कर लिया
  • DeepSeek का chat feature, ChatGPT Pro की तुलना में इस्तेमाल करने में आसान है

    • मॉडल की thought process पढ़ी जा सकती है, जिससे debugging आसान हो जाती है
  • यह देखकर हैरानी हुई कि GPT-O1 मॉडल की thought process मॉडल के अंदर ही होती है

    • जिज्ञासा है कि क्या OpenAI, O1 की thought process सार्वजनिक करेगा
  • DeepSeek R1 की performance ही नहीं, इसके छोटे distilled models भी प्रभावशाली हैं

    • Qwen-आधारित 7b distilled model भी शानदार है
    • 32b distilled model घर के server के default model के रूप में इस्तेमाल हो रहा है
  • Larry Ellison और Masayoshi Son, ASI के ज़रिए अमरत्व हासिल करने का लक्ष्य रखते हैं

    • ASI development के लिए भारी निवेश किया जा रहा है
  • Arxiv पर 100 से ज़्यादा authors ने team name के तहत पेपर प्रकाशित किया

    • इससे teamwork और morale बढ़ाने में मदद मिलती है