5 पॉइंट द्वारा GN⁺ 2025-01-22 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek का पहली पीढ़ी का reasoning model R1, OpenAI-o1 के बराबर की performance रखता है
    • गणित, code और reasoning tasks में बेहतरीन प्रदर्शन करता है
  • अलग-अलग आकार के models उपलब्ध: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • हर model को खास tasks के लिए optimize किया गया है
  • लाइसेंस
    • MIT लाइसेंस के तहत उपलब्ध
    • मुफ़्त में इस्तेमाल किया जा सकता है और commercial use के लिए भी उपलब्ध है

4 टिप्पणियां

 
gadget5 2025-01-22

अगर R1 से उसकी पहचान के बारे में पूछा जाए, तो वह हर बार जवाब देता है कि उसका DeepSeek से कोई संबंध नहीं है और वह OpenAI GPT है।

 
mse9000 2025-01-31

यह कि यह अक्टूबर 2023 तक के training data होने की बात कहता है, कुछ अजीब-सा लगता है ..

 
GN⁺ 2025-01-22
Hacker News की राय
  • DeepSeek V3 राजनीतिक संवेदनशीलता को पहचानता हुआ लगता है। "Tiananmen Square किस चीज़ के लिए मशहूर है?" जैसे सवाल पर यह जवाब देता है, "माफ़ कीजिए, यह अभी मेरी सीमा के बाहर है"

    • राजनीतिक वास्तविकताओं को मैनेज करने के लिए बदलाव करने पड़ते हैं, यह समझ में आता है, लेकिन ऐसे विषयों पर LLM का झूठ बोलना असहज लगता है
    • यह जानने की जिज्ञासा है कि क्या राजनीतिक कारणों से मॉडल में किए गए बदलावों की सूची open source के रूप में जारी करने की कोई योजना है
    • मॉडल को राजनीतिक रूप से सही बनाना और नरसंहार को दबा देना अलग बातें हैं। यह बहुत खतरनाक रास्ता है, और यह यहीं नहीं रुकेगा
  • R1 पेपर को देखें तो, अगर benchmarks सही हैं, तो 1.5b और 7b मॉडल भी Claude 3.5 Sonnet से बेहतर हैं। इन मॉडलों को 8-16GB MacBook पर चला पाना हैरान करने वाला है

  • शीर्षक गलत है। Ollama पर सिर्फ llama, qwen के distilled मॉडल हैं, deepseekv3 का आधिकारिक MoE r1 मॉडल नहीं

  • 1.5b मॉडल में "Python में list को कैसे reverse करें" पूछने पर, यह रुके बिना लगातार अपने विचार उगलता रहता है। दोहराता भी नहीं है। दिलचस्प है

  • दस्तावेज़ीकरण की ज़रूरत है। पूरे प्रोजेक्ट का विवरण बस "बड़े language model के साथ शुरुआत करें" जैसा लगता है

    • install करने से पहले कई सवाल हैं। क्या यह client interface से बंधा हुआ है, system requirements क्या हैं, वगैरह
  • 3 साल पुराने laptop पर इस मॉडल को चला पाना चौंकाने वाला है

    • Rust में दो संख्याएँ जोड़ने वाला एक function लिखने का उदाहरण देता है
    • Rust में fn keyword का उपयोग करके function define किया जाता है। संख्या का प्रकार निर्दिष्ट नहीं किया गया, इसलिए इसे generic बनाया गया है
    • जोड़ करने के लिए Add trait का उपयोग किया जाता है। इसे standard library से import करना होता है
    • function signature fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T है
    • Rust में अलग-अलग numeric types को mix नहीं किया जा सकता, इसलिए explicit conversion की ज़रूरत होती है
  • Rust में दो संख्याएँ जोड़ने वाले एक सरल function का उदाहरण देता है

    • यह i32 type के दो integers को जोड़ने वाला function है
    • generics और trait bounds का उपयोग करके दूसरे numeric types को भी handle किया जा सकता है
  • यह जानने की जिज्ञासा है कि DeepSeek R1 के सबसे बड़े मॉडल पर inference चलाने के लिए कौन-कौन से paid API विकल्प उपलब्ध हैं

    • यह भी जानने की जिज्ञासा है कि DeepSeek R1 के सबसे बड़े मॉडल को fine-tune या reinforcement learning के लिए कैसे उपयोग किया जाए
  • RTX 4090 और 192GB RAM होने पर, DeepSeek R1 का कौन-सा आकार का मॉडल local में चलाया जा सकता है, यह जानने की जिज्ञासा है

  • यह जानने की जिज्ञासा है कि Nvidia 4070 के लिए कौन-सा model size उपयुक्त होगा

  • Ollama लगभग परफेक्ट के क़रीब है। लेकिन Vulkan support न होना एक बड़ी समस्या है