1 पॉइंट द्वारा GN⁺ 2025-05-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Deepseek R1-0528 को नवीनतम LLM के रूप में जारी किया गया है
  • यह मॉडल open source के रूप में उपलब्ध है, जिससे इसकी पहुँच और उपयोगिता बढ़ती है
  • यह विभिन्न natural language processing और generation tasks में मजबूत प्रदर्शन दिखाता है
  • तेज़ और अधिक efficient architecture के जरिए यह research और practical use, दोनों में लाभ देता है
  • AI क्षेत्र में यह एक प्रतिस्पर्धी अतिरिक्त विकल्प के रूप में उभर रहा है

Deepseek R1-0528 मॉडल परिचय

  • Deepseek R1-0528 एक नवीनतम large language model (LLM) है, जिसे natural language understanding और generation के क्षेत्रों में इस्तेमाल किया जा सकता है
  • यह मॉडल Hugging Face के माध्यम से open source के रूप में जारी किया गया है, इसलिए researcher और developer कोई भी इसे स्वतंत्र रूप से उपयोग कर सकता है
  • DeepSeek-AI द्वारा विकसित R1-0528 मॉडल को बड़े dataset पर train किया गया है, इसलिए इसे text summarization, translation, question answering, code generation जैसे विभिन्न natural language processing और generation tasks में लागू किया जा सकता है
  • पहले से जारी open source models की तुलना में इसकी विशेषताएँ बेहतर inference speed और optimized network structure हैं
  • इन्हीं खूबियों के कारण research और वास्तविक industry environment में तेज़ और सटीक परिणाम चाहने वाले developers के लिए यह एक पसंदीदा विकल्प बन सकता है

मॉडल की विशेषताएँ और फायदे

  • Deepseek R1-0528, scalability, efficiency, speed के मामले में मौजूदा LLM models से अलग पहचान रखता है
  • यह ऐसा modular structure अपनाता है, जिससे developer मॉडल को आसानी से customize कर सकते हैं और विभिन्न languages या domains के लिए विशेष रूप से लागू कर सकते हैं
  • बेहतर algorithm की वजह से training और inference चरणों में processing speed में सुधार हुआ है
  • सभी उपयोगकर्ता Hugging Face library के जरिए मॉडल को आसानी से load और use कर सकते हैं

उपयोग और अपेक्षित प्रभाव

  • इसे AI research, chatbot, document auto-generation, code assistant जैसे विभिन्न practical scenarios में उपयोग किया जा सकता है
  • open source release के कारण वास्तविक dataset पर application और model performance validation अधिक स्वतंत्र रूप से किया जा सकता है
  • DeepSeek R1-0528 का लॉन्च global AI community में स्वस्थ प्रतिस्पर्धा और तकनीकी प्रगति को बढ़ावा देता है

1 टिप्पणियां

 
GN⁺ 2025-05-29
Hacker News राय
  • पहले पता चला कि 7 प्रदाताओं के जरिए openrouter पर DeepSeek R1 इस्तेमाल किया जा सकता है
    लिंक
    28 मई के मूल DeepSeek R1 अपडेट के अनुसार, इसका प्रदर्शन OpenAI o1 के लगभग बराबर है
    open source होने के नाते reasoning tokens भी सार्वजनिक हैं
    कुल parameters 671B हैं, और inference के समय सिर्फ 37B सक्रिय होते हैं
    यह पूरी तरह open source model है

    • जानना चाहता हूँ कि क्या कोई downloadable model भी है
      openrouter से परिचित नहीं हूँ और ollama में model नहीं मिला, इसलिए थोड़ा और जानना चाहता हूँ

    • model को किस data पर train किया गया, इस बारे में बिल्कुल कुछ नहीं बताया गया है
      downloadable weights जारी हुए हैं, लेकिन मूल रूप से यह reproducible open source नहीं है
      training data तक सीधे सार्वजनिक करने वाला एक project "Open R1" था,
      अभी उसकी प्रगति क्या है, यह जानने की जिज्ञासा है
      लिंक

    • DeepSeek R1 को open source कहने से सहमत नहीं हूँ
      सिर्फ download किया जा सकता है, इसका मतलब open source नहीं होता, इस बात पर जोर
      लिंक

  • DeepSeek R1 के बारे में जानकारी लगभग न के बराबर होने का अफसोस है
    benchmark जानकारी भी नहीं है, और पुराने Mistral के उस समय की याद आती है जब उसने torrent magnet link बस tweet में छोड़ दिया था

    • आजकल benchmark का खास मतलब नहीं रह गया है
      बस पहले से सार्वजनिक tests के हिसाब से model को optimize करने पर ध्यान रहता है,
      जबकि generalization बढ़ाने वाली मूलभूत प्रगति पर कम ध्यान दिया जाता है
      Huggingface leaderboard देखें तो कई open source models के fine-tuning ऊपर दिखते हैं, लेकिन वे वास्तव में व्यापक रूप से इस्तेमाल नहीं होते
      लिंक

    • benchmark तालिका में "Overall" और "Median" score तो दिखते हैं,
      लेकिन ठीक-ठीक क्या test किया गया, इसकी जानकारी नहीं है
      यह कुल मिलाकर नए models के समान ही लगता है, लेकिन cost के मामले में थोड़ा फायदा है
      कमी यह है कि पहले r1 की तरह inference speed धीमी लगती है (tokens बहुत खर्च करता है)
      तालिका लिंक

    • DeepSeek का release करने का तरीका पुराने Mistral जैसा है, सोचता हूँ क्या यह जानबूझकर किया गया homage है

    • DeepSeek आमतौर पर model जारी करने के अगले दिन paper अपलोड करता है
      अगर इस schedule को थोड़ा बेहतर समन्वित किया जाए तो और साफ-सुथरा लगेगा, लेकिन अभी खबरें थोड़ी बिखरी हुई लगती हैं

  • यह अनोखी बात है कि DeepSeek उन गिने-चुने LLMs में से एक है जो पुराने iOS version वाले iPod Touch पर चल सकता है

  • DeepSeek का नए updates को बहुत casually जारी कर देना अच्छा लगता है
    बड़े सुधार होने के बावजूद बिना अलग प्रचार के चुपचाप जारी करने वाला अंदाज़ पसंद है

    • जानना चाहता हूँ कि क्या सुधार सच में इतना बड़ा है
      benchmark जैसी कोई आधिकारिक तुलना सामग्री है या नहीं, यह जानना चाहता हूँ

    • OpenAI ही नहीं, Anthropic भी हाल में नए models को बढ़ा-चढ़ाकर पेश करते हुए
      'यह model कितना खतरनाक है, कैसे भाग निकला, कैसे लोगों को धोखा दिया, और core server hack कर लिया' जैसी कहानी जोड़कर
      nightmare जैसा माहौल बनाते हैं, जबकि DeepSeek बिना अतिशयोक्ति के सीधा release करता है

    • लगता है कि वास्तव में इसकी औपचारिक घोषणा WeChat पर की गई थी

    • यह शांत release style अच्छी है, लेकिन benchmark जैसी संख्यात्मक जानकारी भी मिले तो और अच्छा होगा

    • Nvidia earnings announcement वाले दिन इसका जारी होना भी एक दिलचस्प संयोग लगता है

  • ऐसा बड़ा LLM अगर आम व्यक्ति धीमा होने पर भी इस्तेमाल करना चाहे, तो वास्तव में किस hardware की जरूरत होगी, यह जानना चाहता हूँ
    क्या आम users settings कम करके या model size घटाकर इसे आसानी से चला सकते हैं, यह भी जानना चाहता हूँ

    • DeepSeek R1 को offloading और 1.58bit quantization के साथ local device पर चलाने में सफलता मिली
      संबंधित जानकारी: लिंक
      नए version पर भी काम चल रहा है

    • 4bit quantized version M3 Ultra 512GB पर चल सकता है
      कीमत काफी महंगी है
      दूसरा तरीका यह है कि 500GB DDR5 RAM वाले high-performance CPU system का उपयोग किया जाए
      यह भी सस्ता नहीं है, और M3 Ultra से धीमा है
      एक और विकल्प कई Nvidia GPUs लगाकर कुल 500GB VRAM बनाना है
      यह सबसे महंगा है, लेकिन speed तेज है

    • dual-socket server board में DDR5 RAM 768GB और prompt processing के लिए 16GB या उससे अधिक GPU जोड़ना होगा
      8~10 tokens/second की गति से चलाने के लिए कई लाख रुपये खर्च होंगे

    • 2,000 डॉलर के used dual-socket Xeon में DDR4 768GB लगाकर
      4bit quantized version को लगभग 1.5 tokens/second की गति से चलाया गया

    • Amazon पर लगभग 10,000 tokens पर 1 cent की लागत में इसे इस्तेमाल किया जा सकता है
      EC2 instance manual setup guide भी है
      उदाहरण के लिए g6e.48xlarge instance (192 vCPU, 1536GB RAM, L40S Tensor Core GPU 8, प्रत्येक में 48GB VRAM)
      मासिक लागत लगभग 22,000 डॉलर है
      Bedrock DeepSeek गाइड
      मैनुअल deployment guide

  • नवीनतम R1 release को लेकर काफी उत्साह है
    685B parameters के पैमाने पर, model card, release notes, बदलावों की जानकारी, और context window की जानकारी नहीं है
    मूल R1 की output quality प्रभावशाली थी, लेकिन token consumption ज्यादा होने की कमी थी
    और अधिक जानकारी सार्वजनिक होने का इंतज़ार है

  • o4 mini high की तुलना में लगभग आधी कीमत पर प्रदर्शन में बड़ा अंतर नहीं होना भी दिलचस्प है
    यह भी देखा कि अधिकांश providers quantized versions ही होस्ट कर रहे हैं

  • DeepSeek जैसी performance पाने के लिए कम से कम 8 h100 80GB GPUs की जरूरत होगी

    • अनुमानित लागत लगभग 16~24 डॉलर प्रति घंटा होगी
      अगर tokens का उपयोग बहुत अधिक हो, तो OpenAI की तुलना में यह काफी सस्ता पड़ सकता है
  • Groq पर DeepSeek जल्दी आज़माना चाहता हूँ

    • Groq असली DeepSeek model को support नहीं करता
      अभी सिर्फ DeepSeek-r1-distill-llama-70b को support करता है, और यह llama 70b पर distilled model है
      Groq मॉडल गाइड