6 पॉइंट द्वारा GN⁺ 2025-12-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • DeepSeek-V3.2 एक ओपन-सोर्स लार्ज लैंग्वेज मॉडल (LLM) है जो ऊँची कम्प्यूटेशनल दक्षता और inference तथा एजेंट परफॉर्मेंस को जोड़ता है
  • नई DeepSeek Sparse Attention (DSA) संरचना लंबी संदर्भ लंबाई में भी प्रदर्शन बनाए रखते हुए गणनात्मक जटिलता को काफी घटाती है
  • स्केलेबल Reinforcement Learning (RL) framework के माध्यम से GPT-5 स्तर की performance हासिल की गई, और हाई-परफॉर्मेंस संस्करण Gemini-3.0-Pro के बराबर की inference क्षमता रखता है
  • Large-scale agentic task synthesis pipeline के जरिए 1,800 environments और 85,000 prompts तैयार किए गए, जिससे जटिल interaction environments में generalization और instruction execution बेहतर होता है
  • ओपन मॉडल बंद/प्रोप्राइटरी मॉडल से दूरी घटाते हुए, cost-efficient विकल्प के रूप में उभर रहे हैं

DeepSeek-V3.2 ओवरव्यू

  • DeepSeek-V3.2 को ओपन-सोर्स LLM की inference और एजेंट performance सीमा को तोड़ने के लिए डिज़ाइन किया गया है
    • DeepSeek Sparse Attention (DSA), स्केलेबल Reinforcement Learning framework, और Large-scale agentic task synthesis pipeline की तीन मुख्य तकनीकों पर आधारित है
  • हाई-परफॉर्मेंस संस्करण DeepSeek-V3.2-Speciale GPT-5 को पीछे छोड़ता है और Gemini-3.0-Pro के समान स्तर की reasoning क्षमता रखता है
    • 2025 के International Mathematical Olympiad (IMO) और International Olympiad in Informatics (IOI) में gold-medal स्तर के परिणाम दर्ज किए गए
  • ओपन मॉडल की efficiency और performance दोनों बढ़ाकर प्रोप्राइटरी मॉडल्स के साथ performance gap कम किया

ओपन मॉडल की सीमाएँ और सुधार दिशा

  • ओपन-सोर्स LLM के बंद/प्रोप्राइटरी मॉडलों की तुलना में पीछे रहने के तीन कारण बताए गए हैं
    • बेसिक attention आर्किटेक्चर की अकार्यकुशलता के कारण लंबी sequence संभालते समय गणना भार बहुत बढ़ जाता है
    • post-training चरण में गणना संसाधनों की कमी के कारण कठिन कामों में performance गिर जाता है
    • एजेंट generalization और निर्देश पालन क्षमता की कमी से वास्तविक उपयोग में सीमाएँ आती हैं
  • DeepSeek-V3.2 इन समस्याओं को हल करने के लिए efficiency-focused attention structure, scalable RL training, और tool-using inference integration pipeline लाता है

DeepSeek Sparse Attention (DSA)

  • DSA में lightning indexer और fine-grained token selection mechanism शामिल हैं
    • lightning indexer FP8 precision पर काम करता है और हर query token के लिए शीर्ष k key-value जोड़े चुनता है
    • इससे O(L²) complexity को O(Lk) तक घटाकर लंबे संदर्भ में भी efficient processing संभव होता है
  • MLA-based implementation के साथ यह पहले के DeepSeek-V3.1-Terminus के साथ compatibility बनाए रखता है
  • दो चरणों में continual learning की प्रक्रिया की गई
    • Dense Warm-up चरण में indexer initialize किया गया
    • Sparse Training चरण में पूरे मॉडल को DSA pattern में adapt करके 943.7B tokens पर train किया गया

performance और efficiency का मूल्यांकन

  • DeepSeek-V3.2-Exp ने लंबी संदर्भ लंबाई वाले inference की efficiency को काफी बेहतर किया, जबकि बिना performance loss के DeepSeek-V3.1-Terminus के बराबर परिणाम बरकरार रखे
  • AA-LCR3 और Fiction.liveBench जैसे independent benchmarks पर पिछले संस्करण की तुलना में बेहतर inference score मिला
  • H800 GPU cluster के आधार पर प्रति-token लागत में बड़ी गिरावट से end-to-end speedup हासिल हुआ

post-training और reinforcement learning संरचना

  • Specialist Distillation और Mixed RL का संयोजन किया गया
    • गणित, प्रोग्रामिंग, लॉजिकल reasoning, general agent, code agent और search agent सहित कुल 6 विशेषज्ञ डोमेन मॉडलों को RL से train किया गया
    • प्रत्येक विशेषज्ञ मॉडल का डेटा distill करके अंतिम checkpoint बनाया गया
  • Group Relative Policy Optimization (GRPO) algorithm का उपयोग करके inference, agent और alignment training को एकीकृत किया गया
    • इसमें reward model, length penalty और language consistency reward जैसे घटक जोड़े गए
  • DeepSeek-V3.2-Speciale ने गणितीय proof क्षमता बढ़ाने के लिए अतिरिक्त रूप से DeepSeekMath-V2 data और reward तरीका जोड़कर लगाया

reinforcement learning stability methods (Scaling GRPO)

  • Unbiased KL Estimate से stable convergence सुनिश्चित की गई
    • पहले के K3 estimator से जुड़ी अस्थिर gradient समस्या को हल किया गया
  • Off-Policy Sequence Masking के जरिए उच्च policy mismatch वाले negative samples को mask करके सीखने की stability बेहतर की गई
  • Keep Routing से Mixture-of-Experts मॉडल की routing consistency बनी रहती है
  • Keep Sampling Mask से top-p और top-k sampling में नीति-आधारित action space mismatch को रोका गया

tool-using reasoning (Thinking in Tool-Use)

  • Thinking Context Management लाकर tool कॉल के समय अनावश्यक re-reasoning से बचाव किया गया
    • केवल नया यूज़र संदेश आने पर ही पहले की reasoning हटाई जाती है
    • tool कॉल history को preserve करके context की efficient management की जाती है
  • Cold-Start चरण में reasoning data और agent data को combine किया गया
    • reasoning data में <think></think> टैग के जरिए reasoning path को स्पष्ट किया गया
    • tool कॉल शामिल करने वाले सिस्टम प्रॉम्प्ट से integrated training foundation तैयार की गई
  • Large-scale agent task synthesis के जरिए 1,800 environments और 85,000 prompts बनाए गए
    • वास्तविक वेब खोज API, code execution tool, Jupyter Notebook आदि के साथ real-world RL training चलाया गया
    • Search Agent ने multi-agent pipeline के माध्यम से प्रश्न निर्माण, verification और reward evaluation को स्वतः किया
    • हाइब्रिड reward model ने factuality और practical usefulness दोनों को एक साथ optimize किया

निष्कर्ष

  • DeepSeek-V3.2 ने efficient attention structure और scalable RL training को जोड़कर ओपन मॉडल की सीमाओं को पार करने की दिशा दिखायी
  • inference और agent integration performance में प्रोप्राइटरी मॉडल्स के साथ gap काफी घटाकर इसे cost-efficient विकल्प के रूप में आगे बढ़ाया है
  • ओपन-सोर्स LLM के लिए सतत उच्च performance विकास मार्ग का उदाहरण माना जा रहा है

1 टिप्पणियां

 
GN⁺ 2025-12-02
Hacker News राय
  • वे लगातार cost efficiency में सुधार कर रहे हैं, और विकास प्रक्रिया को खुले तौर पर साझा कर रहे हैं — यह प्रभावशाली है
    उम्मीद है कि ऐसे प्रयास AI monopoly को रोकने की ताकत बनेंगे

    • लेकिन वास्तव में cost efficiency में कौन “जीत रहा है”, यह पता नहीं चल सकता। क्योंकि हर कंपनी की लाभ-हानि संरचना हमें मालूम नहीं है
    • सहमत हूँ, लेकिन मुझे नहीं लगता कि उनकी मंशा एकदम एकरूपी है
    • जब तक यह पूरी तरह एक single GPU पर नहीं चलने लगता, तब तक कोई भी cost efficiency का असली विजेता नहीं है
    • लगता है कि वे यह openness तब तक जारी रखेंगे जब तक प्रतिस्पर्धियों से काफी बेहतर मॉडल नहीं बना लेते। लेकिन अगर वे सचमुच बढ़त हासिल करने के बाद भी इसे खुला रखें, तब मैं सच में प्रभावित होऊँगा
    • लेकिन Chinese Communist Party के समर्थन वाली कंपनी को पूरी तरह निष्कपट इरादों वाली मानना भोला विचार है। इसके पीछे निश्चित ही और भी उद्देश्य होंगे
  • अगर open models commercial models से प्रतिस्पर्धा कर सकते हैं, तो सवाल उठता है कि Google, Anthropic, OpenAI जैसी कंपनियाँ AI से पैसे कैसे कमाएँगी
    अतीत में open source इसलिए हार गया क्योंकि quality और feature depth में वह closed systems से पीछे था, लेकिन अब performance शायद plateau में पहुँचती दिख रही है
    आखिरकार, लंबे समय में वही जीतेगा जिसके पास सबसे सस्ता energy infrastructure होगा

    • Google के एक internal document के अनुसार “AI/LLM में moat नहीं है।” लेकिन भले आप मॉडल के मालिक न हों, अगर उसे SaaS या MaaS के रूप में पेश करें तो फिर भी बड़ा मुनाफा कमाया जा सकता है
      उदाहरण के लिए जैसे Amazon MongoDB API को service की तरह देता है, अंततः कमाई infrastructure usage fees से ही होती है
      ज़्यादातर कंपनियों के पास SOTA models को खुद host करने की क्षमता नहीं होती। यह बात इस हक़ीक़त से भी समझी जा सकती है कि वे अपना email server तक खुद नहीं चलातीं
      Google ने Transformer बनाया, OpenAI ने RLHF के साथ ChatGPT को सफल बनाया, लेकिन अब फिर Google का AI summary feature search के शीर्ष पर जगह ले रहा है
      संबंधित दस्तावेज़: Google “We have no moat, and neither does OpenAI”
    • कंपनियाँ OpenAI या Anthropic पर भरोसा करती हैं। दिक्कत आने पर जवाबदेही डालने के लिए कोई पक्ष होना भी अहम है
    • अगर space में सस्ती energy हासिल की जा सके, तो Musk AI race में बड़ी बढ़त ले सकता है। वह चाँद पर AI satellite factory बनाने के विचार पर अटका हुआ है
    • आखिरकार मुकाबला UX, lock-in, और trust के मेल का है। जो AI व्यक्तिगत डेटा तक गहराई से पहुँचता है, उसके मामले में लोग परिचित brand को ही प्राथमिकता देते हैं
    • सिर्फ model अपने आप में revenue नहीं बनाता। असली value है पहले से monetized platforms में model को integrate करना
  • कहा जा रहा है कि इस मॉडल में केवल benchmarks ही नहीं, बल्कि inference efficiency भी काफी बेहतर हुई है
    संबंधित लिंक: Thomas Ip की performance comparison

    • जानना चाहता हूँ कि यह इतना efficient क्यों है
  • DeepSeek-V3.2 का chat template काफी बदल गया है।
    पहले लगा कि इन्होंने कोई नया format बनाया है, लेकिन syntax देखने पर यह लगभग Harmony format जैसा ही लगता है
    अगर ऐसा है, तो शुरू से ही इसे Harmony-compatible कहा गया होता तो समझना आसान होता

  • सोच रहा हूँ कि 32~512GB श्रेणी के models इतने कम क्यों हैं, और Mac Studio M4 की अधिकतम RAM 128GB ही क्यों है

    • मज़ाक में सही, लेकिन “128GB काफी है” वाली बात याद आ गई। उम्मीद है M5 Max में और बड़ी RAM मिलेगी
  • ऐसे models का open source में जारी होना शानदार है। लेकिन क्या चार RTX 5090 वाली $20,000 rig पर भी इसे पर्याप्त तेजी से चलाया जा सकता है, इस पर शक है

    • कहा जा रहा है कि 512GB Mac Studio M3 Ultra पर लगभग 20 tokens प्रति सेकंड मिलते हैं। demo video
    • बड़े models को cloud में hourly या per-token billing पर चलाना ज्यादा व्यावहारिक है। आप चाहें तो खुद H100 rack खरीदकर भी चला सकते हैं, लेकिन cloud इस्तेमाल करना कहीं अधिक efficient है
    • personal rigs अब cost-effective नहीं रहे। GPU, बिजली और cooling cost जोड़ें तो RTX Pro 6000 खरीदना बेहतर लग सकता है
    • OpenRouter पर DeepSeek-V3.2 देने वाले दोनों provider (DeepSeek सहित) इसे लगभग 28tps पर चला रहे हैं। OpenRouter लिंक
      यह बात उलटे मूल टिप्पणी के दावे (consumer use के लिए धीमा है) को और मज़बूत करती है
    • मैं भी 6 RTX 3090 वाली rig इस्तेमाल करता हूँ, और 685B parameter model बहुत धीमा है। आराम से इस्तेमाल के लिए 144B या उससे छोटे models ही ठीक हैं। GLM 4.5 Air खास तौर पर अच्छा लगा
  • paper की table 3 देखें तो DS-Speciale लगभग सभी tests में 1~2 स्थान पर है, लेकिन token output 50% से भी ज़्यादा है

    • कुछ logical reasoning problems में लंबी chain of thought की ज़रूरत होती है। कम लागत वाला DeepSeek इस हिस्से को अधिकतम कर सका
      कई उत्तरों को parallel में generate करके अंतिम उत्तर चुनने के तरीके से reasoning performance को compute resources के साथ scale किया जा सकता है
  • कुछ घंटों तक इस्तेमाल करने के बाद, यह बहुत solid और competitive model लगा। GLM4.6 से बेहतर और Kimi K2 से भी अच्छा महसूस हुआ। v4 का इंतज़ार है

  • यह दिलचस्प है कि इतना बड़ा frontier-grade model MIT license के तहत जारी किया गया है

  • मुझे समझ नहीं आता कि अमेरिकी AI उद्योग का valuation किस आधार पर हो रहा है। Chinese models बहुत सस्ते हैं और performance भी लगभग समान दे रहे हैं

    • Chinese models मुख्यतः text-centric हैं, जबकि अमेरिकी और यूरोपीय models image, voice, video तक संभालते हैं, इसलिए उनकी cost ज़्यादा है
      benchmarks भी अब saturation की हालत में हैं, इसलिए अंतर छोटा दिखता है, लेकिन top tier में 1% का फर्क भी वास्तव में बड़ा मायने रखता है
      मेरे बनाए Metabench leaderboard में भी Chinese models अच्छे हैं, लेकिन top tier से उनका अंतर अब भी मौजूद है
      फिर भी कम inference cost की वजह से value-for-money segment में Chinese models मजबूत हैं
    • वास्तविक deployment में infrastructure speed महत्वपूर्ण है। OpenRouter पर Chinese models, Claude, GPT, Gemini जितने तेज़ नहीं हैं
      अमेरिकी कंपनियाँ सिर्फ model नहीं, बल्कि दुनिया भर में low-latency infrastructure भी बेच रही हैं। यही उनकी ऊँची valuation को समझाता है
      संदर्भ के लिए, Cerebras बहुत तेज़ GLM 4.6 दे रहा है
    • third-party providers caching support नहीं देते। अगर caching चालू हो जाए, तो अमेरिकी models की लागत लगभग आधी रह जाएगी और वे कहीं अधिक प्रतिस्पर्धी बन जाएँगे
    • अमेरिकी कंपनियों की valuation मौजूदा प्रदर्शन से ज़्यादा भविष्य की संभावना पर आधारित है। यह ऐसी investment है जिसमें Chinese research की समझ अभी सीमित है
      शायद इसके पीछे यह धारणा भी है कि DeepSeek पर प्रतिबंध लग सकता है और अमेरिका में open software को रोका जा सकता है
    • फिर भी, अगर अमेरिका ने पहले FOMO में यह प्रतिस्पर्धा शुरू न की होती, तो चीन की रणनीति भी शायद अभी जैसी कामयाब न होती
      आगे चलकर frontier models शायद बारीक edge cases में खुद को अलग दिखाएँगे