- DeepSeek-V3.2 एक ओपन-सोर्स लार्ज लैंग्वेज मॉडल (LLM) है जो ऊँची कम्प्यूटेशनल दक्षता और inference तथा एजेंट परफॉर्मेंस को जोड़ता है
- नई DeepSeek Sparse Attention (DSA) संरचना लंबी संदर्भ लंबाई में भी प्रदर्शन बनाए रखते हुए गणनात्मक जटिलता को काफी घटाती है
- स्केलेबल Reinforcement Learning (RL) framework के माध्यम से GPT-5 स्तर की performance हासिल की गई, और हाई-परफॉर्मेंस संस्करण Gemini-3.0-Pro के बराबर की inference क्षमता रखता है
- Large-scale agentic task synthesis pipeline के जरिए 1,800 environments और 85,000 prompts तैयार किए गए, जिससे जटिल interaction environments में generalization और instruction execution बेहतर होता है
- ओपन मॉडल बंद/प्रोप्राइटरी मॉडल से दूरी घटाते हुए, cost-efficient विकल्प के रूप में उभर रहे हैं
DeepSeek-V3.2 ओवरव्यू
- DeepSeek-V3.2 को ओपन-सोर्स LLM की inference और एजेंट performance सीमा को तोड़ने के लिए डिज़ाइन किया गया है
- DeepSeek Sparse Attention (DSA), स्केलेबल Reinforcement Learning framework, और Large-scale agentic task synthesis pipeline की तीन मुख्य तकनीकों पर आधारित है
- हाई-परफॉर्मेंस संस्करण DeepSeek-V3.2-Speciale GPT-5 को पीछे छोड़ता है और Gemini-3.0-Pro के समान स्तर की reasoning क्षमता रखता है
- 2025 के International Mathematical Olympiad (IMO) और International Olympiad in Informatics (IOI) में gold-medal स्तर के परिणाम दर्ज किए गए
- ओपन मॉडल की efficiency और performance दोनों बढ़ाकर प्रोप्राइटरी मॉडल्स के साथ performance gap कम किया
ओपन मॉडल की सीमाएँ और सुधार दिशा
- ओपन-सोर्स LLM के बंद/प्रोप्राइटरी मॉडलों की तुलना में पीछे रहने के तीन कारण बताए गए हैं
- बेसिक attention आर्किटेक्चर की अकार्यकुशलता के कारण लंबी sequence संभालते समय गणना भार बहुत बढ़ जाता है
- post-training चरण में गणना संसाधनों की कमी के कारण कठिन कामों में performance गिर जाता है
- एजेंट generalization और निर्देश पालन क्षमता की कमी से वास्तविक उपयोग में सीमाएँ आती हैं
- DeepSeek-V3.2 इन समस्याओं को हल करने के लिए efficiency-focused attention structure, scalable RL training, और tool-using inference integration pipeline लाता है
DeepSeek Sparse Attention (DSA)
- DSA में lightning indexer और fine-grained token selection mechanism शामिल हैं
- lightning indexer FP8 precision पर काम करता है और हर query token के लिए शीर्ष k key-value जोड़े चुनता है
- इससे O(L²) complexity को O(Lk) तक घटाकर लंबे संदर्भ में भी efficient processing संभव होता है
- MLA-based implementation के साथ यह पहले के DeepSeek-V3.1-Terminus के साथ compatibility बनाए रखता है
- दो चरणों में continual learning की प्रक्रिया की गई
- Dense Warm-up चरण में indexer initialize किया गया
- Sparse Training चरण में पूरे मॉडल को DSA pattern में adapt करके 943.7B tokens पर train किया गया
performance और efficiency का मूल्यांकन
- DeepSeek-V3.2-Exp ने लंबी संदर्भ लंबाई वाले inference की efficiency को काफी बेहतर किया, जबकि बिना performance loss के DeepSeek-V3.1-Terminus के बराबर परिणाम बरकरार रखे
- AA-LCR3 और Fiction.liveBench जैसे independent benchmarks पर पिछले संस्करण की तुलना में बेहतर inference score मिला
- H800 GPU cluster के आधार पर प्रति-token लागत में बड़ी गिरावट से end-to-end speedup हासिल हुआ
post-training और reinforcement learning संरचना
- Specialist Distillation और Mixed RL का संयोजन किया गया
- गणित, प्रोग्रामिंग, लॉजिकल reasoning, general agent, code agent और search agent सहित कुल 6 विशेषज्ञ डोमेन मॉडलों को RL से train किया गया
- प्रत्येक विशेषज्ञ मॉडल का डेटा distill करके अंतिम checkpoint बनाया गया
- Group Relative Policy Optimization (GRPO) algorithm का उपयोग करके inference, agent और alignment training को एकीकृत किया गया
- इसमें reward model, length penalty और language consistency reward जैसे घटक जोड़े गए
- DeepSeek-V3.2-Speciale ने गणितीय proof क्षमता बढ़ाने के लिए अतिरिक्त रूप से DeepSeekMath-V2 data और reward तरीका जोड़कर लगाया
reinforcement learning stability methods (Scaling GRPO)
- Unbiased KL Estimate से stable convergence सुनिश्चित की गई
- पहले के K3 estimator से जुड़ी अस्थिर gradient समस्या को हल किया गया
- Off-Policy Sequence Masking के जरिए उच्च policy mismatch वाले negative samples को mask करके सीखने की stability बेहतर की गई
- Keep Routing से Mixture-of-Experts मॉडल की routing consistency बनी रहती है
- Keep Sampling Mask से top-p और top-k sampling में नीति-आधारित action space mismatch को रोका गया
tool-using reasoning (Thinking in Tool-Use)
- Thinking Context Management लाकर tool कॉल के समय अनावश्यक re-reasoning से बचाव किया गया
- केवल नया यूज़र संदेश आने पर ही पहले की reasoning हटाई जाती है
- tool कॉल history को preserve करके context की efficient management की जाती है
- Cold-Start चरण में reasoning data और agent data को combine किया गया
- reasoning data में <think></think> टैग के जरिए reasoning path को स्पष्ट किया गया
- tool कॉल शामिल करने वाले सिस्टम प्रॉम्प्ट से integrated training foundation तैयार की गई
- Large-scale agent task synthesis के जरिए 1,800 environments और 85,000 prompts बनाए गए
- वास्तविक वेब खोज API, code execution tool, Jupyter Notebook आदि के साथ real-world RL training चलाया गया
- Search Agent ने multi-agent pipeline के माध्यम से प्रश्न निर्माण, verification और reward evaluation को स्वतः किया
- हाइब्रिड reward model ने factuality और practical usefulness दोनों को एक साथ optimize किया
निष्कर्ष
- DeepSeek-V3.2 ने efficient attention structure और scalable RL training को जोड़कर ओपन मॉडल की सीमाओं को पार करने की दिशा दिखायी
- inference और agent integration performance में प्रोप्राइटरी मॉडल्स के साथ gap काफी घटाकर इसे cost-efficient विकल्प के रूप में आगे बढ़ाया है
- ओपन-सोर्स LLM के लिए सतत उच्च performance विकास मार्ग का उदाहरण माना जा रहा है
1 टिप्पणियां
Hacker News राय
वे लगातार cost efficiency में सुधार कर रहे हैं, और विकास प्रक्रिया को खुले तौर पर साझा कर रहे हैं — यह प्रभावशाली है
उम्मीद है कि ऐसे प्रयास AI monopoly को रोकने की ताकत बनेंगे
अगर open models commercial models से प्रतिस्पर्धा कर सकते हैं, तो सवाल उठता है कि Google, Anthropic, OpenAI जैसी कंपनियाँ AI से पैसे कैसे कमाएँगी
अतीत में open source इसलिए हार गया क्योंकि quality और feature depth में वह closed systems से पीछे था, लेकिन अब performance शायद plateau में पहुँचती दिख रही है
आखिरकार, लंबे समय में वही जीतेगा जिसके पास सबसे सस्ता energy infrastructure होगा
उदाहरण के लिए जैसे Amazon MongoDB API को service की तरह देता है, अंततः कमाई infrastructure usage fees से ही होती है
ज़्यादातर कंपनियों के पास SOTA models को खुद host करने की क्षमता नहीं होती। यह बात इस हक़ीक़त से भी समझी जा सकती है कि वे अपना email server तक खुद नहीं चलातीं
Google ने Transformer बनाया, OpenAI ने RLHF के साथ ChatGPT को सफल बनाया, लेकिन अब फिर Google का AI summary feature search के शीर्ष पर जगह ले रहा है
संबंधित दस्तावेज़: Google “We have no moat, and neither does OpenAI”
कहा जा रहा है कि इस मॉडल में केवल benchmarks ही नहीं, बल्कि inference efficiency भी काफी बेहतर हुई है
संबंधित लिंक: Thomas Ip की performance comparison
DeepSeek-V3.2 का chat template काफी बदल गया है।
पहले लगा कि इन्होंने कोई नया format बनाया है, लेकिन syntax देखने पर यह लगभग Harmony format जैसा ही लगता है
अगर ऐसा है, तो शुरू से ही इसे Harmony-compatible कहा गया होता तो समझना आसान होता
सोच रहा हूँ कि 32~512GB श्रेणी के models इतने कम क्यों हैं, और Mac Studio M4 की अधिकतम RAM 128GB ही क्यों है
ऐसे models का open source में जारी होना शानदार है। लेकिन क्या चार RTX 5090 वाली $20,000 rig पर भी इसे पर्याप्त तेजी से चलाया जा सकता है, इस पर शक है
यह बात उलटे मूल टिप्पणी के दावे (consumer use के लिए धीमा है) को और मज़बूत करती है
paper की table 3 देखें तो DS-Speciale लगभग सभी tests में 1~2 स्थान पर है, लेकिन token output 50% से भी ज़्यादा है
कई उत्तरों को parallel में generate करके अंतिम उत्तर चुनने के तरीके से reasoning performance को compute resources के साथ scale किया जा सकता है
कुछ घंटों तक इस्तेमाल करने के बाद, यह बहुत solid और competitive model लगा। GLM4.6 से बेहतर और Kimi K2 से भी अच्छा महसूस हुआ। v4 का इंतज़ार है
यह दिलचस्प है कि इतना बड़ा frontier-grade model MIT license के तहत जारी किया गया है
मुझे समझ नहीं आता कि अमेरिकी AI उद्योग का valuation किस आधार पर हो रहा है। Chinese models बहुत सस्ते हैं और performance भी लगभग समान दे रहे हैं
benchmarks भी अब saturation की हालत में हैं, इसलिए अंतर छोटा दिखता है, लेकिन top tier में 1% का फर्क भी वास्तव में बड़ा मायने रखता है
मेरे बनाए Metabench leaderboard में भी Chinese models अच्छे हैं, लेकिन top tier से उनका अंतर अब भी मौजूद है
फिर भी कम inference cost की वजह से value-for-money segment में Chinese models मजबूत हैं
अमेरिकी कंपनियाँ सिर्फ model नहीं, बल्कि दुनिया भर में low-latency infrastructure भी बेच रही हैं। यही उनकी ऊँची valuation को समझाता है
संदर्भ के लिए, Cerebras बहुत तेज़ GLM 4.6 दे रहा है
शायद इसके पीछे यह धारणा भी है कि DeepSeek पर प्रतिबंध लग सकता है और अमेरिका में open software को रोका जा सकता है
आगे चलकर frontier models शायद बारीक edge cases में खुद को अलग दिखाएँगे