- V3.1-Terminus पर आधारित, लंबे कॉन्टेक्स्ट प्रोसेसिंग की दक्षता बढ़ाने के लिए DeepSeek Sparse Attention (sparse attention mechanism) को अपनाने वाला प्रायोगिक मॉडल
- Sparse Attention सूक्ष्म-स्तरीय sparse operations को सपोर्ट करता है, जिससे training और inference efficiency में बड़ा सुधार होता है, जबकि output quality मौजूदा स्तर के समान बनी रहती है
- प्रमुख benchmarks में V3.1-Terminus के साथ समान या कुछ बेहतर प्रदर्शन दिखा, खासकर coding·math problem solving और agentic tool use में परिणाम पुष्टि हुए
- research और उपयोग के लिए TileLang, DeepGEMM, FlashMLA जैसे संबंधित kernels भी साथ में जारी किए गए हैं, जिनमें पढ़ने में आसान design versions और high-performance CUDA kernels दोनों शामिल हैं
- HuggingFace, SGLang, vLLM जैसे विभिन्न environments में तुरंत चलाया जा सकता है, इसलिए अगली पीढ़ी की efficient transformer architecture रिसर्च और व्यावहारिक उपयोग के लिए आधार बनने की उम्मीद है
परिचय
- DeepSeek-V3.2-Exp, V3.1-Terminus पर आधारित विकसित किया गया next-generation architecture से पहले का चरण मॉडल है
- इसकी मुख्य विशेषता DeepSeek Sparse Attention (DSA) का उपयोग है, जो लंबे कॉन्टेक्स्ट में efficient inference और learning को संभव बनाता है
- लक्ष्य है computational efficiency में सुधार और विस्तारित text sequence processing का optimization
प्रमुख उपलब्धियाँ
- DSA ने पहली बार उन्नत sparse attention को साकार किया है, जिससे दक्षता बढ़ती है और मॉडल की output quality बनी रहती है
- training configuration को V3.1-Terminus के समान रखा गया, ताकि performance comparison की reliability सुनिश्चित हो सके
- सार्वजनिक benchmark परिणाम:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- कुल मिलाकर समान या थोड़ा बेहतर प्रदर्शन की पुष्टि हुई
ओपन सोर्स kernels
- TileLang: research उद्देश्य के लिए उच्च-पठनीयता वाले kernel examples प्रदान करता है
- DeepGEMM: high-performance CUDA kernels और indexer logit kernel जारी
- FlashMLA: sparse attention kernel प्रदान करता है
चलाने का तरीका
- HuggingFace: मॉडल रूपांतरण के बाद
torchrun से interactive chat चलाई जा सकती है
- SGLang: Docker images उपलब्ध (H200, MI350, NPUs के लिए)
- vLLM: Day-0 support, आधिकारिक recipe docs उपलब्ध
लाइसेंस
- MIT License के आधार पर जारी
1 टिप्पणियां
Hacker News राय
दूसरे स्तर के प्रभाव के रूप में एक ऐसी बात पर ध्यान गया जिसका लोग ज़्यादा ज़िक्र नहीं कर रहे: कीमत। मॉडल्स के तेज़ी से स्केल होने के साथ उनकी कीमत भी गिर रही है, और यह काफ़ी प्रभावशाली है। यह AI के प्रसार और मॉडल इंटेलिजेंस जितना ही महत्वपूर्ण तत्व है। मूल रूप से मुझे ऐसा कोई नियम नहीं पता जो कीमतों को गिरने से रोक सके। अभी तो यह Moore's law (या AI/Nvidia chip development cycle) की तरह दिखता है, जहाँ हर hardware generation के साथ चीज़ें बहुत तेज़ और सस्ती होती जाती हैं। तो एक साल बाद शायद ChatGPT-5 को आधी कीमत पर इस्तेमाल किया जा सकेगा। (बेशक हाई-परफॉर्मेंस मॉडल महंगे होंगे, लेकिन बात token-based pricing की हो रही है।)
यह देखकर अच्छा लग रहा है कि Chinese open source models लगातार बेहतर और सस्ते हो रहे हैं। मॉडल पहले से ही सस्ता था, और अब API pricing में 50% अतिरिक्त कटौती के बाद यह Input $0.28/M, (cache hit होने पर $0.028/M), Output $0.42/M पर उपलब्ध है।
अगर कीमत घटी है, तो पहले कीमत क्या थी यह जानने की जिज्ञासा है। उल्टा मुझे तो लगा था कि हाल में कीमत बढ़ी थी।
कीमत में कटौती अच्छी है, लेकिन यह स्तर कितने समय तक बना रहेगा यह जानना चाहूँगा। पहले भी यह बहुत सस्ता था, फिर एक बार काफ़ी बढ़ा, और अब फिर घटा है।
Deepseek v3.2-exp model introduction link
अजीब बात यह है कि इस मॉडल पर "trains on data" लिखा है ("This provider may use prompts and completions to improve their models" जैसा संकेत)। आम तौर पर paid models input data पर train नहीं करते, इसलिए समझ नहीं आ रहा कि OpenRouter ने इसे गलत label किया है या Deepseek सच में user data से training करता है।
यह भी संदेह है कि Open Router सच में open source है या नहीं। उसका "main" repo archived है और बस छोटे projects दिखते हैं। लगता है कि वास्तव में open source सिर्फ API client bindings हैं, और core routing service बंद है।
शायद मैं सही समझ रहा हूँ, लेकिन इस मॉडल की खासियत यह लगती है कि इसे पूरी attention distribution की नकल करने के लिए train किया गया है, जबकि यह सिर्फ महत्वपूर्ण top-k tokens (यहाँ k=2048) को filter करता है। इसलिए context window बड़ा होने पर भी [query, key] computation complexity linear नहीं बढ़ती और लगभग स्थिर रहती है। (हालाँकि graph को देखें तो indexer पूरे context पर एक मोटा pass करता है, इसलिए तकनीकी रूप से यह O(L) ही है।)
ऐसे "सस्ते" models की बड़ी समस्या यह है कि अगर provider caching support न दे, तो real-world usage, खासकर agent workflows में, कुल लागत उल्टा ज़्यादा हो सकती है। Input/output token cost उतनी मायने नहीं रखती; cache hits (reuse) की लागत ही अक्सर total tokens का ज़्यादातर हिस्सा बनती है। ऐसी स्थिति में GPT-5 इस्तेमाल करना सस्ता पड़ सकता है, या लगभग समान लागत पर ज़्यादा ताकतवर मॉडल मिल सकता है।
DeepSeek caching support करता है, और cache hit होने पर लागत cache miss की 10% है। खास तौर पर cache hit $0.028/M, cache miss $0.28/M, output $0.42/M है। संदर्भ
मुझे लगा था कि यह मॉडल caching support करता है। Pricing page भी साफ़ कहता है कि cache hit होने पर input tokens $0.028 हैं।
आपने इसे गंभीर समस्या बताया, लेकिन शर्त (IF) भी लगा दी। DeepSeek API आधिकारिक तौर पर caching support करता है। जहाँ समस्या नहीं है वहाँ समस्या मत बनाइए। cache guide
यह हैरान करने वाला है कि benchmarks लगभग वैसे ही रखे गए हैं, लेकिन लागत नाटकीय रूप से घट गई है।
दिलचस्प बात यह है कि model progress अभी भी इतनी तेज़ है कि किसी एक specific-model hardware को बहुत बड़ा फ़ायदा नहीं मिल रहा, और scaling का मुख्य लाभ अभी भी general-purpose platforms पर ही आ रहा है।
लगता है कि Deep Sparse Attention code जैसे structured, long-form reasoning में वास्तविक मदद कर सकता है।
यह वाकई कमाल का लगता है। खासकर यह जानने की उत्सुकता है कि subtle differences जहाँ मायने रखते हैं, ऐसे real-world data पर यह कैसा काम करता है। और यह भी बहुत जानने की इच्छा है कि क्या इसे 128K context window से बड़े scenarios में test किया गया है।
यह अच्छा है कि sparse attention का एक वास्तविक deployment case देखने को मिल रहा है।