DeepSeek ने FlashMLA ओपन सोर्स के रूप में जारी किया (5 में से 1)

xguru · 2025-02-24T15:14:21+09:00

Hopper GPU के लिए कुशल MLA decoding kernel variable-length sequence serving के लिए optimized फिलहाल जारी किए गए फीचर्स BF16 64 block size Paged kvcache बेंचमार्क: CUDA 12.6 का उपयोग करके H800 SXM5 पर memory-bound configuration में अधिकतम 3000GB/s और compute-bound configuration में 580 TFLOPS हासिल FlashAttention 2&3 और cutlass से प्रेरित DeepSeek Open Infra के तहत जारी 5 ओपन सोर्स प्रोजेक्ट्स में से पहला

(github.com/deepseek-ai)

5 पॉइंट द्वारा xguru 2025-02-24 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Hopper GPU के लिए कुशल MLA decoding kernel
variable-length sequence serving के लिए optimized
फिलहाल जारी किए गए फीचर्स
- BF16
- 64 block size Paged kvcache
बेंचमार्क: CUDA 12.6 का उपयोग करके H800 SXM5 पर memory-bound configuration में अधिकतम 3000GB/s और compute-bound configuration में 580 TFLOPS हासिल
FlashAttention 2&3 और cutlass से प्रेरित
DeepSeek Open Infra के तहत जारी 5 ओपन सोर्स प्रोजेक्ट्स में से पहला

2 टिप्पणियां

GN⁺ 2025-02-25

Hacker News की राय

vLLM ने 3 हफ्ते पहले से DeepSeek models के लिए MLA को सपोर्ट करना शुरू किया है। यह 3 गुना अधिक generation throughput और 10 गुना token memory capacity देता है
- MHA अभी भी कम QPS वाले environments में अधिक तेज़ है
- सैद्धांतिक प्रमाण के अनुसार, समान KV cache overhead पर MLA, GQA की तुलना में लगातार अधिक अभिव्यक्ति क्षमता प्रदान करता है
- व्यापक रूप से उपयोग किए जाने वाले GQA-आधारित pretraining models (LLaMA, Qwen, Mixtral आदि) को MLA-आधारित models में बदला जा सकता है
- MLA के standard बनने की संभावना अधिक है
अगर DeepSeek R1 ने standard MHA का उपयोग किया होता, तो KV cache storage के लिए प्रति token 1749KB की आवश्यकता होती
- जब बातचीत लगभग 46,000 tokens तक पहुँचती, तो KV cache एकल H100 की पूरी storage capacity से अधिक हो जाता
- MLA का उपयोग करने पर प्रत्येक token 125KB consume करता है। यह लगभग 640,000 tokens (Ulysses का 2 गुना) से पहले तक संभव है
BF16 सपोर्ट, paged KV cache (block size 64), H800 पर 3000 GB/s memory-bound और 580 TFLOPS compute-bound
- इससे कई FANG developers का काफी समय बचा होगा
- अफसोस की बात है कि यह केवल forward pass को सपोर्ट करता है। असली रहस्य backward pass में था
- मैं जानना चाहता था कि उन्होंने dualpipe scheduler को कैसे implement किया
MLA का मतलब शायद Multi-head latent attention हो सकता है
यह बात उलझन में डालती है कि क्या चीनी कंपनियों पर Hopper GPU प्रतिबंध नहीं था। क्या वे यह स्वीकार कर रहे हैं कि अमेरिकी प्रतिबंधों के बावजूद उन्हें H100 तक पहुँच थी?
मैं सच में उम्मीद कर रहा था कि AI की मदद से flash games वापस लाए जा सकेंगे
इससे क्या किया जा सकता है?
Open AI वापस आ गया है

xguru 2025-02-24

FlashAttention-2: बेहतर parallel processing और work partitioning के साथ और तेज़ Attention
FlashAttention-3: asynchronous processing और low precision के साथ तेज़ और सटीक Attention

DeepSeek ने FlashMLA ओपन सोर्स के रूप में जारी किया (5 में से 1)

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय