DeepSeek ने FlashMLA ओपन सोर्स के रूप में जारी किया (5 में से 1)
(github.com/deepseek-ai)- Hopper GPU के लिए कुशल MLA decoding kernel
- variable-length sequence serving के लिए optimized
- फिलहाल जारी किए गए फीचर्स
- BF16
- 64 block size Paged kvcache
- बेंचमार्क: CUDA 12.6 का उपयोग करके H800 SXM5 पर memory-bound configuration में अधिकतम 3000GB/s और compute-bound configuration में 580 TFLOPS हासिल
- FlashAttention 2&3 और cutlass से प्रेरित
- DeepSeek Open Infra के तहत जारी 5 ओपन सोर्स प्रोजेक्ट्स में से पहला
2 टिप्पणियां
Hacker News की राय
FlashAttention-2: बेहतर parallel processing और work partitioning के साथ और तेज़ Attention
FlashAttention-3: asynchronous processing और low precision के साथ तेज़ और सटीक Attention