5 पॉइंट द्वारा xguru 2025-02-24 | 2 टिप्पणियां | WhatsApp पर शेयर करें

2 टिप्पणियां

 
GN⁺ 2025-02-25

Hacker News की राय

  • vLLM ने 3 हफ्ते पहले से DeepSeek models के लिए MLA को सपोर्ट करना शुरू किया है। यह 3 गुना अधिक generation throughput और 10 गुना token memory capacity देता है
    • MHA अभी भी कम QPS वाले environments में अधिक तेज़ है
    • सैद्धांतिक प्रमाण के अनुसार, समान KV cache overhead पर MLA, GQA की तुलना में लगातार अधिक अभिव्यक्ति क्षमता प्रदान करता है
    • व्यापक रूप से उपयोग किए जाने वाले GQA-आधारित pretraining models (LLaMA, Qwen, Mixtral आदि) को MLA-आधारित models में बदला जा सकता है
    • MLA के standard बनने की संभावना अधिक है
  • अगर DeepSeek R1 ने standard MHA का उपयोग किया होता, तो KV cache storage के लिए प्रति token 1749KB की आवश्यकता होती
    • जब बातचीत लगभग 46,000 tokens तक पहुँचती, तो KV cache एकल H100 की पूरी storage capacity से अधिक हो जाता
    • MLA का उपयोग करने पर प्रत्येक token 125KB consume करता है। यह लगभग 640,000 tokens (Ulysses का 2 गुना) से पहले तक संभव है
  • BF16 सपोर्ट, paged KV cache (block size 64), H800 पर 3000 GB/s memory-bound और 580 TFLOPS compute-bound
    • इससे कई FANG developers का काफी समय बचा होगा
    • अफसोस की बात है कि यह केवल forward pass को सपोर्ट करता है। असली रहस्य backward pass में था
    • मैं जानना चाहता था कि उन्होंने dualpipe scheduler को कैसे implement किया
  • MLA का मतलब शायद Multi-head latent attention हो सकता है
  • यह बात उलझन में डालती है कि क्या चीनी कंपनियों पर Hopper GPU प्रतिबंध नहीं था। क्या वे यह स्वीकार कर रहे हैं कि अमेरिकी प्रतिबंधों के बावजूद उन्हें H100 तक पहुँच थी?
  • मैं सच में उम्मीद कर रहा था कि AI की मदद से flash games वापस लाए जा सकेंगे
  • इससे क्या किया जा सकता है?
  • Open AI वापस आ गया है