vLLM: PagedAttention का उपयोग करके आसान, तेज़ और किफायती LLM serving

xguru · 2023-06-23T10:32:02+09:00

तेज़ LLM inference और serving के लिए open source लाइब्रेरी PagedAttention algorithm के ज़रिए attention key/value का कुशल प्रबंधन मॉडल architecture बदले बिना HuggingFace Transformers की तुलना में 24 गुना अधिक throughput असतत memory space में सतत key/value को स्टोर करना संभव LMSYS Vicuna और Chatbot Arena में सफलतापूर्वक उपयोग में

(vllm.ai)

8 पॉइंट द्वारा xguru 2023-06-23 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

तेज़ LLM inference और serving के लिए open source लाइब्रेरी
PagedAttention algorithm के ज़रिए attention key/value का कुशल प्रबंधन
- मॉडल architecture बदले बिना HuggingFace Transformers की तुलना में 24 गुना अधिक throughput
- असतत memory space में सतत key/value को स्टोर करना संभव
LMSYS Vicuna और Chatbot Arena में सफलतापूर्वक उपयोग में

vLLM: PagedAttention का उपयोग करके आसान, तेज़ और किफायती LLM serving

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.