- तेज़ LLM inference और serving के लिए open source लाइब्रेरी
- PagedAttention algorithm के ज़रिए attention key/value का कुशल प्रबंधन
- मॉडल architecture बदले बिना HuggingFace Transformers की तुलना में 24 गुना अधिक throughput
- असतत memory space में सतत key/value को स्टोर करना संभव
- LMSYS Vicuna और Chatbot Arena में सफलतापूर्वक उपयोग में
अभी कोई टिप्पणी नहीं है.