- 3090/4090 जैसे GPU पर लोकल LLM चलाने के लिए डिज़ाइन की गई inference लाइब्रेरी
- यह शुरुआती रिलीज़ है और कोड अभी परीक्षण चरण में है, तथा कुछ प्रमुख फीचर अभी लागू नहीं किए गए हैं
- V1 की तुलना में ExLlamaV2 तेज़ है, इसमें बेहतर kernels हैं, अधिक साफ़ और विविध codebase है, और यह नए quantization formats को support करता है
- CUDA functions के लिए यह Torch C++ extensions पर निर्भर करता है, जो runtime पर compile होते हैं. लाइब्रेरी का पहली बार उपयोग करने पर 10-20 सेकंड लग सकते हैं, लेकिन extension बाद के उपयोग के लिए cache हो जाता है
- V1 की तरह यह 4-bit GPTQ models को support करता है, लेकिन नया "EXL2" format भी support करता है, जो मॉडल के भीतर quantization levels को mix करके 2-bit से 8-bit के बीच औसत bitrate हासिल कर सकता है
- quantization के लिए parameter selection अपने-आप होता है, और मॉडल को quantize करने के लिए script उपलब्ध कराई गई है
- यह भी बताया गया है कि कुछ EXL2-quantized models HuggingFace पर अपलोड किए गए हैं ताकि उपयोगकर्ता उन्हें आज़मा सकें
- भविष्य की योजनाओं में prebuilt extensions वाला PyPi package, LoRA support, example web UI, web server, और अधिक samplers शामिल हैं
1 टिप्पणियां
Hacker News राय