ExLlamaV2: सामान्य GPU पर लोकल LLMs चलाने के लिए तेज़ inference लाइब्रेरी

3090/4090 जैसे GPU पर लोकल LLM चलाने के लिए डिज़ाइन की गई inference लाइब्रेरी
यह शुरुआती रिलीज़ है और कोड अभी परीक्षण चरण में है, तथा कुछ प्रमुख फीचर अभी लागू नहीं किए गए हैं
V1 की तुलना में ExLlamaV2 तेज़ है, इसमें बेहतर kernels हैं, अधिक साफ़ और विविध codebase है, और यह नए quantization formats को support करता है
CUDA functions के लिए यह Torch C++ extensions पर निर्भर करता है, जो runtime पर compile होते हैं. लाइब्रेरी का पहली बार उपयोग करने पर 10-20 सेकंड लग सकते हैं, लेकिन extension बाद के उपयोग के लिए cache हो जाता है
V1 की तरह यह 4-bit GPTQ models को support करता है, लेकिन नया "EXL2" format भी support करता है, जो मॉडल के भीतर quantization levels को mix करके 2-bit से 8-bit के बीच औसत bitrate हासिल कर सकता है
quantization के लिए parameter selection अपने-आप होता है, और मॉडल को quantize करने के लिए script उपलब्ध कराई गई है
यह भी बताया गया है कि कुछ EXL2-quantized models HuggingFace पर अपलोड किए गए हैं ताकि उपयोगकर्ता उन्हें आज़मा सकें
भविष्य की योजनाओं में prebuilt extensions वाला PyPi package, LoRA support, example web UI, web server, और अधिक samplers शामिल हैं

1 टिप्पणियां

GN⁺ 2023-09-14

Hacker News राय

लेख Exllamav2 पर चर्चा करता है, जो एक नई inference library है और consumer GPU पर language models (LLMs) चलाने में सक्षम बनाती है।
यह संभवतः पहली बार है जब बड़े LLMs consumer GPU पर प्रतिस्पर्धी गति से चल सकते हैं, और GPT-3.5-turbo या GPT-4 को भी पीछे छोड़ने की क्षमता रखते हैं।
library quantization का एक अनोखा तरीका इस्तेमाल करती है, जिसमें अलग-अलग layers या modules को quantize किया जाता है ताकि parameters को समायोजित करते समय perplexity कम से कम रहे।
3090 और 4090 जैसे अलग-अलग GPU के performance की तुलना, और वे अलग-अलग models को कैसे handle करते हैं, इस पर रुचि है।
लेख में शुरुआती चरण के ROCm support जोड़े जाने का भी उल्लेख है, जिससे यह जिज्ञासा बढ़ती है कि RTX4090/3090 की तुलना 7900 series से कैसी होगी।
पाठकों की रुचि speed comparison में है और यह जानने में भी कि बड़े models high-end hardware, जैसे top-tier Nvidia cards, पर कैसे चलते हैं।
उन models के performance को लेकर सवाल हैं जिन्हें memory में चलाने के लिए कई cards की जरूरत होती है।
लेख ने "Local LLaMA" subreddit में इस release पर चर्चा को जन्म दिया।
पाठक यह जानना चाहते हैं कि models को single bit width तक घटाने का क्या असर होता है, और क्या वे तब भी काम करते हैं या सिर्फ बकवास output देने लगते हैं।
ELX2 की लागत और perplexity benchmarks को लेकर सवाल हैं, और इस बात पर कुछ शिकायतें भी हैं कि Facebook ने llama v2 को 65B के बजाय 70B क्यों बनाया।
पाठक EXL2/GPTQ quantization के बारे में और जानकारी ढूंढ रहे हैं, क्योंकि यही इस model में speed improvements का मुख्य कारण लगता है।
"70B Llama 2" और ChatGPT 3.5/4.0 के बीच तुलना की जा रही है, और उनके relative performance को लेकर सवाल उठ रहे हैं।

ExLlamaV2: सामान्य GPU पर लोकल LLMs चलाने के लिए तेज़ inference लाइब्रेरी

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय