कंज्यूमर GPU वाले PC पर हाई-स्पीड बड़े भाषा मॉडल सर्विंग
(github.com/SJTU-IPADS)PowerInfer: कंज्यूमर GPU का उपयोग करके तेज़ बड़े भाषा मॉडल सर्विंग
- PowerInfer एक CPU/GPU LLM inference engine है जो activation locality का उपयोग करता है.
- PowerInfer और llama.cpp एक ही हार्डवेयर पर चलते हैं और RTX 4090 की VRAM का पूरा उपयोग करते हैं.
अवलोकन
- PowerInfer एक ऐसा इंजन है जो पर्सनल कंप्यूटर (PC) में लगे एकल कंज्यूमर GPU के साथ बड़े भाषा मॉडल (LLM) inference को उच्च गति से चलाता है.
- PowerInfer का डिज़ाइन आधार LLM inference में दिखाई देने वाली उच्च locality का उपयोग करना है, जहाँ neuron activation में power-law distribution की विशेषता होती है.
- यह distribution दिखाता है कि कुछ 'hot' neurons लगातार सक्रिय होते हैं, जबकि अधिकांश 'cold' neurons इनपुट के अनुसार बदलते हैं.
- PowerInfer इस समझ का उपयोग करके GPU-CPU hybrid inference engine डिज़ाइन करता है: 'hot' neurons को पहले से GPU में लोड किया जाता है, और 'cold' neurons की गणना CPU पर की जाती है, जिससे GPU memory requirements और CPU-GPU data transfer दोनों में बड़ी कमी आती है.
- PowerInfer adaptive predictor और neuron-aware sparse operator को एकीकृत करता है ताकि neuron activation और computation sparsity की efficiency को optimize किया जा सके.
- मूल्यांकन के अनुसार, PowerInfer ने एकल NVIDIA RTX 4090 GPU पर विभिन्न LLMs (जैसे OPT-175B) के लिए औसतन 13.20 tokens/sec और अधिकतम 29.08 tokens/sec की token generation rate हासिल की, जो server-grade A100 GPU की तुलना में 18% कम प्रदर्शन है.
- मॉडल accuracy बनाए रखते हुए यह llama.cpp से अधिकतम 11.69 गुना तेज़ प्रदर्शन दिखाता है.
विशेषताएँ
-
Locality-केंद्रित डिज़ाइन: efficient LLM inference के लिए sparse activation और 'hot'/'cold' neuron अवधारणा का उपयोग, जिससे कम resource requirement के साथ high speed मिलती है.
-
Hybrid CPU/GPU उपयोग: CPU और GPU की memory/compute क्षमता को सहज रूप से एकीकृत कर balanced workload और तेज़ processing संभव बनाता है.
-
आसान integration: लोकप्रिय ReLU-sparse models के साथ compatible.
-
लोकल deployment में आसानी: कंज्यूमर हार्डवेयर पर लोकल deployment के लिए गहराई से optimized, जिससे single GPU पर low-latency LLM inference और serving संभव है.
-
Backward compatibility: llama.cpp से अलग होने के बावजूद, server और batch generation जैसे अधिकांश
examples/को llama.cpp की तरह उपयोग किया जा सकता है.
शुरुआत करें
- इंस्टॉलेशन और model weights के लिए मार्गदर्शन उपलब्ध है.
सेटअप और इंस्टॉलेशन
- कोड प्राप्त करने और build करने के तरीके के लिए मार्गदर्शन दिया गया है.
मॉडल weights
- PowerInfer मॉडल PowerInfer GGUF format में स्टोर होते हैं, जिसमें LLM weights और predictor weights शामिल होते हैं.
- Hugging Face के माध्यम से PowerInfer GGUF weights डाउनलोड किए जा सकते हैं.
- मूल model weights और predictor weights को PowerInfer GGUF में convert करने के तरीके के लिए मार्गदर्शन दिया गया है.
inference
- केवल CPU उपयोग करने या सभी उपलब्ध VRAM का उपयोग करने वाले CPU-GPU hybrid inference के लिए निर्देश दिए गए हैं.
quantization
- INT4(
Q4_0) मॉडल के लिए optimized quantization support और उसके उपयोग का मार्गदर्शन दिया गया है.
मूल्यांकन
- PowerInfer ने FP16 और INT4 मॉडल के लिए क्रमशः अधिकतम 11x और 8x speedup हासिल किया है.
अक्सर पूछे जाने वाले प्रश्न
CUDA_ERROR_OUT_OF_MEMORYत्रुटि को हल करने और अन्य troubleshooting के लिए सहायता मार्गदर्शन दिया गया है.
करने योग्य काम
- PowerInfer के core code, Mistral-7B मॉडल, Windows support, text-generation-webui, perplexity evaluation code, Mac के लिए Metal support, OPT मॉडल code, predictor training code, FFN network की online splitting, Multi-GPU support आदि के रिलीज़ प्लान दिए गए हैं.
शोधपत्र और citation
- PowerInfer के तकनीकी विवरण शोधपत्र में देखे जा सकते हैं.
- यदि PowerInfer उपयोगी लगे या संबंधित प्रोजेक्ट और शोध में मदद करे, तो शोधपत्र को cite करने का अनुरोध किया गया है.
आभार
- modifiable operator library ggml और llama.cpp के execution runtime के लिए धन्यवाद.
- ReLU-आधारित sparse models पर THUNLP के समर्थन के लिए धन्यवाद.
- PowerInfer को प्रेरित करने वाले Deja Vu शोध के लिए धन्यवाद.
GN⁺ की राय
- PowerInfer एक नवोन्मेषी इंजन है जो कंज्यूमर GPU का उपयोग करके बड़े भाषा मॉडलों का तेज़ और efficient inference संभव बनाता है.
- 'hot'/'cold' neuron अवधारणा और hybrid CPU/GPU उपयोग के माध्यम से यह resources बचाते हुए भी server-grade performance के करीब inference speed देता है.
- यह तकनीक AI research और development में व्यक्तिगत डेवलपर्स या छोटे teams को server-grade hardware के बिना भी high-performance models के साथ प्रयोग और deployment का अवसर देती है.
अभी कोई टिप्पणी नहीं है.