PowerInfer: कंज्यूमर GPU का उपयोग करके तेज़ बड़े भाषा मॉडल सर्विंग

  • PowerInfer एक CPU/GPU LLM inference engine है जो activation locality का उपयोग करता है.
  • PowerInfer और llama.cpp एक ही हार्डवेयर पर चलते हैं और RTX 4090 की VRAM का पूरा उपयोग करते हैं.

अवलोकन

  • PowerInfer एक ऐसा इंजन है जो पर्सनल कंप्यूटर (PC) में लगे एकल कंज्यूमर GPU के साथ बड़े भाषा मॉडल (LLM) inference को उच्च गति से चलाता है.
  • PowerInfer का डिज़ाइन आधार LLM inference में दिखाई देने वाली उच्च locality का उपयोग करना है, जहाँ neuron activation में power-law distribution की विशेषता होती है.
  • यह distribution दिखाता है कि कुछ 'hot' neurons लगातार सक्रिय होते हैं, जबकि अधिकांश 'cold' neurons इनपुट के अनुसार बदलते हैं.
  • PowerInfer इस समझ का उपयोग करके GPU-CPU hybrid inference engine डिज़ाइन करता है: 'hot' neurons को पहले से GPU में लोड किया जाता है, और 'cold' neurons की गणना CPU पर की जाती है, जिससे GPU memory requirements और CPU-GPU data transfer दोनों में बड़ी कमी आती है.
  • PowerInfer adaptive predictor और neuron-aware sparse operator को एकीकृत करता है ताकि neuron activation और computation sparsity की efficiency को optimize किया जा सके.
  • मूल्यांकन के अनुसार, PowerInfer ने एकल NVIDIA RTX 4090 GPU पर विभिन्न LLMs (जैसे OPT-175B) के लिए औसतन 13.20 tokens/sec और अधिकतम 29.08 tokens/sec की token generation rate हासिल की, जो server-grade A100 GPU की तुलना में 18% कम प्रदर्शन है.
  • मॉडल accuracy बनाए रखते हुए यह llama.cpp से अधिकतम 11.69 गुना तेज़ प्रदर्शन दिखाता है.

विशेषताएँ

  • Locality-केंद्रित डिज़ाइन: efficient LLM inference के लिए sparse activation और 'hot'/'cold' neuron अवधारणा का उपयोग, जिससे कम resource requirement के साथ high speed मिलती है.

  • Hybrid CPU/GPU उपयोग: CPU और GPU की memory/compute क्षमता को सहज रूप से एकीकृत कर balanced workload और तेज़ processing संभव बनाता है.

  • आसान integration: लोकप्रिय ReLU-sparse models के साथ compatible.

  • लोकल deployment में आसानी: कंज्यूमर हार्डवेयर पर लोकल deployment के लिए गहराई से optimized, जिससे single GPU पर low-latency LLM inference और serving संभव है.

  • Backward compatibility: llama.cpp से अलग होने के बावजूद, server और batch generation जैसे अधिकांश examples/ को llama.cpp की तरह उपयोग किया जा सकता है.

शुरुआत करें

  • इंस्टॉलेशन और model weights के लिए मार्गदर्शन उपलब्ध है.

सेटअप और इंस्टॉलेशन

  • कोड प्राप्त करने और build करने के तरीके के लिए मार्गदर्शन दिया गया है.

मॉडल weights

  • PowerInfer मॉडल PowerInfer GGUF format में स्टोर होते हैं, जिसमें LLM weights और predictor weights शामिल होते हैं.
  • Hugging Face के माध्यम से PowerInfer GGUF weights डाउनलोड किए जा सकते हैं.
  • मूल model weights और predictor weights को PowerInfer GGUF में convert करने के तरीके के लिए मार्गदर्शन दिया गया है.

inference

  • केवल CPU उपयोग करने या सभी उपलब्ध VRAM का उपयोग करने वाले CPU-GPU hybrid inference के लिए निर्देश दिए गए हैं.

quantization

  • INT4(Q4_0) मॉडल के लिए optimized quantization support और उसके उपयोग का मार्गदर्शन दिया गया है.

मूल्यांकन

  • PowerInfer ने FP16 और INT4 मॉडल के लिए क्रमशः अधिकतम 11x और 8x speedup हासिल किया है.

अक्सर पूछे जाने वाले प्रश्न

  • CUDA_ERROR_OUT_OF_MEMORY त्रुटि को हल करने और अन्य troubleshooting के लिए सहायता मार्गदर्शन दिया गया है.

करने योग्य काम

  • PowerInfer के core code, Mistral-7B मॉडल, Windows support, text-generation-webui, perplexity evaluation code, Mac के लिए Metal support, OPT मॉडल code, predictor training code, FFN network की online splitting, Multi-GPU support आदि के रिलीज़ प्लान दिए गए हैं.

शोधपत्र और citation

  • PowerInfer के तकनीकी विवरण शोधपत्र में देखे जा सकते हैं.
  • यदि PowerInfer उपयोगी लगे या संबंधित प्रोजेक्ट और शोध में मदद करे, तो शोधपत्र को cite करने का अनुरोध किया गया है.

आभार

  • modifiable operator library ggml और llama.cpp के execution runtime के लिए धन्यवाद.
  • ReLU-आधारित sparse models पर THUNLP के समर्थन के लिए धन्यवाद.
  • PowerInfer को प्रेरित करने वाले Deja Vu शोध के लिए धन्यवाद.

GN⁺ की राय

  • PowerInfer एक नवोन्मेषी इंजन है जो कंज्यूमर GPU का उपयोग करके बड़े भाषा मॉडलों का तेज़ और efficient inference संभव बनाता है.
  • 'hot'/'cold' neuron अवधारणा और hybrid CPU/GPU उपयोग के माध्यम से यह resources बचाते हुए भी server-grade performance के करीब inference speed देता है.
  • यह तकनीक AI research और development में व्यक्तिगत डेवलपर्स या छोटे teams को server-grade hardware के बिना भी high-performance models के साथ प्रयोग और deployment का अवसर देती है.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.