💫 IPEX-LLM
IPEX-LLM Intel CPU और GPU पर बहुत कम latency के साथ LLM चलाने के लिए एक PyTorch लाइब्रेरी है.
- यह Intel PyTorch extension (
IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ आदि के उत्कृष्ट कार्यों के ऊपर निर्मित है.
- यह
llama.cpp, Text-Generation-WebUI, HuggingFace transformers आदि के साथ seamless integration प्रदान करता है.
ipex-llm में 50 से अधिक models optimized/validated हैं, और उनकी पूरी सूची यहाँ देखी जा सकती है.
नवीनतम अपडेट 🔥
bigdl-llm का नाम बदलकर ipex-llm कर दिया गया है, और मूल BigDL प्रोजेक्ट यहाँ पाया जा सकता है.
ipex-llm अब ModelScope(魔搭) से सीधे models load कर सकता है.
ipex-llm ने INT2 support जोड़ा है, जिससे Intel GPU पर बड़े LLMs (जैसे Mixtral-8x7B) को 16GB VRAM में चलाना संभव होता है.
- अब उपयोगकर्ता Text-Generation-WebUI GUI के जरिए
ipex-llm का उपयोग कर सकते हैं.
ipex-llm अब Self-Speculative Decoding को support करता है, जो Intel GPU और CPU पर FP16 और BF16 inference latency को क्रमशः लगभग 30% तेज करता है.
ipex-llm अब Intel GPU पर LLM fine-tuning की एक व्यापक सूची को support करता है.
ipex-llm डेमो
- नीचे 12वीं पीढ़ी के Intel Core CPU और Intel Arc GPU पर
chatglm2-6b और llama-2-13b-chat models का optimized performance देखा जा सकता है.
ipex-llm क्विक स्टार्ट
ipex-llm इंस्टॉल करना
- Windows GPU: Intel GPU वाले Windows पर
ipex-llm इंस्टॉल करें
- Linux GPU: Intel GPU वाले Linux पर
ipex-llm इंस्टॉल करें
- Docker: Intel CPU और GPU पर
ipex-llm Docker का उपयोग करें
- अधिक जानकारी के लिए installation guide देखें
ipex-llm चलाना
- llama.cpp: Intel GPU पर
llama.cpp के लिए ipex-llm चलाएँ
- vLLM: Intel GPU और CPU पर
vLLM में ipex-llm चलाएँ
- FastChat: Intel GPU और CPU पर
FastChat serving में ipex-llm चलाएँ
- LangChain-Chatchat RAG:
LangChain-Chatchat में ipex-llm चलाएँ
- Text-Generation-WebUI:
oobabooga WebUI में ipex-llm चलाएँ
- Benchmarking: Intel CPU और GPU पर
ipex-llm की benchmarking चलाएँ
कोड उदाहरण
- low-bit inference
- INT4 inference: Intel GPU और CPU पर INT4 LLM inference
- FP8/FP4 inference: Intel GPU पर FP8 और FP4 LLM inference
- INT8 inference: Intel GPU और CPU पर INT8 LLM inference
- INT2 inference: Intel GPU पर INT2 LLM inference
- FP16/BF16 inference
- FP16 LLM inference: Intel GPU पर self-speculative decoding optimization के साथ उपलब्ध
- BF16 LLM inference: Intel CPU पर self-speculative decoding optimization के साथ उपलब्ध
- save और load
- low-bit model:
ipex-llm low-bit model को save और load करें
- GGUF: GGUF model को सीधे
ipex-llm में load करें
- AWQ: AWQ model को सीधे
ipex-llm में load करें
- GPTQ: GPTQ model को सीधे
ipex-llm में load करें
- fine-tuning
- Intel GPU पर LLM fine-tuning, जिसमें LoRA, QLoRA, DPO, QA-LoRA और ReLoRA शामिल हैं
- Intel CPU पर QLoRA fine-tuning
- community libraries के साथ integration
- HuggingFace transformers
- standard PyTorch models
- DeepSpeed-AutoTP
- HuggingFace PEFT
- HuggingFace TRL
- LangChain
- LlamaIndex
- AutoGen
- ModeScope
- tutorials
- अधिक जानकारी के लिए
ipex-llm documentation website देखें
validated models
ipex-llm में optimized/validated 50 से अधिक models में LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper आदि शामिल हैं, और नीचे उनकी सूची देखी जा सकती है.
GN⁺ की राय
IPEX-LLM Intel hardware पर बड़े language models को optimize करके चलाने के लिए एक शक्तिशाली tool है, जो AI research और development में बहुत मददगार हो सकता है.
- यह लाइब्रेरी कई models और integrations के साथ आती है, जिससे उपयोगकर्ता इसे आसानी से access और उपयोग कर सकते हैं.
- हालांकि, यह Intel hardware के लिए विशेष रूप से optimized है, इसलिए अन्य निर्माताओं के hardware पर सर्वोत्तम performance की गारंटी नहीं हो सकती.
- इस तकनीक को अपनाते समय hardware compatibility और performance tuning की पर्याप्त समझ आवश्यक है.
- यह बड़े language models की inference और fine-tuning को तेज़ी से आगे बढ़ाने में मदद करता है, जिससे समय और संसाधनों की बचत हो सकती है.
1 टिप्पणियां
Hacker News टिप्पणियाँ
GPU VRAM में बदलाव की उम्मीद
Intel के software support का सकारात्मक आकलन
Intel GPU के लिए सिफारिश का अनुरोध
performance benchmark में रुचि
cloud GPU उपयोग को आसान बनाने का सुझाव
cloud provider पर Intel GPU की अनुपस्थिति
product review की उम्मीद