Intel CPU और GPU पर LLM चलाने के लिए PyTorch लाइब्रेरी

(github.com/intel-analytics)

1 पॉइंट द्वारा GN⁺ 2024-04-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

IPEX-LLM Intel GPU, NPU और CPU पर LLM को accelerate करने वाली PyTorch के लिए एक लाइब्रेरी है, लेकिन मौजूदा प्रोजेक्ट archived है और Intel की ओर से development/support की कोई गारंटी नहीं है
सपोर्ट का दायरा local PC के iGPU, Arc/Flex/Max जैसे discrete GPU, Intel Core Ultra NPU और CPU तक है, और यह llama.cpp, Ollama, vLLM, HuggingFace transformers, LangChain, LlamaIndex आदि के साथ integrate होता है
70 से अधिक models ipex-llm में optimized या verified हैं, जिनमें Llama, Phi, Mistral, Mixtral, DeepSeek, Qwen, ChatGLM, MiniCPM, Qwen-VL, MiniCPM-V आदि शामिल हैं
ताज़ा updates में DeepSeek V3/R1 671B, Qwen3MoE 235B को 1–2 Intel Arc GPU पर FlashMoE के साथ चलाने की जानकारी, और ipex-llm 2.2.0, PyTorch 2.6 GPU support, Ollama/llama.cpp Portable Zip support शामिल हैं
README में ज्ञात security issues होने की बात साफ़ लिखी है, और Intel maintenance, bug fixes, नई releases या updates की गारंटी नहीं देता तथा अब patches भी स्वीकार नहीं करता

प्रोजेक्ट की स्थिति और मूल उद्देश्य

IPEX-LLM Intel hardware पर LLM को accelerate करने के लिए एक LLM acceleration library है
Target hardware Intel GPU, NPU और CPU हैं
- GPU के उदाहरणों में local PC का iGPU, और Arc, Flex, Max जैसे discrete GPU शामिल हैं
- NPU Intel Core Ultra series को target करता है
प्रोजेक्ट के शीर्ष पर archived status साफ़ लिखा है
- Intel development या support उपलब्ध कराने या उसकी गारंटी देने वाला नहीं है
- maintenance, bug fixes, नई releases और updates की गारंटी नहीं है
- Intel अब इस project के लिए patches स्वीकार नहीं करता
- ज्ञात security issues मौजूद हैं

जिन ecosystem के साथ integration है

ipex-llm कई LLM execution, serving और development tools के साथ integrate होता है
- llama.cpp
- Ollama
- vLLM
- HuggingFace transformers
- LangChain
- LlamaIndex
- Text-Generation-WebUI
- DeepSpeed-AutoTP
- FastChat
- Axolotl
- HuggingFace PEFT
- HuggingFace TRL
- AutoGen
- ModelScope
Quick start docs में Ollama, llama.cpp, Arc B580, NPU, PyTorch/HuggingFace, vLLM, FastChat, multiple Intel GPU serving, Text-Generation-WebUI, Axolotl और benchmarking शामिल हैं
Docker guide में C++ GPU inference, Python GPU inference, vLLM GPU/CPU, FastChat GPU और VSCode GPU development environment शामिल हैं

Models और optimization का दायरा

README बताता है कि 70 से अधिक models ipex-llm में optimized या verified हैं
उदाहरण model families इस प्रकार हैं
- LLaMA/LLaMA2/LLaMA 3 series
- Mistral, Mixtral, Gemma
- LLaVA, Whisper
- ChatGLM2/ChatGLM3
- Baichuan/Baichuan2
- Qwen/Qwen-1.5/Qwen2 series
- InternLM
- DeepSeek, MiniCPM, Qwen-VL, MiniCPM-V आदि
Supported precision और quantization मुख्य रूप से low-bit inference पर केंद्रित हैं
- FP8, FP6, FP4, INT4
- INT8
- INT2 llama.cpp IQ2 mechanism पर आधारित रूप में दिया गया है
save/load examples में INT4, FP4, FP6, INT8, FP8, FP16 जैसे low-bit models और GGUF, AWQ, GPTQ models load करना शामिल है

Demo और performance/accuracy data

Demo local LLM को Intel Core Ultra iGPU, Intel Core Ultra NPU, single Arc GPU और multiple Arc GPU पर चलाने के उदाहरण देते हैं
- Intel Core Ultra iGPU: Ollama से Mistral-7B Q4_K चलाना
- Intel Core Ultra NPU: HuggingFace से Llama3.2-3B SYM_INT4 चलाना
- 2 Intel Arc dGPU: llama.cpp से DeepSeek-R1-Distill-Qwen-32B Q4_K चलाना
- Intel Xeon + Arc dGPU: FlashMoE से Qwen3MoE-235B Q4_K चलाना
Performance section Intel Core Ultra और Intel Arc GPU पर token generation speed data देता है
Benchmarking guide के जरिए ipex-llm performance benchmark खुद चला सकते हैं
Model accuracy section Wikitext dataset पर मापे गए Perplexity results देता है
- तुलना की precision: sym_int4, q4_k, fp6, fp8_e5m2, fp8_e4m3, fp16
- Target models में Llama-2-7B-chat-hf, Mistral-7B-Instruct-v0.2, Baichuan2-7B-chat, Qwen1.5-7B-chat, Llama-3.1-8B-Instruct, gemma-2-9b-it आदि शामिल हैं
Performance उपयोग के तरीके, configuration और अन्य factors के अनुसार बदलती है, और ipex-llm non-Intel products पर उसी स्तर तक optimized नहीं हो सकता

Development और usage examples

Code examples low-bit inference, FP16/BF16 inference, distributed inference, save/load, fine-tuning और community library integration में बांटे गए हैं
Fine-tuning में Intel GPU पर LoRA, QLoRA, DPO, QA-LoRA, ReLoRA शामिल हैं
Intel CPU पर भी QLoRA fine-tuning example दिया गया है
Application guide GraphRAG, RAGFlow, LangChain-Chatchat, Continue, Open WebUI, PrivateGPT, Dify में ipex-llm इस्तेमाल करने का flow कवर करती है
API docs HuggingFace Transformers style Auto Classes API और arbitrary PyTorch model optimization API देते हैं

1 टिप्पणियां

GN⁺ 2024-04-05

Hacker News टिप्पणियाँ

जिस कंपनी ने लंबे समय तक 4-core पर अड़ी रही, उसके पास अपने अगले consumer GPU में पिछले 10 सालों से AMD और Nvidia द्वारा लगभग थोपे गए 8~16GB VRAM लॉक-इन को तोड़कर वापसी करने का मौका है
अगर reasonable कीमत पर 32~48GB आ जाए, तो यह काफी poetic scene होगा, और Intel software support के मामले में भी सही दिशा में बढ़ती दिख रही है
- Intel AI क्षेत्र में Nvidia को catch up कर रही है, लेकिन इसकी सबसे बड़ी वजह product competitiveness की कमी है
  अक्टूबर 2022 में लॉन्च हुआ Intel Arc A770 16GB करीब 300 डॉलर का है, जबकि Nvidia 4060 Ti 16GB करीब 500 डॉलर का है, लेकिन वास्तविक AI workloads में 4060 Ti लगभग दोगुनी तेज है: https://cdn.mos.cms.futurecdn.net/FtXkrY6AD8YypMiHrZuy4K-120...
  समस्या इसलिए और बड़ी हो जाती है क्योंकि theory में Arc A770 ज्यादा तेज है। TFLOPS के हिसाब से इसका performance Nvidia 4060 से दोगुने से भी ज्यादा है: https://cdn.mos.cms.futurecdn.net/Q7WgNxqfgyjCJ5kk8apUQE-120...
  लेकिन AI से जुड़ा पूरा ecosystem Nvidia के CUDA पर चलने के लिए develop और optimize किया गया है, इसलिए actual performance कम निकलती है
  आखिरकार यह brand awareness और ecosystem की समस्या है। अगर Intel 32GB या 64GB VRAM वाला workstation GPU किसी absurdly महंगे enterprise monster की तरह नहीं, बल्कि developers द्वारा खरीदे जा सकने वाले रूप में निकाले, तो वह जबरदस्त बिकेगा
  उसे सबसे तेज card होने की जरूरत भी नहीं है। बस competitors से ज्यादा VRAM देनी है। आज training या video generation में GPU speed से ज्यादा VRAM की कमी बड़ा bottleneck है, और समझ नहीं आता कि Intel इसे क्यों नहीं देख पा रही
- 24GB से ज्यादा VRAM GDDR7 आने तक सस्ती होना मुश्किल लगता है, और GDDR7 भी शायद इसे करीब 36GB तक ही धकेल पाएगा
  अधिक advanced stacked GDDR6 series काफी महंगी होने की संभावना है, और signal integrity issues की वजह से dies को बस और जोड़ देना भी संभव नहीं
- जो चीज हमें obvious लगती है, product manager को वह industry standard दिखती है
  सोचिए कि आखिरी बार कब किसी industry player ने existing order को हिलाया था; Intel भी इतनी ज्यादा बदली हुई कंपनी नहीं है
- मैं इस बात से सहमत हूं कि reasonable कीमत पर 32~48GB आना शानदार होगा
  सुना है कि कुछ Asrock motherboard BIOS में Ryzen5 पर VRAM को 64GB तक set किया जा सकता है, और मैं अभी कई AMD hardware पर इसे investigate कर रहा हूं
- अगर AMD high-quality drivers बनाए, तो मैं पैसे देकर भी वह तमाशा देखना चाहूंगा :-)
benchmark data को लेकर उत्सुकता है
example में दिखी speed काफी अच्छी लग रही थी
क्या इसे इस्तेमाल करने के लिए ज्यादा VRAM वाले Intel GPU की कोई recommendation है?
- datacenter product Max GPU(Ponte Vecchio) है, जिसमें 128GB HBM2e memory, 408MB L2 cache, और 64MB L1 cache मिलता है
  Gaudi के numbers भी similar हैं, लेकिन marketing material के हिसाब से उसमें AI workloads के लिए specialized cores हैं
  यह Dell और Supermicro के ready-made systems में मिल सकता है: https://www.supermicro.com/en/accelerators/intel
  और पढ़ें: https://www.servethehome.com/intel-shows-gpu-max-1550-perfor...
- consumer side पर Intel Arc A770 16GB VRAM है
  उससे ऊपर जाने पर enterprise lineup शुरू हो जाती है
क्या llamafile या किसी और चीज से तुलना करने वाले performance benchmarks हैं?
[0] - https://github.com/mozilla-Ocho/llamafile
- llama.cpp में पहले से Intel GPU इस्तेमाल किए जा सकते हैं, और ARC व integrated GPU दोनों कई backends support करते हैं
  supported backends SYCL, Vulkan, OpenCL हैं
  मेरे पास hardware नहीं है, लेकिन Intel datacenter side पर इसे push कर रही है, इसलिए ARC पर SYCL ज्यादा तेज हो सकता है
  [1]: https://www.intel.com/content/www/us/en/developer/articles/t...
अच्छा होगा अगर examples चलाने के लिए cloud GPU script भी साथ हो
compatible GPU का अंदाजा लगाने के बजाय cloud provider पर सीधे run करा देने वाला तरीका useful होगा, और मैं खुद इसे बनाने पर विचार कर रहा हूं
major cloud providers में से कोई भी Intel GPU offer नहीं करता
- Intel GPU ने Southeast Asia market में काफी penetration हासिल किया है, और Intel भी जल्द नई generation लाने वाली है
  ऊपर से Nvidia के GRID license के उलट, यह extra license cost के बिना GPU virtualization allow करता है, ताकि hosting providers cards को split करके offer कर सकें
  लगता है कि आगे Intel-based offerings काफी बढ़ेंगी
- cloud तो नहीं, लेकिन consumer use के लिए यह काफी अच्छा प्रस्ताव है
  यह 16GB memory और 4060 Ti के आसपास performance कीमत के करीब 65% पर देता है
- फिर भी Intel CPU offer करने वाली जगहें बहुत हैं

Intel CPU और GPU पर LLM चलाने के लिए PyTorch लाइब्रेरी

प्रोजेक्ट की स्थिति और मूल उद्देश्य

जिन ecosystem के साथ integration है

Models और optimization का दायरा

ताज़ा updates में highlight की गई capabilities

Demo और performance/accuracy data

Development और usage examples

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ