1 पॉइंट द्वारा GN⁺ 2024-04-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

💫 IPEX-LLM

  • IPEX-LLM Intel CPU और GPU पर बहुत कम latency के साथ LLM चलाने के लिए एक PyTorch लाइब्रेरी है.
  • यह Intel PyTorch extension (IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ आदि के उत्कृष्ट कार्यों के ऊपर निर्मित है.
  • यह llama.cpp, Text-Generation-WebUI, HuggingFace transformers आदि के साथ seamless integration प्रदान करता है.
  • ipex-llm में 50 से अधिक models optimized/validated हैं, और उनकी पूरी सूची यहाँ देखी जा सकती है.

नवीनतम अपडेट 🔥

  • bigdl-llm का नाम बदलकर ipex-llm कर दिया गया है, और मूल BigDL प्रोजेक्ट यहाँ पाया जा सकता है.
  • ipex-llm अब ModelScope(魔搭) से सीधे models load कर सकता है.
  • ipex-llm ने INT2 support जोड़ा है, जिससे Intel GPU पर बड़े LLMs (जैसे Mixtral-8x7B) को 16GB VRAM में चलाना संभव होता है.
  • अब उपयोगकर्ता Text-Generation-WebUI GUI के जरिए ipex-llm का उपयोग कर सकते हैं.
  • ipex-llm अब Self-Speculative Decoding को support करता है, जो Intel GPU और CPU पर FP16 और BF16 inference latency को क्रमशः लगभग 30% तेज करता है.
  • ipex-llm अब Intel GPU पर LLM fine-tuning की एक व्यापक सूची को support करता है.

ipex-llm डेमो

  • नीचे 12वीं पीढ़ी के Intel Core CPU और Intel Arc GPU पर chatglm2-6b और llama-2-13b-chat models का optimized performance देखा जा सकता है.

ipex-llm क्विक स्टार्ट

ipex-llm इंस्टॉल करना

  • Windows GPU: Intel GPU वाले Windows पर ipex-llm इंस्टॉल करें
  • Linux GPU: Intel GPU वाले Linux पर ipex-llm इंस्टॉल करें
  • Docker: Intel CPU और GPU पर ipex-llm Docker का उपयोग करें
  • अधिक जानकारी के लिए installation guide देखें

ipex-llm चलाना

  • llama.cpp: Intel GPU पर llama.cpp के लिए ipex-llm चलाएँ
  • vLLM: Intel GPU और CPU पर vLLM में ipex-llm चलाएँ
  • FastChat: Intel GPU और CPU पर FastChat serving में ipex-llm चलाएँ
  • LangChain-Chatchat RAG: LangChain-Chatchat में ipex-llm चलाएँ
  • Text-Generation-WebUI: oobabooga WebUI में ipex-llm चलाएँ
  • Benchmarking: Intel CPU और GPU पर ipex-llm की benchmarking चलाएँ

कोड उदाहरण

  • low-bit inference
    • INT4 inference: Intel GPU और CPU पर INT4 LLM inference
    • FP8/FP4 inference: Intel GPU पर FP8 और FP4 LLM inference
    • INT8 inference: Intel GPU और CPU पर INT8 LLM inference
    • INT2 inference: Intel GPU पर INT2 LLM inference
  • FP16/BF16 inference
    • FP16 LLM inference: Intel GPU पर self-speculative decoding optimization के साथ उपलब्ध
    • BF16 LLM inference: Intel CPU पर self-speculative decoding optimization के साथ उपलब्ध
  • save और load
    • low-bit model: ipex-llm low-bit model को save और load करें
    • GGUF: GGUF model को सीधे ipex-llm में load करें
    • AWQ: AWQ model को सीधे ipex-llm में load करें
    • GPTQ: GPTQ model को सीधे ipex-llm में load करें
  • fine-tuning
    • Intel GPU पर LLM fine-tuning, जिसमें LoRA, QLoRA, DPO, QA-LoRA और ReLoRA शामिल हैं
    • Intel CPU पर QLoRA fine-tuning
  • community libraries के साथ integration
    • HuggingFace transformers
    • standard PyTorch models
    • DeepSpeed-AutoTP
    • HuggingFace PEFT
    • HuggingFace TRL
    • LangChain
    • LlamaIndex
    • AutoGen
    • ModeScope
  • tutorials
    • अधिक जानकारी के लिए ipex-llm documentation website देखें

validated models

  • ipex-llm में optimized/validated 50 से अधिक models में LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper आदि शामिल हैं, और नीचे उनकी सूची देखी जा सकती है.

GN⁺ की राय

  • IPEX-LLM Intel hardware पर बड़े language models को optimize करके चलाने के लिए एक शक्तिशाली tool है, जो AI research और development में बहुत मददगार हो सकता है.
  • यह लाइब्रेरी कई models और integrations के साथ आती है, जिससे उपयोगकर्ता इसे आसानी से access और उपयोग कर सकते हैं.
  • हालांकि, यह Intel hardware के लिए विशेष रूप से optimized है, इसलिए अन्य निर्माताओं के hardware पर सर्वोत्तम performance की गारंटी नहीं हो सकती.
  • इस तकनीक को अपनाते समय hardware compatibility और performance tuning की पर्याप्त समझ आवश्यक है.
  • यह बड़े language models की inference और fine-tuning को तेज़ी से आगे बढ़ाने में मदद करता है, जिससे समय और संसाधनों की बचत हो सकती है.

1 टिप्पणियां

 
GN⁺ 2024-04-05
Hacker News टिप्पणियाँ
  • GPU VRAM में बदलाव की उम्मीद

    एक कंपनी के पास "4-core हमेशा के लिए" से आगे बढ़कर अपने अगले consumer GPU रिलीज़ के साथ AMD और Nvidia की लंबे समय से चली आ रही "8-16GB VRAM हमेशा के लिए" सीमा को तोड़ने का मौका है। उचित कीमत पर 32-48GB VRAM देना काफ़ी प्रतीकात्मक होगा.

  • Intel के software support का सकारात्मक आकलन

    Intel software support के मामले में सही दिशा में बढ़ रहा है। benchmark data देखना अच्छा होगा, और दिए गए उदाहरण में speed काफ़ी अच्छी लगती है.

  • Intel GPU के लिए सिफारिश का अनुरोध

    ज़्यादा vRAM वाले Intel GPU के लिए सिफारिश चाहिए। पूछा गया है कि क्या इससे compatible कोई product उपलब्ध है.

  • performance benchmark में रुचि

    'llamafile' या दूसरे benchmark के साथ performance comparison में रुचि है। उस benchmark का लिंक भी दिया गया है.

  • cloud GPU उपयोग को आसान बनाने का सुझाव

    अच्छा होगा अगर कोई script दी जाए जिससे cloud provider पर compatible GPU के साथ example चलाया जा सके। पूछा गया है कि क्या इसमें रुचि है, और खुद setup करने पर विचार किया जा रहा है.

  • cloud provider पर Intel GPU की अनुपस्थिति

    बड़े cloud provider Intel GPU उपलब्ध नहीं कराते.

  • product review की उम्मीद

    review का इंतज़ार है, और आने वाले products के मूल्यांकन में रुचि है.