1/2 Arc A770 Xeon पर DeepSeek-R1-671B-Q4_K_M चलाना
(github.com/intel)- नवीनतम llama.cpp Portable Zip का उपयोग करके Xeon पर 1 या 2 Arc A770 के साथ DeepSeek-R1-671B-Q4_K_M चलाया जा सकता है
- यह गाइड Intel GPU पर
ipex-llmका उपयोग करके llama.cpp को सीधे चलाने का तरीका समझाती है
समर्थित वातावरण
- Intel Core Ultra प्रोसेसर
- Intel Core 11वीं से 14वीं पीढ़ी के प्रोसेसर
- Intel Arc A-Series GPU
- Intel Arc B-Series GPU
विषय सूची
- Windows त्वरित शुरुआत
- पूर्व तैयारी
- चरण 1: डाउनलोड और अनज़िप
- चरण 2: रनटाइम कॉन्फ़िगरेशन
- चरण 3: GGUF मॉडल चलाना
- Linux त्वरित शुरुआत
- पूर्व तैयारी
- चरण 1: डाउनलोड और एक्सट्रैक्ट
- चरण 2: रनटाइम कॉन्फ़िगरेशन
- चरण 3: GGUF मॉडल चलाना
- (नई सुविधा) FlashMoE का उपयोग करके DeepSeek V3/R1 671B चलाना
- टिप्स और समस्या निवारण
- त्रुटि: अलग sycl डिवाइस पाया गया
- मल्टी-GPU उपयोग
- परफ़ॉर्मेंस वातावरण
- अधिक विवरण
Windows त्वरित शुरुआत
पूर्व तैयारी
- GPU ड्राइवर संस्करण जाँचें और आवश्यकता होने पर अपडेट करें
- Intel Core Ultra प्रोसेसर या Intel Arc B-Series GPU के लिए नवीनतम ड्राइवर की सिफारिश की जाती है
- अन्य Intel iGPU/dGPU के लिए ड्राइवर संस्करण 32.0.101.6078 की सिफारिश की जाती है
चरण 1: डाउनलोड और अनज़िप
- Windows उपयोगकर्ता IPEX-LLM llama.cpp portable zip डाउनलोड करें और उसे किसी फ़ोल्डर में अनज़िप करें
चरण 2: रनटाइम कॉन्फ़िगरेशन
- "Command Prompt" खोलें और
cd /d PATH\TO\EXTRACTED\FOLDERकमांड से फ़ोल्डर में जाएँ - GPU acceleration का उपयोग करने के लिए कुछ environment variables आवश्यक या अनुशंसित हैं
set SYCL_CACHE_PERSISTENT=1सेट करें
- मल्टी-GPU उपयोगकर्ता किसी विशेष GPU को चुनने का तरीका टिप्स में देखें
चरण 3: GGUF मॉडल चलाना
- community GGUF मॉडल को लोकल डायरेक्टरी में डाउनलोड या कॉपी करें
- मॉडल पथ सेट करने के बाद
llama-cli.exeकमांड से चलाएँ
Linux त्वरित शुरुआत
पूर्व तैयारी
- GPU ड्राइवर संस्करण जाँचें और आवश्यकता होने पर अपडेट करें
- Intel client GPU driver installation guide के अनुसार ड्राइवर इंस्टॉल करने की सिफारिश की जाती है
चरण 1: डाउनलोड और एक्सट्रैक्ट
- Linux उपयोगकर्ता IPEX-LLM llama.cpp portable tgz डाउनलोड करें और उसे किसी फ़ोल्डर में एक्सट्रैक्ट करें
चरण 2: रनटाइम कॉन्फ़िगरेशन
- "Terminal" खोलें और
cd /PATH/TO/EXTRACTED/FOLDERकमांड से फ़ोल्डर में जाएँ - GPU acceleration का उपयोग करने के लिए कुछ environment variables आवश्यक या अनुशंसित हैं
export SYCL_CACHE_PERSISTENT=1सेट करें
- मल्टी-GPU उपयोगकर्ता किसी विशेष GPU को चुनने का तरीका टिप्स में देखें
चरण 3: GGUF मॉडल चलाना
- community GGUF मॉडल को लोकल डायरेक्टरी में डाउनलोड या कॉपी करें
- मॉडल पथ सेट करने के बाद
./llama-cliकमांड से चलाएँ
DeepSeek V3/R1 के लिए FlashMoE
- FlashMoE, llama.cpp आधारित command-line tool है, जो MoE मॉडलों के लिए optimized है
- Linux प्लेटफ़ॉर्म पर उपलब्ध है
- परीक्षण किए गए MoE GGUF मॉडल: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K आदि
टिप्स और समस्या निवारण
त्रुटि: अलग sycl डिवाइस पाया गया
- यदि अलग-अलग sycl डिवाइस पाए जाते हैं, तो परफ़ॉर्मेंस सबसे धीमे डिवाइस के अनुसार सीमित हो जाती है
SYCL_DEVICE_CHECK=0सेट करके इस जाँच को निष्क्रिय किया जा सकता है और सभी डिवाइस उपयोग किए जा सकते हैं
मल्टी-GPU उपयोग
- यदि कई Intel GPU हैं, तो डिफ़ॉल्ट रूप से यह सभी GPU पर चलता है
- किसी विशेष GPU का उपयोग करने के लिए
ONEAPI_DEVICE_SELECTORenvironment variable सेट करें
परफ़ॉर्मेंस वातावरण
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTSसेट करके परफ़ॉर्मेंस बेहतर की जा सकती है- यह मोड परफ़ॉर्मेंस बढ़ाता है, लेकिन exceptions हो सकते हैं
यह गाइड Intel GPU पर llama.cpp को कुशलतापूर्वक चलाने के तरीके देती है और इसमें विभिन्न सेटिंग्स तथा optimization तरीक़े शामिल हैं।
अभी कोई टिप्पणी नहीं है.