$2000 के EPYC सर्वर पर DeepSeek R1 671b मॉडल को लोकल में चलाने का तरीका
(digitalspaceport.com)- AMD EPYC Rome सिस्टम पर आधारित Deepseek AI Rig शानदार performance देता है
- Q4 671b मॉडल पर 4.25 से 3.5 TPS दर्ज किया गया, यानी इसे केवल CPU के साथ भी पर्याप्त रूप से चलाया जा सकता है
- यह सिस्टम बड़े GPU VRAM के बिना भी काम कर सकता है, और तकनीकी चुनौतियों का आनंद लेने वालों के लिए यह एक मज़ेदार प्रोजेक्ट हो सकता है
- distilled version की performance कमज़ोर है, इसलिए "full model" इस्तेमाल करने की सिफारिश की जाती है
- यह 16K से बड़े context window को support करता है, जिससे बेहतर performance मिलती है
Local AI CPU Compute Hardware
- पहले के quad 3090 guide के अनुसार बनाया गया सिस्टम अब भी काफ़ी शक्तिशाली है। MZ32-AR0 motherboard 512GB से 1TB तक का system RAM कम लागत में कॉन्फ़िगर करने देता है। अभी 2400 DDR4 RAM इस्तेमाल हो रही है, लेकिन 3200 speed वाली DDR4 ECC RAM इस्तेमाल करने पर performance और बेहतर हो सकती है।
- घटक और लागत:
- रैक फ्रेम: $55
- MZ32-AR0 motherboard: $500
- 420mm liquid cooler Corsair h170i elite capellix xt: $170
- 64-core AMD EPYC 7702: $650
- 512GB 2400 ECC RAM: $400
- 1TB NVMe – Samsung 980 Pro: $75
- 850W PSU: $80
- कुल लागत: लगभग $2000
रैक असेंबली
- इसे पहले वाले guide की तरह ही assemble करें, लेकिन GPU और riser card को छोड़ दें
- अगर बाद में GPU जोड़ने की योजना है, तो शुरुआत से ही 1500W या 1600W PSU इस्तेमाल करना बेहतर है
- RAM stick का तापमान कम रखने के लिए 80mm fan 4 के साथ fan wall बनाने की सिफारिश की जाती है
motherboard upgrade के लिए नोट्स
- अगर AMD EPYC 7V13 CPU इस्तेमाल कर रहे हैं, तो MZ32-AR0 V3 version motherboard इस्तेमाल करना बेहतर है
- V1 version motherboard शायद Milan CPU को support न करे, इसलिए BIOS update के ज़रिए इसे V3 में upgrade करना होगा
लोकल AI self-hosted software setup
- Ubuntu 24.04 server version इंस्टॉल करने की सिफारिश की जाती है
- BMC settings के ज़रिए network IP को static IP पर सेट करें
- BIOS settings में ये बदलाव करें:
- NPS को 1 पर सेट करें
- CCD को Auto पर सेट करें
- SMT disable करें
- SVM disable करें
- IOMMU disable करें
- cTDP को 200 पर सेट करें
- deterministic control को manual पर सेट करें, और slider को performance पर रखें
- quick power policy को performance पर सेट करें
- BoostFMax को manual पर सेट करें, और value 3400 रखें
Ollama इंस्टॉलेशन
-
Ollama इंस्टॉल करने के लिए ये commands चलाएँ:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz sudo tar -C /usr -xzf ollama-linux-amd64.tgz sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama sudo usermod -a -G ollama $(whoami) -
environment variables सेट करें, और ollama.service फ़ाइल बनाकर इसे service के रूप में register करें
DeepSeek 671b मॉडल डाउनलोड
-
DeepSeek 671b मॉडल डाउनलोड करने के लिए यह command चलाएँ:
ollama pull deepseek-r1:671b -
यह मॉडल लगभग 400GB disk space लेता है, इसलिए पर्याप्त storage पहले से सुनिश्चित करें
OpenWEBUI इंस्टॉलेशन
- Docker का उपयोग करके OpenWEBUI इंस्टॉल करें
- Docker Compose के ज़रिए OpenWEBUI service को configure और run करें
OpenWEBUI और Ollama को जोड़ना
- OpenWEBUI settings में Ollama server जोड़ें और connection status जाँचें
- advanced parameters में GPU settings, Reasoning Effort, Context Length, num_thread आदि सेट करें
टेस्ट रन
- OpenWEBUI में नया chat शुरू करें, DeepSeek-r1:671b मॉडल चुनें, और टेस्ट conversation चलाएँ
इस guide का पालन करके, लगभग $2000 के बजट में DeepSeek R1 671b मॉडल को लोकल में चलाया जा सकता है
1 टिप्पणियां
Hacker News प्रतिक्रियाएँ
Q4 quantization के साथ 671B मॉडल को single-socket Epyc server पर चलाने की लागत $2K है, और इसमें 512GB RAM इस्तेमाल होती है। Q8 में dual-socket Epyc server पर 768GB RAM के साथ 6-8 TPS मिलते हैं और इसकी लागत $6K पड़ती है। RAM speed का TPS पर क्या असर पड़ता है, यह जानने की जिज्ञासा है.
ऑनलाइन R1 की कीमत $2/MTok है, जबकि यह मशीन 4 tok/s से ज़्यादा चला लेती है, इसलिए लागत लगभग $0.04 प्रति घंटा आती है। बिजली की लागत लगभग $0.20 प्रति घंटा आंकी गई है। privacy को छोड़ दें तो इसे बहुत अर्थपूर्ण नहीं मानता.
अभी AI की अजीब बात यह है कि सबसे अच्छे models चलाना चाहते हैं, लेकिन hardware बहुत महंगा है। 1990s में सस्ते hardware पर Linux चलाया जा सकता था। नए AI models को कहीं ज़्यादा RAM चाहिए। क्या पहले भी ऐसा दौर रहा है, यह जानने की उत्सुकता है। computer games इसका अच्छा उदाहरण हो सकते हैं.
छोटे models (33b-70b) से 5-10 tokens/sec पाना ज़्यादा दिलचस्प होगा। $3k के GPU या $2k की मशीन पर पैसा खर्च नहीं करना चाहता.
यह जानने की जिज्ञासा है कि क्या सिर्फ English और Spanish translation करने वाला छोटा model, या Unix utilities और bash समझने वाला model, उपयोगी हो सकता है। यह नहीं पता कि training सामग्री को सीमित करने से output quality या model size पर असर पड़ता है या नहीं.
EPYC 9274F और 384GB RAM के साथ एक workstation बनाया, लेकिन उम्मीद के मुताबिक performance नहीं मिली। कई benchmark tests किए, फिर भी Fujitsu benchmark के आधे नतीजे भी नहीं मिले.
हैरानी है कि $3000 NVIDIA Digits का ज़िक्र ज़्यादा नहीं होता। पहले AI को लेकर संदेह था, लेकिन अब DeepSeek को local में चलाने की योजना है.
हैरानी होती है कि $2K में यह खरीदा जा सकता है। low-power desktop बनाने के बारे में सुझाव ढूँढ रहा है.
एक YouTuber के तौर पर power और RAM speed के आँकड़े साझा किए गए: idle power 60w, load power 260w, और RAM speed 2400 है.
r6a.16xlarge पर model चलाया, लेकिन पहले prompt के बाद model load होने में बहुत समय लगा। 512GB RAM के साथ 4k से बड़ा context size इस्तेमाल नहीं कर सका। model settings की पूरी जानकारी नहीं है, इसलिए हो सकता है कुछ छूट गया हो.