बेसमेंट से AI – 192GB + 8x RTX 3090
(ahmadosman.com)- व्यक्तिगत LLM प्रयोगों का पैमाना बढ़ने पर, 8x RTX 3090 और कुल 192GB VRAM वाला एक समर्पित AI सर्वर घर पर खुद बनाया गया
- पहले का 48GB VRAM सेटअप प्रयोगों की गति के साथ चलने के लिए पर्याप्त नहीं रहा, इसलिए Meta के Llama-3.1 405B को चलाने को ध्यान में रखकर इसे मल्टी-GPU नोड तक बढ़ाया गया
- मुख्य कॉन्फ़िगरेशन में Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, 512GB DDR4-3200 RDIMM, 1600W के 3 power supply, और 4x NVLink से जुड़े 8 RTX 3090 शामिल हैं
- NVLink हर GPU जोड़ी के बीच 112GB/s ट्रांसफर रेट देता है, जबकि PCIe lane, riser, inference engine और fine-tuning जैसे bottleneck अगले लेखों के मुख्य विषय बने हुए हैं
- घर में बड़े LLM सर्वर बनाना संभव है, लेकिन असेंबली की कठिनाइयों और लागत से जुड़ी बड़ी गलतियाँ आसानी से हो सकती हैं, इसलिए hardware चयन और validation की प्रक्रिया सफलता तय करती है
बेसमेंट LLM सर्वर के लक्ष्य
- नवीनतम side project AI from The Basement एक समर्पित LLM सर्वर है, जिसमें 8x RTX 3090 ग्राफिक्स कार्ड और कुल 192GB VRAM है
- इसका एक लक्ष्य Meta का Llama-3.1 405B चलाना है
- पहले LLM प्रयोगों के लिए 48GB VRAM इस्तेमाल किया जाता था, लेकिन लगभग मार्च 2024 तक यह स्पष्ट हो गया कि इस क्षमता के साथ प्रयोगों की रफ्तार पकड़ना मुश्किल है
- hardware चयन के दौरान CPU और platform, memory speed, PCIe lanes की संख्या, 2^n GPU कॉन्फ़िगरेशन, tensor parallelism, और inference engine के चुनाव पर साथ में विचार किया गया
हार्डवेयर कॉन्फ़िगरेशन और निर्माण प्रक्रिया के मुद्दे
- अंतिम platform server-grade motherboard, EPYC CPU, high-capacity memory, कई power supply, और 8 GPU के संयोजन पर आधारित है
- Asrock Rack ROMED8-2T motherboard: 7x PCIe 4.0 x16 slots, 128 PCIe lanes
- AMD Epyc Milan 7713 CPU: 2.00GHz, boost 3.675GHz, 64 cores/128 threads
- 512GB DDR4-3200 3DS RDIMM memory
- 1600W के 3 power supply
- 8x RTX 3090 GPU और 4x NVLink
- NVLink हर GPU जोड़ी के बीच 112GB/s डेटा ट्रांसफर रेट देता है
- वास्तविक असेंबली के दौरान धातु फ्रेम में छेद बनाना, 30A 240V breaker जोड़ना, और CPU socket pin मुड़ने जैसी भौतिक समस्याएँ सामने आईं
- PCIe riser से जुड़ी समस्याओं और error-free PCIe कनेक्शन के लिए SAS Device Adapter, Redriver, और Retimer के महत्व पर भी चर्चा की गई है
- अगले लेख में NVLink speed, PCIe lane bandwidth, VRAM ट्रांसफर speed, और software स्तर पर P2P native PCIe bandwidth को Nvidia द्वारा ब्लॉक किए जाने के फैसले पर चर्चा जारी रहेगी
- TensorRT-LLM, vLLM, Aphrodite Engine जैसे tensor parallelism समर्थित inference engine के benchmark, साथ ही स्वयं का LLM training और fine-tuning भी अगले विषय हैं
- 2004 में 60GB HDD पाकर खुशी होने के अनुभव की तुलना में, 20 साल बाद एक ही मशीन के graphics card में उससे तीन गुना से अधिक क्षमता होना तकनीकी प्रगति का उदाहरण बताया गया है
- इस प्रोजेक्ट का उद्देश्य भविष्य में आने वाली शानदार चीज़ों के निर्माण में योगदान देना है, और लेखक मानता है कि एक दिन 192GB VRAM भी कम लगेगा
- Part II of this Blogpost Series अगला लेख है
1 टिप्पणियां
बस ईर्ष्या ही हो रही है..