- 8 RTX 3090 ग्राफिक्स कार्ड पर चलने वाला एक समर्पित LLM सर्वर। कुल 192GB VRAM
- Meta के Llama-3.1 405B को चलाने को ध्यान में रखकर बनाया गया
पृष्ठभूमि कहानी
- मार्च में 48GB VRAM के साथ LLM प्रयोग चलाने में कठिनाई हुई
- लगा कि अधिक VRAM की ज़रूरत है, इसलिए नया सिस्टम बनाने का निर्णय लिया
- CPU/प्लेटफ़ॉर्म चयन, मेमोरी स्पीड का महत्व, PCIe lanes की आवश्यकता जैसी कई बातें सामने आईं
- कई घंटों की रिसर्च के बाद निम्न प्लेटफ़ॉर्म चुना गया
- Asrock Rack ROMED8-2T मदरबोर्ड (7x PCIe 4.0x16 स्लॉट, 128 PCIe lanes)
- AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHz boost, 64 cores/128 threads)
- 512GB DDR4-3200 3DS RDIMM मेमोरी
- 1600-वॉट की 3 power supplies
- 8x RTX 3090 GPU (4x NVLink, प्रत्येक जोड़ी पर 112GB/s data transfer speed)
ब्लॉग सीरीज़ की झलक
- इस सिस्टम को assemble करते समय आई चुनौतियाँ
- मेटल फ़्रेम में छेद ड्रिल करना और 30-amp 240-volt breaker जोड़ना
- CPU socket pins मोड़ देना (इसे घर पर न आज़माएँ)
- PCIe risers की समस्याएँ और SAS device adapters, redrivers, retimers का महत्व
- NVLink speed, PCIe lane bandwidth, VRAM transfer speed, और software स्तर पर Nvidia द्वारा P2P native PCIe bandwidth को block करना
- TensorRT-LLM, vLLM, Aphrodite Engine जैसे inference engines का benchmarking
- अपने LLM का training और fine-tuning
निष्कर्ष
- तकनीक की प्रगति को देखकर 2004 में 60GB HDD मिलने वाली उत्सुकता याद आती है
- 20 साल बाद शायद हम उस समय को याद करें जब 192GB VRAM हमें बहुत अधिक लगता था
- इस प्रोजेक्ट के ज़रिए भविष्य की शानदार तकनीक बनाने में योगदान देना चाहता हूँ
GN⁺ का सार
- यह लेख AI मॉडलों के लिए एक high-performance सर्वर बनाने की प्रक्रिया पर है
- इसमें बताया गया है कि नवीनतम GPU और high-performance CPU का उपयोग करके LLM सर्वर कैसे बनाया जाए
- यह तकनीकी प्रगति की रफ़्तार और भविष्य को लेकर उत्साह व्यक्त करता है
- समान प्रकार की परियोजनाओं में Nvidia के DGX सिस्टम या Google के TPU शामिल हैं
2 टिप्पणियां
बस ईर्ष्या ही हो रही है..
Hacker News राय
पहली टिप्पणी: व्यक्तिगत डेटा की सुरक्षा के लिए अपना खुद का सर्वर बनाया। हाल के दिनों में प्लेटफ़ॉर्म के आउटपुट की गुणवत्ता में गिरावट के कारण, इस सेटअप पर पैसा खर्च करने का अफसोस नहीं है
दूसरी टिप्पणी: शायद हम उस समय को याद करेंगे जब 192GB VRAM बहुत ज़्यादा लगता था
तीसरी टिप्पणी: 8 GPU का इस्तेमाल करके 4K मॉनिटर को borderless mini pixel wall में बदलने वाला प्रोजेक्ट
चौथी टिप्पणी: यह जानने की जिज्ञासा है कि NVLink कितनी मदद करता है
पाँचवीं टिप्पणी: बहुत बढ़िया है, लेकिन अगर इसे 24/7 उत्पादक रूप से इस्तेमाल न किया जाए तो लागत महँगी है
छठी टिप्पणी: Tinybox के साथ लागत की तुलना जानना चाहते हैं
सातवीं टिप्पणी: बेसमेंट में इसी तरह का सेटअप है
आठवीं टिप्पणी: यह जानने की जिज्ञासा है कि motherboard में 7 PCIe slots होने पर 8 GPU कैसे जोड़े जाते हैं
नौवीं टिप्पणी: अगर 7 PCIe 4.0 x16 slots हैं, तो 8वाँ कार्ड कैसे जोड़ा जाता है, यह जानना चाहते हैं
दसवीं टिप्पणी: इस सीरीज़ को पढ़ने का इंतज़ार है