3 पॉइंट द्वारा GN⁺ 2024-09-09 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • 8 RTX 3090 ग्राफिक्स कार्ड पर चलने वाला एक समर्पित LLM सर्वर। कुल 192GB VRAM
  • Meta के Llama-3.1 405B को चलाने को ध्यान में रखकर बनाया गया

पृष्ठभूमि कहानी

  • मार्च में 48GB VRAM के साथ LLM प्रयोग चलाने में कठिनाई हुई
  • लगा कि अधिक VRAM की ज़रूरत है, इसलिए नया सिस्टम बनाने का निर्णय लिया
  • CPU/प्लेटफ़ॉर्म चयन, मेमोरी स्पीड का महत्व, PCIe lanes की आवश्यकता जैसी कई बातें सामने आईं
  • कई घंटों की रिसर्च के बाद निम्न प्लेटफ़ॉर्म चुना गया
    • Asrock Rack ROMED8-2T मदरबोर्ड (7x PCIe 4.0x16 स्लॉट, 128 PCIe lanes)
    • AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHz boost, 64 cores/128 threads)
    • 512GB DDR4-3200 3DS RDIMM मेमोरी
    • 1600-वॉट की 3 power supplies
    • 8x RTX 3090 GPU (4x NVLink, प्रत्येक जोड़ी पर 112GB/s data transfer speed)

ब्लॉग सीरीज़ की झलक

  • इस सिस्टम को assemble करते समय आई चुनौतियाँ
    • मेटल फ़्रेम में छेद ड्रिल करना और 30-amp 240-volt breaker जोड़ना
    • CPU socket pins मोड़ देना (इसे घर पर न आज़माएँ)
  • PCIe risers की समस्याएँ और SAS device adapters, redrivers, retimers का महत्व
  • NVLink speed, PCIe lane bandwidth, VRAM transfer speed, और software स्तर पर Nvidia द्वारा P2P native PCIe bandwidth को block करना
  • TensorRT-LLM, vLLM, Aphrodite Engine जैसे inference engines का benchmarking
  • अपने LLM का training और fine-tuning

निष्कर्ष

  • तकनीक की प्रगति को देखकर 2004 में 60GB HDD मिलने वाली उत्सुकता याद आती है
  • 20 साल बाद शायद हम उस समय को याद करें जब 192GB VRAM हमें बहुत अधिक लगता था
  • इस प्रोजेक्ट के ज़रिए भविष्य की शानदार तकनीक बनाने में योगदान देना चाहता हूँ

GN⁺ का सार

  • यह लेख AI मॉडलों के लिए एक high-performance सर्वर बनाने की प्रक्रिया पर है
  • इसमें बताया गया है कि नवीनतम GPU और high-performance CPU का उपयोग करके LLM सर्वर कैसे बनाया जाए
  • यह तकनीकी प्रगति की रफ़्तार और भविष्य को लेकर उत्साह व्यक्त करता है
  • समान प्रकार की परियोजनाओं में Nvidia के DGX सिस्टम या Google के TPU शामिल हैं

2 टिप्पणियां

 
brainer 2024-09-09

बस ईर्ष्या ही हो रही है..

 
GN⁺ 2024-09-09
Hacker News राय
  • पहली टिप्पणी: व्यक्तिगत डेटा की सुरक्षा के लिए अपना खुद का सर्वर बनाया। हाल के दिनों में प्लेटफ़ॉर्म के आउटपुट की गुणवत्ता में गिरावट के कारण, इस सेटअप पर पैसा खर्च करने का अफसोस नहीं है

    • tensor parallelism और batch inference का उपयोग करके शानदार काम कर रहे हैं
    • व्यक्तिगत डेटा का उपयोग करके मॉडल को fine-tune करते हैं और synthetic data बनाते हैं
    • अभी एक training project के रूप में मॉडल को शुरू से बना रहे हैं, और समस्याएँ सुलझाने के बाद ट्यूटोरियल लिखने की योजना है
    • ब्लॉग शुरू किया है और सीखने व खोजों पर पोस्टों की एक श्रृंखला की योजना है
    • अगर कोई ऐसा विषय या आइडिया है जिस पर प्रयोग करना चाहते हों, तो उसे साझा करने के लिए तैयार हैं
  • दूसरी टिप्पणी: शायद हम उस समय को याद करेंगे जब 192GB VRAM बहुत ज़्यादा लगता था

    • NAS के लिए बड़ी HDD खरीदना मुश्किल हो गया है, और कीमतें काफ़ी बढ़ गई हैं
    • AI में भी ऐसा ही होने की उम्मीद है
    • बड़े cloud प्रदाताओं की सस्ते घरेलू हार्डवेयर में रुचि नहीं है, और वे cloud services के ज़रिए डेटा माइन करना चाहते हैं
  • तीसरी टिप्पणी: 8 GPU का इस्तेमाल करके 4K मॉनिटर को borderless mini pixel wall में बदलने वाला प्रोजेक्ट

    • यह local video compositing और AI-generated backgrounds के लिए एक प्रोजेक्ट है
    • "The Mandalorian" का उदाहरण देते हुए, real-time photoreal backgrounds प्रदान करता है
  • चौथी टिप्पणी: यह जानने की जिज्ञासा है कि NVLink कितनी मदद करता है

    • 2 3090 rigs बनाए हैं, और जानना चाहते हैं कि क्या EPYC के साथ और ज़्यादा कार्ड इस्तेमाल किए जा सकते हैं
    • कुल लागत लगभग $3500 है, और अनुमान है कि यह सेटअप $12-15k के करीब होगा
  • पाँचवीं टिप्पणी: बहुत बढ़िया है, लेकिन अगर इसे 24/7 उत्पादक रूप से इस्तेमाल न किया जाए तो लागत महँगी है

  • छठी टिप्पणी: Tinybox के साथ लागत की तुलना जानना चाहते हैं

    • 6 4090 के साथ $25k, और 6 7900XTX के साथ $15k
    • इसमें power supply, CPU, storage, cooling, assembly, shipping आदि सहित पूरा पैकेज शामिल है
  • सातवीं टिप्पणी: बेसमेंट में इसी तरह का सेटअप है

    • यह कई nodes से बना है और कुल 16 3090 का उपयोग करता है
    • 30A 240V circuit लगवाना पड़ा
  • आठवीं टिप्पणी: यह जानने की जिज्ञासा है कि motherboard में 7 PCIe slots होने पर 8 GPU कैसे जोड़े जाते हैं

    • क्या bandwidth सीमित करके एक ही slot में दो GPU इस्तेमाल किए जाते हैं, यह भी जानना चाहते हैं
  • नौवीं टिप्पणी: अगर 7 PCIe 4.0 x16 slots हैं, तो 8वाँ कार्ड कैसे जोड़ा जाता है, यह जानना चाहते हैं

  • दसवीं टिप्पणी: इस सीरीज़ को पढ़ने का इंतज़ार है

    • open source models के cost-performance ratio पर chart/data ढूँढना चाहते हैं
    • $/ELO मान ढूँढना चाहते हैं (जो मशीन बनाने और चलाने की लागत तथा मॉडल के औसत प्रदर्शन को दर्शाता है)