Llama-3 8B-Instruct मॉडल को self-host करने की लागत
(blog.lytix.co)- बड़े language model (LLM) को सीधे host करने में कितनी लागत आती है?
- अगर Llama-3 8B-Instruct मॉडल को EKS पर host किया जाए, तो 10 लाख tokens पर लगभग $17 खर्च होते हैं
- यही काम ChatGPT से करने पर 10 लाख tokens पर $1 खर्च होता है
- अगर hardware को self-host किया जाए, तो 10 लाख tokens पर लागत $0.01 से नीचे आ जाती है, और break-even तक पहुंचने में लगभग 5.5 साल लगते हैं
- गणना 4x NVidia Tesla T4 GPU और अन्य hardware लागत ($3800) + मासिक लागत (बिजली और अन्य) $100 के आधार पर की गई है
सर्वोत्तम hardware तय करने की प्रक्रिया
-
test environment: सभी tests EKS cluster में चलाए गए
-
पहला प्रयास: Nvidia Tesla T4 GPU का उपयोग करने वाला AWS
g4dn.2xlargeinstance- स्पेक: 1 NVidia Tesla T4, 32GB memory, 8 vCPUs
- परिणाम: Llama 3 के 8B या 70B parameter version नहीं चल पाए
- समस्या: OOM(Out of Memory) हुआ और response time लगभग 10 मिनट लगा
-
दूसरा प्रयास: 4 Nvidia Tesla T4 GPU वाला AWS
g4dn.16xlargeinstance- स्पेक: 4 NVidia Tesla T4, 192GB memory, 48 vCPUs
- परिणाम: response time घटकर 10 सेकंड से कम हो गया
शुरुआती implementation
- implementation method: Hugging Face का Llama-3 code कॉपी करके उपयोग किया गया
- cost calculation:
g5dn.12xlargeinstance उपयोग की लागत: $3.912 प्रति घंटा- मासिक लागत के हिसाब से, 10 लाख tokens पर लगभग $167.17 खर्च होता है
- ChatGPT 3.5 Turbo की लागत: 10 लाख tokens पर $1
समस्या का समाधान
- समस्या की पहचान: यह समझ आया कि पुराना तरीका गलत था, इसलिए
vLLMका उपयोग किया गया - सुधार के परिणाम:
- API server hosting के लिए
rayऔरvllminstall किए गए —tensor-parallel-size 4option के साथ सभी 4 GPU का उपयोग किया गया- परिणाम: response time में बड़ा सुधार हुआ और यह 2044ms तक आ गया
- लागत की गणना में, 10 लाख tokens पर लगभग $17 खर्च हुआ
- API server hosting के लिए
वैकल्पिक तरीका
- अपना hardware host करना:
- आवश्यक hardware: 4x NVidia Tesla T4 GPU, eBay पर लगभग $700
- अन्य लागतों सहित, कुल setup cost लगभग $3,800
- मासिक energy cost लगभग $50
- कुल मासिक लागत लगभग $100 मानी गई
- break-even तक पहुंचने में लगभग 66 महीने (5.5 साल) लगते हैं
निष्कर्ष
- फायदा: अपना hardware host करने पर लागत कम की जा सकती है
- नुकसान: hardware management और scaling की जरूरत होती है
- 100% utilization की धारणा अवास्तविक है, इसलिए वास्तविक स्थिति के अनुसार मूल्यांकन जरूरी है
4 टिप्पणियां
मॉडल बनाना भी नहीं है
सिर्फ Llama 8B से inference करना है, तो हार्डवेयर कुछ ज़्यादा ही लग रहा है।
24G GPU (3090 या 4090) हो तो काफ़ी है (20~30 लाख नहीं, 2~3 मिलियन? wait) एक महीने का बिजली बिल लगभग 30,000 वॉन हो तो काफ़ी है।
अब लिखकर देखा तो नीचे पहले से है, हा
5.5 साल तो काफ़ी लंबा समय है..
क्या 8B को toy-level से आगे self-host करना संभव है?
Hacker News राय