Llama-3 8B-Instruct मॉडल को self-host करने की लागत

xguru · 2024-06-17T10:08:01+09:00

बड़े language model (LLM) को सीधे host करने में कितनी लागत आती है? अगर Llama-3 8B-Instruct मॉडल को EKS पर host किया जाए, तो 10 लाख tokens पर लगभग $17 खर्च होते हैं यही काम ChatGPT से करने पर 10 लाख tokens पर $1 खर्च होता है अगर hardware को self-host किया जाए, तो 10 लाख tokens पर लागत $0.01 से नीचे आ जाती है, और break-even तक पहुंचने में लगभग 5.5 साल लगते हैं गणना 4x NVidia Tesla T4 GPU और अन्य hardware लागत ($3800) + मासिक लागत (बिजली और अन्य) $100 के आधार पर की गई है सर्वोत्तम hardware तय करने की प्रक्रिया test environment: सभी tests EKS cluster में चलाए गए पहला प्रयास: Nvidia Tesla T4 GPU का उपयोग करने वाला AWS g4dn.2xlarge instance स्पेक: 1 NVidia Tesla T4, 32GB memory, 8 vCPUs परिणाम: Llama 3 के 8B या 70B parameter version नहीं चल पाए समस्या: OOM(Out of Memory) हुआ और response time लगभग 10 मिनट लगा दूसरा प्रयास: 4 Nvidia Tesla T4 GPU वाला AWS g4dn.16xlarge instance स्पेक: 4 NVidia Tesla T4, 192GB memory, 48 vCPUs परिणाम: response time घटकर 10 सेकंड से कम हो गया शुरुआती implementation implementation method: Hugging Face का Llama-3 code कॉपी करके उपयोग किया गया cost calculation: g5dn.12xlarge instance उपयोग की लागत: $3.912 प्रति घंटा मासिक लागत के हिसाब से, 10 लाख tokens पर लगभग $167.17 खर्च होता है ChatGPT 3.5 Turbo की लागत: 10 लाख tokens पर $1 समस्या का समाधान समस्या की पहचान: यह समझ आया कि पुराना तरीका गलत था, इसलिए vLLM का उपयोग किया गया सुधार के परिणाम: API server hosting के लिए ray और vllm install किए गए —tensor-parallel-size 4 option के साथ सभी 4 GPU का उपयोग किया गया परिणाम: response time में बड़ा सुधार हुआ और यह 2044ms तक आ गया लागत की गणना में, 10 लाख tokens पर लगभग $17 खर्च हुआ वैकल्पिक तरीका अपना hardware host करना: आवश्यक hardware: 4x NVidia Tesla T4 GPU, eBay पर लगभग $700 अन्य लागतों सहित, कुल setup cost लगभग $3,800 मासिक energy cost लगभग $50 कुल मासिक लागत लगभग $100 मानी गई break-even तक पहुंचने में लगभग 66 महीने (5.5 साल) लगते हैं निष्कर्ष फायदा: अपना hardware host करने पर लागत कम की जा सकती है नुकसान: hardware management और scaling की जरूरत होती है 100% utilization की धारणा अवास्तविक है, इसलिए वास्तविक स्थिति के अनुसार मूल्यांकन जरूरी है

(blog.lytix.co)

15 पॉइंट द्वारा xguru 2024-06-17 | 4 टिप्पणियां | WhatsApp पर शेयर करें

बड़े language model (LLM) को सीधे host करने में कितनी लागत आती है?
अगर Llama-3 8B-Instruct मॉडल को EKS पर host किया जाए, तो 10 लाख tokens पर लगभग $17 खर्च होते हैं
यही काम ChatGPT से करने पर 10 लाख tokens पर $1 खर्च होता है
अगर hardware को self-host किया जाए, तो 10 लाख tokens पर लागत $0.01 से नीचे आ जाती है, और break-even तक पहुंचने में लगभग 5.5 साल लगते हैं
- गणना 4x NVidia Tesla T4 GPU और अन्य hardware लागत ($3800) + मासिक लागत (बिजली और अन्य) $100 के आधार पर की गई है

सर्वोत्तम hardware तय करने की प्रक्रिया

test environment: सभी tests EKS cluster में चलाए गए
पहला प्रयास: Nvidia Tesla T4 GPU का उपयोग करने वाला AWS g4dn.2xlarge instance
- स्पेक: 1 NVidia Tesla T4, 32GB memory, 8 vCPUs
- परिणाम: Llama 3 के 8B या 70B parameter version नहीं चल पाए
- समस्या: OOM(Out of Memory) हुआ और response time लगभग 10 मिनट लगा
दूसरा प्रयास: 4 Nvidia Tesla T4 GPU वाला AWS g4dn.16xlarge instance
- स्पेक: 4 NVidia Tesla T4, 192GB memory, 48 vCPUs
- परिणाम: response time घटकर 10 सेकंड से कम हो गया

शुरुआती implementation

implementation method: Hugging Face का Llama-3 code कॉपी करके उपयोग किया गया
cost calculation:
- g5dn.12xlarge instance उपयोग की लागत: $3.912 प्रति घंटा
- मासिक लागत के हिसाब से, 10 लाख tokens पर लगभग $167.17 खर्च होता है
- ChatGPT 3.5 Turbo की लागत: 10 लाख tokens पर $1

समस्या का समाधान

समस्या की पहचान: यह समझ आया कि पुराना तरीका गलत था, इसलिए vLLM का उपयोग किया गया
सुधार के परिणाम:
- API server hosting के लिए ray और vllm install किए गए
- —tensor-parallel-size 4 option के साथ सभी 4 GPU का उपयोग किया गया
- परिणाम: response time में बड़ा सुधार हुआ और यह 2044ms तक आ गया
- लागत की गणना में, 10 लाख tokens पर लगभग $17 खर्च हुआ

वैकल्पिक तरीका

अपना hardware host करना:
- आवश्यक hardware: 4x NVidia Tesla T4 GPU, eBay पर लगभग $700
- अन्य लागतों सहित, कुल setup cost लगभग $3,800
- मासिक energy cost लगभग $50
- कुल मासिक लागत लगभग $100 मानी गई
- break-even तक पहुंचने में लगभग 66 महीने (5.5 साल) लगते हैं

निष्कर्ष

फायदा: अपना hardware host करने पर लागत कम की जा सकती है
नुकसान: hardware management और scaling की जरूरत होती है
- 100% utilization की धारणा अवास्तविक है, इसलिए वास्तविक स्थिति के अनुसार मूल्यांकन जरूरी है

4 टिप्पणियां

iolothebard 2024-06-17

मॉडल बनाना भी नहीं है
सिर्फ Llama 8B से inference करना है, तो हार्डवेयर कुछ ज़्यादा ही लग रहा है।
24G GPU (3090 या 4090) हो तो काफ़ी है (20~30 लाख नहीं, 2~3 मिलियन? wait) एक महीने का बिजली बिल लगभग 30,000 वॉन हो तो काफ़ी है।
अब लिखकर देखा तो नीचे पहले से है, हा

wedding 2024-06-17

5.5 साल तो काफ़ी लंबा समय है..

ragingwind 2024-06-17

क्या 8B को toy-level से आगे self-host करना संभव है?

xguru 2024-06-17

Hacker News राय

AWS की जगह हार्डवेयर को self-host करने पर लागत काफी कम हो जाती है।
- NVidia Tesla T4 के 4 इस्तेमाल करने पर लगभग $3,800 का खर्च आता है।
- Llama 3 8b मॉडल के लिए 3090 या 4090 GPU में से एक ही काफी है।
- eBay से GPU खरीदने पर लागत कम की जा सकती है।
Llama 8B मॉडल AWS Bedrock में 1M input token पर $0.40 और output token पर $0.60 है, जो OpenAI मॉडल से सस्ता है।
- server setup और maintenance में लगने वाले समय और लागत को भी ध्यान में रखना चाहिए।
Jetstream + Maxtext की कीमत
- TPU v5e के साथ 3 साल के commitment की कीमत 1M token पर $0.25 है।
- on-demand कीमत लगभग 1M token पर $0.45 है।
- Google Next 2024 session में अधिक जानकारी देखी जा सकती है।
NVIDIA के market value में गिरावट की संभावना
- LLM performance ठहरने लगे और LLM के commercialize होने पर NVIDIA का market value गिर सकता है।
- training के लिए compute demand भी उम्मीद से जल्दी घट सकती है।
cost analysis की समस्या
- batch size 1 पर चलाना cost analysis में बड़ी गलती पैदा करता है।
- यह API providers द्वारा लिए जाने वाले शुल्क की तुलना में 100 से 1000 गुना महंगा है।
8B मॉडल चलाने की लागत
- 3090 और एक basic system से 8B मॉडल आराम से चलाया जा सकता है।
- OpenAI और AWS की लागत में बड़ा अंतर है ($1 बनाम $17)।
- वास्तव में AWS ज्यादा सस्ता हो सकता है।
लागत को समझने की समस्या
- single synchronous request के आधार पर लागत समझना उचित नहीं है।
- ChatGPT बहुत-सी requests को parallel में process करता है।
- बड़े requests, concurrent requests, और request queueing से लागत काफी कम हो सकती है।
LLM access की लागत
- LLM access की लागत बहुत कम है।
- तकनीकी प्रगति की तुलना में लागत कम होने पर engineers को खुश होना चाहिए।
T4 6 साल पुराना कार्ड है, इसलिए इसकी तुलना 3090, 4090, A10, A100 आदि से करना अधिक उचित है।