15 पॉइंट द्वारा xguru 2024-06-17 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • बड़े language model (LLM) को सीधे host करने में कितनी लागत आती है?
  • अगर Llama-3 8B-Instruct मॉडल को EKS पर host किया जाए, तो 10 लाख tokens पर लगभग $17 खर्च होते हैं
  • यही काम ChatGPT से करने पर 10 लाख tokens पर $1 खर्च होता है
  • अगर hardware को self-host किया जाए, तो 10 लाख tokens पर लागत $0.01 से नीचे आ जाती है, और break-even तक पहुंचने में लगभग 5.5 साल लगते हैं
    • गणना 4x NVidia Tesla T4 GPU और अन्य hardware लागत ($3800) + मासिक लागत (बिजली और अन्य) $100 के आधार पर की गई है

सर्वोत्तम hardware तय करने की प्रक्रिया

  • test environment: सभी tests EKS cluster में चलाए गए

  • पहला प्रयास: Nvidia Tesla T4 GPU का उपयोग करने वाला AWS g4dn.2xlarge instance

    • स्पेक: 1 NVidia Tesla T4, 32GB memory, 8 vCPUs
    • परिणाम: Llama 3 के 8B या 70B parameter version नहीं चल पाए
    • समस्या: OOM(Out of Memory) हुआ और response time लगभग 10 मिनट लगा
  • दूसरा प्रयास: 4 Nvidia Tesla T4 GPU वाला AWS g4dn.16xlarge instance

    • स्पेक: 4 NVidia Tesla T4, 192GB memory, 48 vCPUs
    • परिणाम: response time घटकर 10 सेकंड से कम हो गया

शुरुआती implementation

  • implementation method: Hugging Face का Llama-3 code कॉपी करके उपयोग किया गया
  • cost calculation:
    • g5dn.12xlarge instance उपयोग की लागत: $3.912 प्रति घंटा
    • मासिक लागत के हिसाब से, 10 लाख tokens पर लगभग $167.17 खर्च होता है
    • ChatGPT 3.5 Turbo की लागत: 10 लाख tokens पर $1

समस्या का समाधान

  • समस्या की पहचान: यह समझ आया कि पुराना तरीका गलत था, इसलिए vLLM का उपयोग किया गया
  • सुधार के परिणाम:
    • API server hosting के लिए ray और vllm install किए गए
    • —tensor-parallel-size 4 option के साथ सभी 4 GPU का उपयोग किया गया
    • परिणाम: response time में बड़ा सुधार हुआ और यह 2044ms तक आ गया
    • लागत की गणना में, 10 लाख tokens पर लगभग $17 खर्च हुआ

वैकल्पिक तरीका

  • अपना hardware host करना:
    • आवश्यक hardware: 4x NVidia Tesla T4 GPU, eBay पर लगभग $700
    • अन्य लागतों सहित, कुल setup cost लगभग $3,800
    • मासिक energy cost लगभग $50
    • कुल मासिक लागत लगभग $100 मानी गई
    • break-even तक पहुंचने में लगभग 66 महीने (5.5 साल) लगते हैं

निष्कर्ष

  • फायदा: अपना hardware host करने पर लागत कम की जा सकती है
  • नुकसान: hardware management और scaling की जरूरत होती है
    • 100% utilization की धारणा अवास्तविक है, इसलिए वास्तविक स्थिति के अनुसार मूल्यांकन जरूरी है

4 टिप्पणियां

 
iolothebard 2024-06-17

मॉडल बनाना भी नहीं है
सिर्फ Llama 8B से inference करना है, तो हार्डवेयर कुछ ज़्यादा ही लग रहा है।
24G GPU (3090 या 4090) हो तो काफ़ी है (20~30 लाख नहीं, 2~3 मिलियन? wait) एक महीने का बिजली बिल लगभग 30,000 वॉन हो तो काफ़ी है।
अब लिखकर देखा तो नीचे पहले से है, हा

 
wedding 2024-06-17

5.5 साल तो काफ़ी लंबा समय है..

 
ragingwind 2024-06-17

क्या 8B को toy-level से आगे self-host करना संभव है?

 
xguru 2024-06-17

Hacker News राय

  • AWS की जगह हार्डवेयर को self-host करने पर लागत काफी कम हो जाती है।
    • NVidia Tesla T4 के 4 इस्तेमाल करने पर लगभग $3,800 का खर्च आता है।
    • Llama 3 8b मॉडल के लिए 3090 या 4090 GPU में से एक ही काफी है।
    • eBay से GPU खरीदने पर लागत कम की जा सकती है।
  • Llama 8B मॉडल AWS Bedrock में 1M input token पर $0.40 और output token पर $0.60 है, जो OpenAI मॉडल से सस्ता है।
    • server setup और maintenance में लगने वाले समय और लागत को भी ध्यान में रखना चाहिए।
  • Jetstream + Maxtext की कीमत
    • TPU v5e के साथ 3 साल के commitment की कीमत 1M token पर $0.25 है।
    • on-demand कीमत लगभग 1M token पर $0.45 है।
    • Google Next 2024 session में अधिक जानकारी देखी जा सकती है।
  • NVIDIA के market value में गिरावट की संभावना
    • LLM performance ठहरने लगे और LLM के commercialize होने पर NVIDIA का market value गिर सकता है।
    • training के लिए compute demand भी उम्मीद से जल्दी घट सकती है।
  • cost analysis की समस्या
    • batch size 1 पर चलाना cost analysis में बड़ी गलती पैदा करता है।
    • यह API providers द्वारा लिए जाने वाले शुल्क की तुलना में 100 से 1000 गुना महंगा है।
  • 8B मॉडल चलाने की लागत
    • 3090 और एक basic system से 8B मॉडल आराम से चलाया जा सकता है।
    • OpenAI और AWS की लागत में बड़ा अंतर है ($1 बनाम $17)।
    • वास्तव में AWS ज्यादा सस्ता हो सकता है।
  • लागत को समझने की समस्या
    • single synchronous request के आधार पर लागत समझना उचित नहीं है।
    • ChatGPT बहुत-सी requests को parallel में process करता है।
    • बड़े requests, concurrent requests, और request queueing से लागत काफी कम हो सकती है।
  • LLM access की लागत
    • LLM access की लागत बहुत कम है।
    • तकनीकी प्रगति की तुलना में लागत कम होने पर engineers को खुश होना चाहिए।
  • T4 6 साल पुराना कार्ड है, इसलिए इसकी तुलना 3090, 4090, A10, A100 आदि से करना अधिक उचित है।