Cloud GPU गाइड - AI के लिए कौन-सा GPU कहाँ इस्तेमाल करें?

xguru · 2023-08-23T11:04:02+09:00

अगर आप StableDiffusion, Whisper, ओपन सोर्स LLM आदि का उपयोग करके AI टूल बनाते हैं, तो उन्हें कहीं न कहीं लगातार चलना होगा कौन-सा GPU इस्तेमाल करें? Cloud GPU इस्तेमाल कर रहे हों तो: Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct अगर लागत की परवाह किए बिना सबसे बेहतरीन performance चाहिए, तो H100 2 units अगर लागत और performance का balance चाहिए, तो RTX 6000 Ada 2 units (A6000 या RTX6000 नहीं) अगर सस्ता विकल्प चाहिए, तो A6000 2 units MPT-30B सबसे बेहतरीन performance या cost-effectiveness: H100 1 unit सस्ता: A100 80GB 1 unit Stable Diffusion सबसे बेहतरीन performance: H100 1 unit cost-effectiveness: 4090 1 unit सस्ता: 3090 1 unit Whisper Stable Diffusion जैसा ही Whisper-Large कम VRAM में भी चल सकता है, लेकिन ज़्यादातर cloud में ऐसे कार्ड नहीं होते 4090/3090 पर भी अच्छी तरह चलता है, और CPU पर भी संभव है अगर बड़े LLM को fine-tune करना है H100 cluster या A100 cluster अगर बड़े LLM को train करना है बड़ा H100 cluster अगर local GPU इस्तेमाल कर रहे हों: लगभग ऊपर जैसा ही, लेकिन LLM training और fine-tuning संभव नहीं ज़्यादातर LLM के ऐसे version होते हैं जो कम VRAM में चल सकते हैं (Falcon on 40GB) क्या models को local पर चलाना चाहिए? या cloud GPU पर? दोनों ही उचित विकल्प हैं model को cloud में चलाने के लिए Runpod के templates सबसे आसान विकल्प हैं सबसे आसान विकल्प hosted instances का उपयोग करना है: जैसे stable diffusion के लिए DreamStudio, RunDiffusion, Playground AI RTX 6000, A6000, 6000 Ada में क्या अंतर है? तीनों पूरी तरह अलग हैं RTX 6000 (Quadro RTX 6000, 24 GB VRAM, 2018/08/13 रिलीज़) RTX A6000 (48 GB VRAM, 2020/10/05 रिलीज़) RTX 6000 Ada (48 GB VRAM, 2022/12/03 रिलीज़) DGX GH200, GH200, H100? 1 DGX GH200 में 256 GH200 शामिल होते हैं 1 GH200 में 1 H100 और 1 Grace CPU शामिल होता है क्या H100, A100 से बड़ा upgrade है? बिल्कुल। speed में बहुत बड़ा सुधार है। H100, A100 की तुलना में ज़्यादा GPU तक scale हो सकता है यानी LLM training के लिए कई H100 सबसे बेहतर हैं AMD, Intel, Cerebras का क्या? फिलहाल Nvidia सबसे आसान है कौन-सा GPU cloud इस्तेमाल करें? अगर कई A100/H100 चाहिए: Oracle, FluidStack, Lambda Labs आदि से संपर्क करें अगर कुछ A100 चाहिए: FluidStack या Runpod अगर 1 H100 चाहिए: FluidStack या Lambda Labs सस्ते 3090s, 4090s, A6000s: Tensordock अगर सिर्फ Stable Diffusion inference चाहिए: Salad अगर कई तरह के GPU चाहिए: Runpod या FluidStack अगर templates इस्तेमाल करने हैं या hobby के लिए कर रहे हैं: Runpod बड़े cloud महंगे और जटिल होते हैं शुरू करने के लिए सबसे आसान GPU Cloud RunPod में templates इस्तेमाल करें ध्यान रखें कि RunPod pods पूरी तरह feature वाले VM नहीं, बल्कि host machine के Docker containers होते हैं कितनी VRAM, system RAM, और कितने vCPU चाहिए? VRAM (Video RAM / GPU RAM) Falcon-40B: 85-100GB MPT-30B: 80GB Stable Diffusion: 16GB+ या अधिक वांछनीय Whisper: 12GB+. (अगर OpenAI version इस्तेमाल करें तो इतना, community version के साथ CPU पर भी संभव) System RAM VRAM का 1~2 गुना vCPUs 8-16 vCPU बड़े GPU workload न होने पर पर्याप्त हैं डिस्क क्षमता यह use case पर निर्भर करता है। अगर पता न हो, तो 100GB से शुरू करें और देखें कि यह आपके use case के लिए उपयुक्त है या नहीं

(gpus.llm-utils.org)

37 पॉइंट द्वारा xguru 2023-08-23 | 6 टिप्पणियां | WhatsApp पर शेयर करें

अगर आप StableDiffusion, Whisper, ओपन सोर्स LLM आदि का उपयोग करके AI टूल बनाते हैं, तो उन्हें कहीं न कहीं लगातार चलना होगा

कौन-सा GPU इस्तेमाल करें?

Cloud GPU इस्तेमाल कर रहे हों तो:

Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
- अगर लागत की परवाह किए बिना सबसे बेहतरीन performance चाहिए, तो H100 2 units
- अगर लागत और performance का balance चाहिए, तो RTX 6000 Ada 2 units (A6000 या RTX6000 नहीं)
- अगर सस्ता विकल्प चाहिए, तो A6000 2 units
MPT-30B
- सबसे बेहतरीन performance या cost-effectiveness: H100 1 unit
- सस्ता: A100 80GB 1 unit
Stable Diffusion
- सबसे बेहतरीन performance: H100 1 unit
- cost-effectiveness: 4090 1 unit
- सस्ता: 3090 1 unit
Whisper
- Stable Diffusion जैसा ही
- Whisper-Large कम VRAM में भी चल सकता है, लेकिन ज़्यादातर cloud में ऐसे कार्ड नहीं होते
- 4090/3090 पर भी अच्छी तरह चलता है, और CPU पर भी संभव है
अगर बड़े LLM को fine-tune करना है
- H100 cluster या A100 cluster
अगर बड़े LLM को train करना है
- बड़ा H100 cluster
  अगर local GPU इस्तेमाल कर रहे हों:
लगभग ऊपर जैसा ही, लेकिन LLM training और fine-tuning संभव नहीं
ज़्यादातर LLM के ऐसे version होते हैं जो कम VRAM में चल सकते हैं (Falcon on 40GB)

क्या models को local पर चलाना चाहिए? या cloud GPU पर?

दोनों ही उचित विकल्प हैं
model को cloud में चलाने के लिए Runpod के templates सबसे आसान विकल्प हैं
सबसे आसान विकल्प hosted instances का उपयोग करना है: जैसे stable diffusion के लिए DreamStudio, RunDiffusion, Playground AI

RTX 6000, A6000, 6000 Ada में क्या अंतर है?

तीनों पूरी तरह अलग हैं

RTX 6000 (Quadro RTX 6000, 24 GB VRAM, 2018/08/13 रिलीज़)
RTX A6000 (48 GB VRAM, 2020/10/05 रिलीज़)
RTX 6000 Ada (48 GB VRAM, 2022/12/03 रिलीज़)

DGX GH200, GH200, H100?

1 DGX GH200 में 256 GH200 शामिल होते हैं
1 GH200 में 1 H100 और 1 Grace CPU शामिल होता है

क्या H100, A100 से बड़ा upgrade है?

बिल्कुल। speed में बहुत बड़ा सुधार है। H100, A100 की तुलना में ज़्यादा GPU तक scale हो सकता है
यानी LLM training के लिए कई H100 सबसे बेहतर हैं

AMD, Intel, Cerebras का क्या?

फिलहाल Nvidia सबसे आसान है

कौन-सा GPU cloud इस्तेमाल करें?

अगर कई A100/H100 चाहिए: Oracle, FluidStack, Lambda Labs आदि से संपर्क करें
अगर कुछ A100 चाहिए: FluidStack या Runpod
अगर 1 H100 चाहिए: FluidStack या Lambda Labs
सस्ते 3090s, 4090s, A6000s: Tensordock
अगर सिर्फ Stable Diffusion inference चाहिए: Salad
अगर कई तरह के GPU चाहिए: Runpod या FluidStack
अगर templates इस्तेमाल करने हैं या hobby के लिए कर रहे हैं: Runpod
बड़े cloud महंगे और जटिल होते हैं

शुरू करने के लिए सबसे आसान GPU Cloud

RunPod में templates इस्तेमाल करें
ध्यान रखें कि RunPod pods पूरी तरह feature वाले VM नहीं, बल्कि host machine के Docker containers होते हैं

कितनी VRAM, system RAM, और कितने vCPU चाहिए?

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: 16GB+ या अधिक वांछनीय
- Whisper: 12GB+. (अगर OpenAI version इस्तेमाल करें तो इतना, community version के साथ CPU पर भी संभव)
System RAM
- VRAM का 1~2 गुना
vCPUs
- 8-16 vCPU बड़े GPU workload न होने पर पर्याप्त हैं
डिस्क क्षमता
यह use case पर निर्भर करता है। अगर पता न हो, तो 100GB से शुरू करें और देखें कि यह आपके use case के लिए उपयुक्त है या नहीं

6 टिप्पणियां

wlsdk318 2024-01-30

मैं Runpod इस्तेमाल कर रहा हूँ, यह सस्ता है, इस्तेमाल करने में आसान है, और मुझे बहुत पसंद है! अच्छी जानकारी के लिए धन्यवाद.

geekbini 2023-08-24

बहुत अच्छी जानकारी है!

ninebow 2023-08-24

छोटी-सी बात है, लेकिन लगता है कि नीचे की ओर लगभग 2 सेक्शन छूट गए थे, इसलिए मैंने उन्हें जोड़ दिया है. :)

क्या SXM या PCIe, NVLink की ज़रूरत है?

अगर आप सुनिश्चित नहीं हैं, तो पहले मान लें कि यह महत्वपूर्ण नहीं है
और विस्तार से जानना हो तो: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

InfiniBand के बारे में?

अगर आप 1~2 GPU इस्तेमाल कर रहे हैं, तो इसकी ज़रूरत नहीं है. हज़ारों के क्लस्टर इस्तेमाल कर रहे हों, तो इसकी ज़रूरत होती है.