Cloud GPU गाइड - AI के लिए कौन-सा GPU कहाँ इस्तेमाल करें?
(gpus.llm-utils.org)- अगर आप StableDiffusion, Whisper, ओपन सोर्स LLM आदि का उपयोग करके AI टूल बनाते हैं, तो उन्हें कहीं न कहीं लगातार चलना होगा
कौन-सा GPU इस्तेमाल करें?
Cloud GPU इस्तेमाल कर रहे हों तो:
- Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
- अगर लागत की परवाह किए बिना सबसे बेहतरीन performance चाहिए, तो H100 2 units
- अगर लागत और performance का balance चाहिए, तो RTX 6000 Ada 2 units (A6000 या RTX6000 नहीं)
- अगर सस्ता विकल्प चाहिए, तो A6000 2 units
- MPT-30B
- सबसे बेहतरीन performance या cost-effectiveness: H100 1 unit
- सस्ता: A100 80GB 1 unit
- Stable Diffusion
- सबसे बेहतरीन performance: H100 1 unit
- cost-effectiveness: 4090 1 unit
- सस्ता: 3090 1 unit
- Whisper
- Stable Diffusion जैसा ही
- Whisper-Large कम VRAM में भी चल सकता है, लेकिन ज़्यादातर cloud में ऐसे कार्ड नहीं होते
- 4090/3090 पर भी अच्छी तरह चलता है, और CPU पर भी संभव है
- अगर बड़े LLM को fine-tune करना है
- H100 cluster या A100 cluster
- अगर बड़े LLM को train करना है
- बड़ा H100 cluster
अगर local GPU इस्तेमाल कर रहे हों:
- बड़ा H100 cluster
- लगभग ऊपर जैसा ही, लेकिन LLM training और fine-tuning संभव नहीं
- ज़्यादातर LLM के ऐसे version होते हैं जो कम VRAM में चल सकते हैं (Falcon on 40GB)
क्या models को local पर चलाना चाहिए? या cloud GPU पर?
- दोनों ही उचित विकल्प हैं
- model को cloud में चलाने के लिए Runpod के templates सबसे आसान विकल्प हैं
- सबसे आसान विकल्प hosted instances का उपयोग करना है: जैसे stable diffusion के लिए DreamStudio, RunDiffusion, Playground AI
RTX 6000, A6000, 6000 Ada में क्या अंतर है?
तीनों पूरी तरह अलग हैं
- RTX 6000 (Quadro RTX 6000, 24 GB VRAM, 2018/08/13 रिलीज़)
- RTX A6000 (48 GB VRAM, 2020/10/05 रिलीज़)
- RTX 6000 Ada (48 GB VRAM, 2022/12/03 रिलीज़)
DGX GH200, GH200, H100?
- 1 DGX GH200 में 256 GH200 शामिल होते हैं
- 1 GH200 में 1 H100 और 1 Grace CPU शामिल होता है
क्या H100, A100 से बड़ा upgrade है?
- बिल्कुल। speed में बहुत बड़ा सुधार है। H100, A100 की तुलना में ज़्यादा GPU तक scale हो सकता है
- यानी LLM training के लिए कई H100 सबसे बेहतर हैं
AMD, Intel, Cerebras का क्या?
- फिलहाल Nvidia सबसे आसान है
कौन-सा GPU cloud इस्तेमाल करें?
- अगर कई A100/H100 चाहिए: Oracle, FluidStack, Lambda Labs आदि से संपर्क करें
- अगर कुछ A100 चाहिए: FluidStack या Runpod
- अगर 1 H100 चाहिए: FluidStack या Lambda Labs
- सस्ते 3090s, 4090s, A6000s: Tensordock
- अगर सिर्फ Stable Diffusion inference चाहिए: Salad
- अगर कई तरह के GPU चाहिए: Runpod या FluidStack
- अगर templates इस्तेमाल करने हैं या hobby के लिए कर रहे हैं: Runpod
- बड़े cloud महंगे और जटिल होते हैं
शुरू करने के लिए सबसे आसान GPU Cloud
- RunPod में templates इस्तेमाल करें
- ध्यान रखें कि RunPod pods पूरी तरह feature वाले VM नहीं, बल्कि host machine के Docker containers होते हैं
कितनी VRAM, system RAM, और कितने vCPU चाहिए?
- VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: 16GB+ या अधिक वांछनीय
- Whisper: 12GB+. (अगर OpenAI version इस्तेमाल करें तो इतना, community version के साथ CPU पर भी संभव)
- System RAM
- VRAM का 1~2 गुना
- vCPUs
- 8-16 vCPU बड़े GPU workload न होने पर पर्याप्त हैं
- डिस्क क्षमता
- यह use case पर निर्भर करता है। अगर पता न हो, तो 100GB से शुरू करें और देखें कि यह आपके use case के लिए उपयुक्त है या नहीं
6 टिप्पणियां
मैं Runpod इस्तेमाल कर रहा हूँ, यह सस्ता है, इस्तेमाल करने में आसान है, और मुझे बहुत पसंद है! अच्छी जानकारी के लिए धन्यवाद.
बहुत अच्छी जानकारी है!
छोटी-सी बात है, लेकिन लगता है कि नीचे की ओर लगभग 2 सेक्शन छूट गए थे, इसलिए मैंने उन्हें जोड़ दिया है. :)
क्या SXM या PCIe, NVLink की ज़रूरत है?
InfiniBand के बारे में?
अच्छे लेख के लिए धन्यवाद!
जिन लोगों के लिए यह प्रासंगिक है, उनके लिए यह सचमुच बेहद कीमती जानकारी होगी।
ओह, यह बहुत उपयोगी सामग्री है।