glhf - (लगभग) सभी language model चलाएँ

xguru · 2024-07-29T10:06:01+09:00

vLLM और खुद बनाए गए autoscaling GPU scheduler का उपयोग करके लगभग सभी open source बड़े language model चलाए जा सकते हैं Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 आदि बिना किसी खास सेटअप के सिर्फ Hugging Face repository लिंक पेस्ट करें और यह काम करता है: सभी Full-weight और 4-bit AWQ Repo अधिकतम 8 Nvidia A100 80Gb GPU का उपयोग किया जा सकता है beta अवधि के दौरान यह मुफ़्त है. beta खत्म होने के बाद भी यह multi-tenant के रूप में काम करेगा, इसलिए प्रमुख cloud GPU कीमतों से बेहतर होने की संभावना है

(glhf.chat)

5 पॉइंट द्वारा xguru 2024-07-29 | 2 टिप्पणियां | WhatsApp पर शेयर करें

vLLM और खुद बनाए गए autoscaling GPU scheduler का उपयोग करके लगभग सभी open source बड़े language model चलाए जा सकते हैं
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 आदि
बिना किसी खास सेटअप के सिर्फ Hugging Face repository लिंक पेस्ट करें और यह काम करता है: सभी Full-weight और 4-bit AWQ Repo
अधिकतम 8 Nvidia A100 80Gb GPU का उपयोग किया जा सकता है
beta अवधि के दौरान यह मुफ़्त है. beta खत्म होने के बाद भी यह multi-tenant के रूप में काम करेगा, इसलिए प्रमुख cloud GPU कीमतों से बेहतर होने की संभावना है

2 टिप्पणियां

wedding 2024-07-30

मैं सोच रहा था कि llama 405b को कैसे आज़माऊँ, लेकिन यह तेज़ है और क्वालिटी भी अच्छी है

xguru 2024-07-29

vLLM: PagedAttention का उपयोग करके आसान, तेज़ और सस्ता LLM सर्विंग

glhf - (लगभग) सभी language model चलाएँ

संबंधित पढ़ाई

2 टिप्पणियां