glhf - (लगभग) सभी language model चलाएँ
(glhf.chat)- vLLM और खुद बनाए गए autoscaling GPU scheduler का उपयोग करके लगभग सभी open source बड़े language model चलाए जा सकते हैं
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 आदि
- बिना किसी खास सेटअप के सिर्फ Hugging Face repository लिंक पेस्ट करें और यह काम करता है: सभी Full-weight और 4-bit AWQ Repo
- अधिकतम 8 Nvidia A100 80Gb GPU का उपयोग किया जा सकता है
- beta अवधि के दौरान यह मुफ़्त है. beta खत्म होने के बाद भी यह multi-tenant के रूप में काम करेगा, इसलिए प्रमुख cloud GPU कीमतों से बेहतर होने की संभावना है
2 टिप्पणियां
मैं सोच रहा था कि llama 405b को कैसे आज़माऊँ, लेकिन यह तेज़ है और क्वालिटी भी अच्छी है
vLLM: PagedAttention का उपयोग करके आसान, तेज़ और सस्ता LLM सर्विंग