5 पॉइंट द्वारा xguru 2024-07-29 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • vLLM और खुद बनाए गए autoscaling GPU scheduler का उपयोग करके लगभग सभी open source बड़े language model चलाए जा सकते हैं
    • Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 आदि
  • बिना किसी खास सेटअप के सिर्फ Hugging Face repository लिंक पेस्ट करें और यह काम करता है: सभी Full-weight और 4-bit AWQ Repo
  • अधिकतम 8 Nvidia A100 80Gb GPU का उपयोग किया जा सकता है
  • beta अवधि के दौरान यह मुफ़्त है. beta खत्म होने के बाद भी यह multi-tenant के रूप में काम करेगा, इसलिए प्रमुख cloud GPU कीमतों से बेहतर होने की संभावना है

2 टिप्पणियां

 
wedding 2024-07-30

मैं सोच रहा था कि llama 405b को कैसे आज़माऊँ, लेकिन यह तेज़ है और क्वालिटी भी अच्छी है