Cerebras Inference पर Llama 3.1 405B के मुख्य बिंदु
- प्रति सेकंड 969 आउटपुट टोकन जनरेट — सर्वश्रेष्ठ GPU परिणामों से 12 गुना तेज
- पहले टोकन तक पहुंचने का समय 240ms — अधिकांश API से कम
- 128K context length सपोर्ट — रिकॉर्ड किया गया सर्वोच्च प्रदर्शन
- 16-बिट weights — पूरे मॉडल की accuracy बरकरार
- 2025 की पहली तिमाही में सामान्य उपलब्धता अपेक्षित, इनपुट टोकन के प्रति 10 लाख पर $6, आउटपुट टोकन के प्रति 10 लाख पर $12
इंस्टेंट स्पीड का frontier AI
- Cerebras ने इस साल Llama 3.1 8B और 70B को 2,000 टोकन प्रति सेकंड से ऊपर पहुंचाया
- GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405B जैसे frontier models GPU, ASIC और cloud पर कभी भी 200 टोकन प्रति सेकंड से आगे नहीं गए थे
- Cerebras Inference इस समस्या को हल करता है, जिससे Llama 3.1 405B को 128K context पर पूरा प्रदर्शन देने में मदद मिलती है
- 1,000-टोकन prompt पर यह 969 आउटपुट टोकन प्रति सेकंड जनरेट कर रिकॉर्ड तोड़ता है
- 100,000-टोकन input prompt पर 539 टोकन/सेकंड हासिल कर Fireworks से 11 गुना और AWS से 44 गुना तेज है
सर्वश्रेष्ठ latency
- पहले टोकन तक पहुंचने का समय वास्तविक applications में सबसे महत्वपूर्ण metrics में से एक है
- Cerebras 240 मिलीसेकंड पर Llama 3.1-405B चलाने वाले सभी platforms में सबसे तेज time to first token देता है
- GPU-आधारित solutions की तुलना में बहुत तेज response time के साथ यह user experience को काफी बेहतर बनाता है
उपलब्धता
- Llama 3.1-405B के लिए Cerebras Inference फिलहाल customer trials में है और 2025 की पहली तिमाही में सामान्य उपलब्धता के लिए निर्धारित है
- आउटपुट pricing AWS, Azure और GCP से 20% सस्ती है
open model ही सबसे तेज model
- Meta के open approach और Cerebras की innovative inference technology की वजह से Llama 3.1-405B, closed frontier models की तुलना में 10 गुना से अधिक तेज चलता है
- यह voice, video और reasoning applications के लिए उपयुक्त आधार प्रदान करता है
1 टिप्पणियां
Hacker News राय
8x H100 क्लस्टर पर Llama 3.1 70b मॉडल चलाते समय 100 tok/s से ऊपर जाना मुश्किल है
यह भरोसा नहीं है कि latency की तुलना निष्पक्ष है
उच्च throughput को अच्छी latency के साथ देने के लिए अत्यधिक provisioning की ज़रूरत होती है
मौजूदा पीढ़ी के models में RAG, multi-agent, और code interpreter के उपयोग के साथ model latency एक bottleneck बन जाती है
Cerebras chip पूरे wafer का उपयोग करती है और इसमें केवल 44GB SRAM शामिल है
API आज़माने के लिए waitlist मौजूद है
लगता है कि Nvidia द्वारा Cerebras का अधिग्रहण होने की संभावना काफ़ी है
यह प्रभावशाली है कि नए hardware से performance improvement संभव है
tokens/second/watt की तुलना देखना चाहूँगा
प्रतिस्पर्धी Groq का कोई उल्लेख नहीं है
जिज्ञासा है कि ऐसी latency के साथ सेवा देने की लागत कितनी होगी