3 पॉइंट द्वारा GN⁺ 2024-11-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Cerebras Inference पर Llama 3.1 405B के मुख्य बिंदु

  • प्रति सेकंड 969 आउटपुट टोकन जनरेट — सर्वश्रेष्ठ GPU परिणामों से 12 गुना तेज
  • पहले टोकन तक पहुंचने का समय 240ms — अधिकांश API से कम
  • 128K context length सपोर्ट — रिकॉर्ड किया गया सर्वोच्च प्रदर्शन
  • 16-बिट weights — पूरे मॉडल की accuracy बरकरार
  • 2025 की पहली तिमाही में सामान्य उपलब्धता अपेक्षित, इनपुट टोकन के प्रति 10 लाख पर $6, आउटपुट टोकन के प्रति 10 लाख पर $12

इंस्टेंट स्पीड का frontier AI

  • Cerebras ने इस साल Llama 3.1 8B और 70B को 2,000 टोकन प्रति सेकंड से ऊपर पहुंचाया
  • GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405B जैसे frontier models GPU, ASIC और cloud पर कभी भी 200 टोकन प्रति सेकंड से आगे नहीं गए थे
  • Cerebras Inference इस समस्या को हल करता है, जिससे Llama 3.1 405B को 128K context पर पूरा प्रदर्शन देने में मदद मिलती है
  • 1,000-टोकन prompt पर यह 969 आउटपुट टोकन प्रति सेकंड जनरेट कर रिकॉर्ड तोड़ता है
  • 100,000-टोकन input prompt पर 539 टोकन/सेकंड हासिल कर Fireworks से 11 गुना और AWS से 44 गुना तेज है

सर्वश्रेष्ठ latency

  • पहले टोकन तक पहुंचने का समय वास्तविक applications में सबसे महत्वपूर्ण metrics में से एक है
  • Cerebras 240 मिलीसेकंड पर Llama 3.1-405B चलाने वाले सभी platforms में सबसे तेज time to first token देता है
  • GPU-आधारित solutions की तुलना में बहुत तेज response time के साथ यह user experience को काफी बेहतर बनाता है

उपलब्धता

  • Llama 3.1-405B के लिए Cerebras Inference फिलहाल customer trials में है और 2025 की पहली तिमाही में सामान्य उपलब्धता के लिए निर्धारित है
  • आउटपुट pricing AWS, Azure और GCP से 20% सस्ती है

open model ही सबसे तेज model

  • Meta के open approach और Cerebras की innovative inference technology की वजह से Llama 3.1-405B, closed frontier models की तुलना में 10 गुना से अधिक तेज चलता है
  • यह voice, video और reasoning applications के लिए उपयुक्त आधार प्रदान करता है

1 टिप्पणियां

 
GN⁺ 2024-11-20
Hacker News राय
  • 8x H100 क्लस्टर पर Llama 3.1 70b मॉडल चलाते समय 100 tok/s से ऊपर जाना मुश्किल है

    • यह गति कैसे हासिल की गई, यह जानने की जिज्ञासा है
    • लगता है कि multi-node inference या sparse attention mechanism की ज़रूरत होगी
  • यह भरोसा नहीं है कि latency की तुलना निष्पक्ष है

    • latency में context/prompt throughput, hardware access wait time, और अन्य API overhead शामिल होते हैं
    • संभव है कि Cerebras के आंकड़ों में wait time लगभग शामिल ही न हो
  • उच्च throughput को अच्छी latency के साथ देने के लिए अत्यधिक provisioning की ज़रूरत होती है

    • यह स्पष्ट नहीं है कि latency में model loading शामिल है या नहीं
    • batch jobs में Cerebras machine को 100% उपयोग करके लगातार 1k tokens/s हासिल किए जा सकते हैं
  • मौजूदा पीढ़ी के models में RAG, multi-agent, और code interpreter के उपयोग के साथ model latency एक bottleneck बन जाती है

    • 405B class मॉडल की token throughput से काफ़ी अधिक interactive experience संभव हो जाता है
  • Cerebras chip पूरे wafer का उपयोग करती है और इसमें केवल 44GB SRAM शामिल है

    • 405B मॉडल को bf16 precision in fit करने के लिए 19 chips की ज़रूरत होगी
    • wafer manufacturing cost के हिसाब से यह 1500 से अधिक H100 इस्तेमाल करने के बराबर है
  • API आज़माने के लिए waitlist मौजूद है

    • जब सेवा खरीदी ही नहीं जा सकती, तो कंपनी के दावों पर संदेह करना उचित है
  • लगता है कि Nvidia द्वारा Cerebras का अधिग्रहण होने की संभावना काफ़ी है

  • यह प्रभावशाली है कि नए hardware से performance improvement संभव है

    • hardware के ज़रिए training performance improvement की सीमा क्या है, यह जानने की उत्सुकता है
  • tokens/second/watt की तुलना देखना चाहूँगा

  • प्रतिस्पर्धी Groq का कोई उल्लेख नहीं है

  • जिज्ञासा है कि ऐसी latency के साथ सेवा देने की लागत कितनी होगी

    • लागत ही तय करेगी कि इसे कितनी व्यापक स्वीकृति मिल सकती है
    • यह जानना दिलचस्प होगा कि क्या यह केवल उन व्यवसायों के लिए है जिन्हें सच में low latency चाहिए, या इसे सामान्य रूप से भी deploy किया जा सकता है