Cerebras Inference ने Llama 3.1 405B पर प्रति सेकंड 969 टोकन प्रोसेस किए

(cerebras.ai)

3 पॉइंट द्वारा GN⁺ 2024-11-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े frontier models में आम तौर पर speed और latency bottleneck होते हैं, लेकिन Cerebras Inference ने Llama 3.1 405B customer workload पर प्रति सेकंड 969 output tokens दर्ज किए
1,000-token prompt के आधार पर नतीजा SambaNova से 8 गुना, सबसे तेज GPU cloud से 12 गुना और AWS से 75 गुना तेज रहा
100,000-token input में केवल 6 vendors ने result लौटाया, और Cerebras non-GPU vendors में अकेला था जिसने benchmark पूरा किया और प्रति सेकंड 539 tokens हासिल किए
first token तक का समय 240ms था, और GPT-4 से switch करने वाले customers ने बताया कि overall latency 75% घट गई
Llama 3.1 405B के लिए Cerebras Inference अभी customer trial के रूप में उपलब्ध है; Q1 2025 में general availability और input $6/M · output $12/M tokens pricing की योजना है

Llama 3.1 405B performance record

Cerebras Inference ने Llama 3.1 405B चलाने में 969 output tokens/s हासिल किए
- यह 1,000-token prompt पर आधारित result है
- Artificial Analysis के measurement के अनुसार output speed, long-context performance और first-token time में record बना
इसी comparison में Llama 3.1 405B on Cerebras को GPT-4o से 12 गुना और Claude 3.5 Sonnet से 18 गुना तेज बताया गया
Cerebras ने बताया कि इस साल उसने Llama 3.1 8B और 70B को 2,000 tokens/s से ऊपर पहुंचाया, जबकि GPT-4o, Claude 3.5 Sonnet और Llama 3.1 405B जैसे frontier models GPU, ASIC या cloud—कहीं भी 200 tokens/s से ऊपर नहीं जा पाए
1,000-token prompt के आधार पर comparison इस प्रकार है
- SambaNova से 8 गुना तेज
- सबसे तेज GPU cloud से 12 गुना तेज
- AWS से 75 गुना तेज
100,000-token input prompt में 539 tokens/s दर्ज किए गए
- केवल 6 vendors ने result लौटाया
- Cerebras benchmark पूरा करने वाला अकेला non-GPU vendor था
- Fireworks से 11 गुना और AWS से 44 गुना तेज

Latency, availability schedule और pricing

Llama 3.1 405B के लिए Cerebras Inference ने 240ms first-token time दर्ज किया
- first-token time वास्तविक applications में users द्वारा महसूस की जाने वाली मुख्य latency metric है
- GPU-based solutions में initial response time कई seconds तक बढ़ सकता है
GPT-4 से Cerebras Inference पर switch करने वाले customers ने बताया कि overall latency 75% कम हुई
- voice और video AI applications जैसे use cases में, जहां real-time interaction महत्वपूर्ण है, इससे user experience बेहतर होता है
Llama 3.1 405B के लिए Cerebras Inference अभी customer trial के रूप में उपलब्ध है
- general availability Q1 2025 के लिए planned है
- pricing input के लिए प्रति 1 million tokens $6 और output के लिए प्रति 1 million tokens $12 है
- output pricing AWS, Azure और GCP से 20% कम है
Meta के open approach और Cerebras की inference technology के combination से Llama 3.1 405B closed frontier models की तुलना में 10 गुना से भी ज्यादा तेज चलता है, ऐसा बताया गया है
- इसे voice, video और reasoning applications के लिए उपयुक्त आधार के रूप में पेश किया गया है, जहां low latency और कई inference steps महत्वपूर्ण होते हैं

1 टिप्पणियां

GN⁺ 2024-11-20

Hacker News की राय

सचमुच हैरान कर देने वाली तेज़ी। 8x H100 cluster पर खुद implement किया हुआ Llama 3.1 70B भी 100 tokens/sec पार करना मुश्किल है, तो वे यह कैसे कर रहे हैं, जानने की उत्सुकता है
आम techniques, जैसे speculative decoding या FlashAttention भर से तो इसके आस-पास भी पहुंचना मुश्किल लगता है; कम-से-कम multi-node inference या sparse attention जैसी चीज़ें चाहिए लगती हैं
- Cerebras ने लगभग 10 लाख core वाला CPU बनाया है, और GPU पर नहीं बल्कि उसी पर inference करता है। पूरी तरह अलग architecture है, इसलिए network बीच में नहीं आता
  संभव है कि इसका काफी हिस्सा HBM से ज्यादा CPU cache की तरफ process हो रहा हो। chip design समझने के लिए TechTechPotato के Cerebras वाले YouTube videos recommend करूंगा
- यह 8x H100 से कई गुना बड़े area वाले custom silicon पर कर रहे हैं। execution/runtime optimizations तो स्वाभाविक हैं, लेकिन मुख्य अंतर शायद भारी transistor count है
  https://cerebras.ai/product-chip/
- chip थाली जितनी बड़ी है। फोटो देखने पर अंदाज़ा हो जाता है: https://cerebras.ai/product-chip/
- Cerebras एक chip company है और GPU इस्तेमाल नहीं करती। यह chip wafer-scale integration इस्तेमाल करती है, इसलिए physically एक पूरे wafer के आकार की है; यानी दर्जनों GPUs को एक में जोड़ देने जैसा
  on-chip memory सीमित है और पूरी SRAM है; प्रति wafer HBM bandwidth कितनी है, यह स्पष्ट नहीं। यह GPU cluster पर चलाने से बिल्कुल अलग optimization problem है
- बड़ा राज़ दो चीज़ों में है। chip बेहद बड़ी है, और memory के लिए SRAM इस्तेमाल करती है, जो GPU के HBM से कहीं तेज़ है
  असल में यही इसके इतना तेज़ होने की मुख्य वजह है। Groq को भी इसी वजह से speed मिलती है
मुझे पक्का नहीं कि यहां latency की तुलना सचमुच समान conditions में हो रही है। latency मोटे तौर पर तीन हिस्सों में बंटती है: context/prompt throughput, hardware access का इंतज़ार करने वाला queue time, और network जैसा सामान्य API overhead
मेरी समझ है कि comparison में शामिल कई services, शायद सभी, reserved capacity based नहीं हैं, इसलिए measured values में queue time शामिल है। LLM में यह समय काफी बड़ा हो सकता है। इसके उलट Cerebras के आंकड़ों में guaranteed hardware access मिला होने की संभावना अधिक है, इसलिए endlessly बढ़ने वाला queue time शायद लगभग शामिल नहीं होगा
throughput अपने-आप में शानदार है, लेकिन end user को कम latency पर वह throughput देने के लिए over-provisioning चाहिए, और queue का इस पर क्या असर पड़ेगा, यह स्पष्ट नहीं। यह भी जानना चाहूंगा कि model पहले से ready machine पर था या जरूरत पड़ने पर model loading time भी शामिल है। fine-tuned model इस्तेमाल करने पर latency बदलती है या नहीं, यह भी देखना होगा
Cerebras machine को 100% utilize करते हुए लगातार 1,000 tokens/sec निकाल सकने वाले batch jobs के लिए यह निश्चित रूप से फायदेमंद लगता है
- मान भी लें कि सब कुछ ideal conditions में है, तब भी यह जबरदस्त है। batch size 1 पर, 405B parameter model 1,000 tokens/sec — अविश्वसनीय रूप से तेज़
current generation models में RAG, multi-agent, code interpreter तक जोड़कर जो चीज़ें की जा सकती हैं, उन्हें देखते हुए अब दीवार accuracy नहीं बल्कि model latency के ज्यादा करीब है
405B-class model में इतना token throughput मिले, तो बहुत सारे interactive experiences संभव हो जाएंगे
- मुझे समझ नहीं आता कि runbook outage resolve करने में कैसे मदद करती है। मुझे लगता है हर outage नया होना चाहिए, क्योंकि root cause fix किया जाता है
  इसलिए हर बार code या recently deployed code में गहराई से जाना और operational metrics से correlation देखना पड़ता है। या फिर आपका मतलब है कि वह runbook बस rollback procedure है?
स्पष्ट कर दें, Cerebras की एक chip पूरा wafer इस्तेमाल करती है, फिर भी उस पर सिर्फ 44GB SRAM है। bf16 precision में 405B model चढ़ाने के लिए, KV cache और activation memory छोड़कर भी ऐसी “chips” 19 चाहिए
sequence length बढ़े तो KV cache के कारण जरूरत और बढ़ती है। खोजने पर पता चलता है कि एक wafer में लगभग 60–80 H100 chips आ सकती हैं, तो wafer manufacturing cost के हिसाब से यह 1,500 से ज्यादा H100 इस्तेमाल करने जैसा है
- ये कंपनियां इस technology पर जितना budget खर्च कर रही हैं, वह सचमुच कल्पना से परे है
- सोचता हूं wafer cost असल chip price में कितना बड़ा हिस्सा होती है
सचमुच impressive performance है। मुझे लगता है Nvidia द्वारा Cerebras acquisition की कोशिश करने की संभावना काफी अधिक है
- Cerebras IPO पर विचार कर रही है। acquisition की संभावना कम लगती है। फिर भी अगर acquire हुई, तो Facebook या MS के लिए शायद ज्यादा valuable होगी
API try करने के लिए waitlist में जाना पड़ता है। अगर कोई company ऐसे दावे करती है लेकिन service खरीदने के लिए उपलब्ध नहीं कराती, तो कुछ हद तक skeptical रहना जरूरी है
AI chip startups में Cerebras शायद सच में असली खिलाड़ी लगती है
- Groq भी असली है। हालांकि Cerebras अब तक Groq जितनी व्यापक scale पर फैली नहीं दिखती। आगे देखना होगा
- timing बिल्कुल IPO के लिए फिट बैठती है
सीधे competitor Groq का कोई ज़िक्र नहीं?
- Groq का paid customer होने के नाते मैं संतुष्ट हूं, लेकिन 405B क्षेत्र में वह Cerebras से compete नहीं कर सकता
  Groq की खूबी यह है कि वह enterprise से छोटे paid customers भी लेता है, और Cerebras की तरह बहुत selective access देने के बजाय कई models को व्यापक रूप से उपलब्ध कराता है। लेकिन pure speed और सबसे बड़े models के लिहाज से Groq की तुलना मुश्किल है
- Sambanova का भी अक्सर ज़िक्र नहीं होता [0]। co-founders में से एक “multicore processor के पिता” के रूप में जाने जाते हैं [1]
  [0]: https://sambanova.ai/
  [1]: https://en.wikipedia.org/wiki/Kunle_Olukotun
ऐसी latency पर service देने की cost कितनी होगी, यह जानना चाहूंगा। customer की नजर से fixed cost pricing strategy पर निर्भर होगी, लेकिन अंततः cost ही इस technology की adoption range तय करेगी
अहम बात यह है कि क्या यह सिर्फ उन businesses के लिए fit है जिन्हें सचमुच latency चाहिए, या सामान्य तौर पर deploy करने लायक level पर है
- क्या ऐसा हो सकता है कि सभी लोग giant chips बनाएं और SRAM इस्तेमाल करना standard बन जाए?
  SRAM manufacturers कितने हैं? या क्या इसे अनिवार्य रूप से chip के अंदर पूरी तरह integrated होना पड़ता है?
अगर नए hardware से ऐसा performance improvement संभव है, तो training performance को hardware से और कितना आगे बढ़ाया जा सकता है, यह जानने की उत्सुकता है
- अगर machine learning side में बड़ा बदलाव नहीं होता, तो शायद यह बहुत विशाल नहीं होगा। यहां दो axes हैं: efficiency improvement और compute improvement
  compute बढ़ाना speed बढ़ाने का सबसे स्पष्ट तरीका है, लेकिन किसी खास process node और datatype precision पर हम physical limits के काफी करीब लगते हैं। पक्का proof देना मुश्किल है, लेकिन कुछ आधार हैं। LLM का basic operation, matrix multiplication, CPU workloads के विपरीत बहुत simple है, इसलिए control-flow logic जैसे हिस्से काफी कम किए गए हैं। power का बड़ा हिस्सा matrix multiplication पर ही खर्च होता है, और matrix multiplication सच में power-constrained है[1]। precision बदलने से फायदा हो सकता है, लेकिन यह कठिन है; हम पहले ही fp8 जैसी बहुत low precision इस्तेमाल कर रहे हैं, और fp8 तो 17 भी represent नहीं कर सकता। recent research भी limits दिखाती है
  LLM training efficiency को “model FLOPS utilization (MFU)” नामक बहुत कठोर metric से मापा जाता है। इसमें hardware जो theoretical FLOPS दे सकता है, उसे math operations implement करने के लिए जरूरी theoretical FLOPS से divide किया जाता है। सिर्फ FSDP से भी 30% आसानी से मिल जाता है, और 50–60% भी असंभव या unprecedented नहीं है। inefficiency मुख्य रूप से इसलिए आती है कि 1) hardware कई कारणों से advertised FLOPS वास्तव में नहीं दे पाता और 2) tens of thousands machines के बीच terabytes data sync करना पड़ता है। theoretical limit 2x है, लेकिन practically और निचोड़ने की गुंजाइश बहुत ज्यादा नहीं है
  आगे के gains ज्यादातर Nvidia margins घटाने वाले TPU, process node improvements, B100 जैसे datatype reductions, या महंगी chip-to-chip communication घटाने के लिए chip size बढ़ाने पर केंद्रित होंगे। same precision और same process node पर 10x improvement की गुंजाइश नहीं दिखती
  [1]: https://www.thonking.ai/p/strangely-matrix-multiplications
- अंतिम समाधान शायद LLM को pure ASIC में बदलना होगा
  performance करीब 10x बढ़ सकती है, लेकिन यह बहुत महंगा solution होगा

Cerebras Inference ने Llama 3.1 405B पर प्रति सेकंड 969 टोकन प्रोसेस किए

Llama 3.1 405B performance record

Latency, availability schedule और pricing

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय