Groq, Mixtral 8x7B-32k को 500 T/s पर चलाता है

(groq.com)

1 पॉइंट द्वारा GN⁺ 2024-02-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

AI सेवाओं में जब response speed और inference cost bottleneck बन जाते हैं, Groq तेज़ और कम-लागत वाले inference infrastructure को सामने रखता है
इसका फर्क GPU-केंद्रित approach नहीं, बल्कि 2016 से inference के लिए खास तौर पर विकसित LPU-based stack का उपयोग है
GroqCloud दुनिया भर के datacenters में LPU stack चलाकर low latency देता है, और बताता है कि इसे 30 लाख developers और teams इस्तेमाल करते हैं
Developers OpenAI-compatible client में सिर्फ base_url और GROQ_API_KEY बदलकर अपेक्षाकृत आसानी से integrate कर सकते हैं
Fintool ने GroqCloud अपनाने के बाद chat speed 7.41 गुना तेज़ और cost 89% कम होने की बात कही, और McLaren Formula 1 Team ने भी Groq को inference partner चुना

तेज़ और कम-लागत वाला inference platform

Groq AI में inference को मुख्य ईंधन मानता है, और वास्तविक workloads में भी स्थिर रूप से काम करने वाला तेज़ और कम-लागत inference platform पेश करता है
Homepage का मुख्य संदेश कुछ ऐसा है: “वास्तविक परिस्थितियों में भी बिना डगमगाए तेज़ और कम-लागत inference”
इसकी स्थापना 2016 में हुई थी, और कंपनी अपने स्थापना-उद्देश्य को सिर्फ inference पर केंद्रित बताती है

LPU से बना inference-dedicated stack

Groq, अन्य कंपनियों के GPU पर निर्भर रहने के उलट, अपने custom silicon को मुख्य ताकत बनाता है
2016 में उसने LPU की शुरुआत की, और इसे inference के लिए खास तौर पर बनाया गया पहला chip बताता है
LPU के design choices intelligent model responses को तेज़ और कम-लागत बनाए रखने पर केंद्रित हैं
“Benchmarks नहीं, workloads असल में deploy होते हैं” वाले संदेश के साथ यह real deployment environment पर जोर देता है

दुनिया भर के datacenters और GroqCloud

LPU-based stack दुनिया भर के datacenters में चलता है, और low-latency responses देने पर केंद्रित है
यह premise रखते हुए कि inference local रूप से चलने पर सबसे बेहतर होता है, Groq model responses को users के अधिक नज़दीक location से देने वाली configuration पर जोर देता है
GroqCloud एक cloud service है जिससे developers तेज़ और कम-लागत inference इस्तेमाल कर सकते हैं
Groq बताता है कि 30 लाख developers और teams Groq का उपयोग करते हैं

OpenAI-compatible developer integration

Groq OpenAI-compatible integration पर जोर देता है, और बताता है कि “दो lines” में switch किया जा सकता है
Python example में openai.OpenAI client में ये values set की जाती हैं
- base_url="https://api.groq.com/openai/v1";
- api_key=os.environ.get("GROQ_API_KEY")
Developers Groq console से शुरू कर सकते हैं या free API key जारी कराकर इस्तेमाल कर सकते हैं

Customer cases और partnerships

McLaren Formula 1 Team को global inference के लिए Groq चुनने वाले partner case के रूप में पेश किया गया है
McLaren F1 Team ने decision-making, analysis, development और real-time insights के लिए Groq को चुना
PGA of America के CTO Kevin Scott कहते हैं कि performance ज्यादा अहम होने वाले tasks में वे Groq का उपयोग करते हैं
Fintool के CEO Nicolas Bustamante ने GroqCloud अपनाने के बाद ये बदलाव अनुभव किए
- Chat speed में 7.41 गुना बढ़ोतरी
- Cost में 89% कमी
- Token consumption में 3 गुना बढ़ोतरी
Opennote के CTO Abhigyan Arya ने बताया कि Groq ने cost savings और operational burden में कमी पैदा की, और students के लिए premium plan की pricing को reasonable बनाए रखने में मदद की

साथ में प्रकाशित news items

Groq Raises $750 Million as Inference Demand Surges: 17 सितंबर 2025 का item
Day Zero Support for OpenAI Open Models: 5 अगस्त 2025 का item
From Speed to Scale: How Groq Is Optimized for MoE & Other Large Models: 27 मई 2025 का item

1 टिप्पणियां

GN⁺ 2024-02-21

Hacker News की राय

यह मेरी ज़िंदगी में देखे गए सबसे प्रभावशाली टेक डेमो में से एक है, और यह बात अच्छी लगी कि बिना साइन-अप के कोई भी इसे तुरंत आज़मा सकता है — एक वास्तविक public demo
tokens जिस पागलपन भरी रफ़्तार से निकलते दिखते हैं, वह लगभग अवास्तविक लगता है, और मैं आम तौर पर इसकी 1/5 से भी कम स्पीड का आदी हूँ, इसलिए और भी हैरानी होती है। यह भी अजीब लगता है कि Microsoft, Apple, Google जैसी किसी कंपनी ने अभी तक इसे भारी premium देकर acquire नहीं किया
- अगर मैंने सही समझा है, तो हर chip में 200MB RAM है, यानी एक single LLM चलाने के लिए कई racks चाहिए होंगे, और यह कोई प्रगति जैसा नहीं लगता
  ज़रूरत तो एक single PCIe board की है जिसमें दर्जनों से सैकड़ों GB RAM हो और उसे अच्छे से संभालने वाला processor हो
- Perplexity Labs में भी Mixtral 8x7b का public demo है, लेकिन यह इतना तेज़ नहीं है
  https://labs.perplexity.ai/
- मुझे सच में समझ नहीं आ रहा कि यह इतना बड़ा मामला क्यों है, और मैं जानना चाहता हूँ
  असली सवाल है TFLOPS/$ और TFLOPS/W कितने हैं, और Nvidia, AMD, TPU की तुलना में यह कहाँ खड़ा है। ऊपर-ऊपर देखने पर लगता है कि Groq 2020 से ऐसे ही दावे करता आ रहा है, फिर भी लोग अब भी Nvidia के लिए भारी premium दे रहे हैं, और ऐसा नहीं लगता कि Groq उस बाज़ार को बहुत हिला रहा है। ChatGPT से काफ़ी छोटे model को लगभग बराबर या उससे ताकतवर hardware पर चलाने से वह तेज़ हो सकता है, लेकिन इसका मतलब यह नहीं कि यह उन ज़्यादातर models या use cases के लिए breakthrough है जहाँ latency मुख्य metric नहीं है
- बेचना ही क्यों? उनके ही खेल में उन्हें हराना कहीं ज़्यादा मज़ेदार लगेगा
Groq LPU की मुख्य समस्या यह है कि इसमें HBM बिल्कुल नहीं है, और केवल बहुत छोटी अत्यंत तेज़ SRAM 230MiB है
यह HBM3 से 20 गुना तेज़ ज़रूर है, लेकिन इसकी वजह से एक single model serve करने के लिए लगभग 256 LPU चाहिए होते हैं, यानी करीब 4 server racks। दूसरी ओर, केवल एक H200 से भी ऐसे models काफ़ी व्यावहारिक ढंग से serve किए जा सकते हैं। अगर बहुत सारे customers के लिए केवल एक ही model है, तो यह ठीक बैठ सकता है, लेकिन जैसे ही कई models, बहुत से fine-tunes और high-rank LoRA की ज़रूरत पड़ती है, यह इस्तेमाल में कठिन हो जाता है। यह on-premise deployment के लिए भी उपयुक्त नहीं है, क्योंकि इसकी मुख्य ताकत कई users को एक ही model पर समेटने में है
https://wow.groq.com/groqcard-accelerator/
https://twitter.com/tomjaguarpaw/status/1759615563586744334
- Groq engineer के नज़रिए से देखें तो यह समझना मुश्किल है कि single card या single node से बाहर compute को scale कर पाना समस्या क्यों माना जा रहा है
  मुझे car factory वाली उपमा पसंद है: एक या दो drill से भी कार बनाई जा सकती है, लेकिन आधुनिक automated factory में सैकड़ों drills होती हैं। एक drill से आप कई तरह की कारें बना सकते हैं, लेकिन factory assembly line केवल एक खास configuration की कार बनाएगी। इसका मतलब यह नहीं कि factory inefficient है। यह कहना कि H200 काफ़ी अच्छा काम करता है, synchronous human interaction वाले use cases में उचित हो सकता है, लेकिन इस पर बहस हो सकती है। मैं Nvidia से 30B+ parameter model का ऐसा demo देखना चाहूँगा जो बातचीत के दौरान RAG भी करे और 1 सेकंड के अंदर voice response भी दे
- Groq ने लेख में बताया है कि इस नतीजे के लिए उसने 576 chips इस्तेमाल किए
  इसमें यह भी जोड़ना होगा कि हर user के लिए अलग KV cache चाहिए, जो प्रति user कुछ अतिरिक्त GB तक हो सकता है। एक independent observer के रूप में मेरा पेशेवर आकलन है कि ऐसे performance numbers पाने के लिए cost of goods sold शायद कई million dollars से ऊपर जाती होगी, और इसे अनुमानित usage पर amortize करके public theoretical pricing से मिलाना अव्यावहारिक लगता है। dollars के बदले वास्तविक performance के लिहाज़ से यह कम viable दिखता है, लेकिन cost को नज़रअंदाज़ करें तो यह वाकई पागलपन-स्तर का performance दिखाने वाला बहुत शानदार demo है
  https://www.nextplatform.com/2023/11/27/groq-says-it-can-dep...
- अगर लक्ष्य low latency है, तो HBM के साथ बहुत सावधानी बरतनी होगी। केवल latency ही नहीं, non-determinism भी समस्या है
  LPU architecture का बड़ा फ़ायदा यह है कि तेज़ interconnect के साथ सैकड़ों chips वाला system बनाया जा सकता है और फिर भी पूरे system की सटीक timing ppm स्तर तक जानी जा सकती है। जैसे ही आप non-deterministic components जोड़ना शुरू करते हैं, latency guarantee बहुत जल्दी गायब हो जाती है
- Groq devices, SRAM की वजह से, small-batch inference के लिए बहुत उपयुक्त लगते हैं
  लेकिन tokens/second/dollar का कोई फ़ायदा है या नहीं, इस पर मुझे भरोसा नहीं है, खासकर उन medium-to-large batch users के लिए जो बहुत silicon खरीद सकते हैं। architecture के हिसाब से लगता है कि batch size 1 से ऊपर जाने पर भी Groq शायद तेज़ नहीं होगा, जबकि Nvidia cards में batch size 100 के स्तर पर पहुँचने पर throughput में सार्थक सुधार दिख सकता है
- एक base model और कई LoRA को इस तरह लोड करना संभव हो सकता है कि base model जितनी RAM से लगभग ज़्यादा RAM न लगे
  fine-tuning को weights के केवल लगभग 0.1% में बदलाव तक सीमित किया जा सकता है, और हर computation पर weight differences की बजाय output layer activations के differences की गणना की जा सकती है
ऊपर से देखने पर यह बहुत प्रभावशाली लगता है। लेकिन benchmarks के बिना इसे कुछ हद तक संदेह के साथ देखना बेहतर है
क्योंकि speed बढ़ाने के लिए quality की कीमत पर strong quantization जैसे कई workaround मौजूद हैं। अगर ऐसा नहीं है, तो मैं LLM tokens/second में वही प्रगति देखना चाहूँगा जैसी कई दशक पहले CPU instructions/second में हुई थी
- मैं इस वैज्ञानिक दृष्टिकोण से सहमत हूँ कि मूल रूप से संदेहपूर्ण रुख रखना चाहिए
  chat app और API को इस तरह खुला रखा गया है कि कोई भी उन्हें आज़मा सके और दूसरे providers के साथ output quality की तुलना कर सके
- जैसा tome ने पहले कहा था, हम quantization नहीं करते, और सभी activations FP16 हैं
  स्वतंत्र benchmark भी मौजूद हैं: https://artificialanalysis.ai/models/llama-2-chat-70b
- पहले वाले Llama 70B demo में यह दावा किया गया था कि इसे बिना quantization के चलाया जा रहा है
  https://twitter.com/lifebypixels/status/1757619926360096852
  हालाँकि इस comment में कहा गया है, “कुछ data को store करते समय FP8 में store किया जाता है”, लेकिन उसका ठीक-ठीक मतलब क्या है, यह मुझे नहीं पता: https://news.ycombinator.com/item?id=39432025
- Groq benchmarking प्रक्रिया के दौरान quantization के बारे में पूछा गया था, और पुष्टि मिली कि model को पूर्ण FP-16 में चलाया जा रहा है
  जाँचने लायक अच्छा बिंदु है और यह महत्वपूर्ण हिस्सा है। benchmark link: https://artificialanalysis.ai/
  सवाल chat demo के बारे में नहीं बल्कि API के बारे में था
- शायद मैं इस analogy को ज़्यादा खींच रहा हूँ, लेकिन क्या LLM अब transistor era में प्रवेश कर चुके हैं?
  70B parameter के इस monster को देखकर कभी-कभी लगता है कि हम अभी भी vacuum tube से ENIAC बना रहे हैं। दूसरे शब्दों में, क्या अब हम हर साल LLM tokens/second को लगातार बेहतर करने के लिए तैयार हैं, या उससे पहले अभी एक-दो बड़े breakthroughs की ज़रूरत है?
मैं Groq में काम करता हूँ। जो चाहें पूछ सकते हैं
मेरे HN post history को देखें तो मैं Haskell की बहुत बात करता हूँ, और हाँ, Groq compile pipeline का कुछ हिस्सा Haskell में लिखा गया है
- यह शायद web interface bug हो सकता है, लेकिन Mixtral model में prompt डालकर response लेने के बाद मैंने dropdown को Llama पर बदला और वही prompt फिर से डाला, तो बिल्कुल वही response मिला
  यह caching हो सकता है, या जिस model से query होनी थी वह वास्तव में बदला नहीं, या कुछ और हो सकता है
- Haskell machine learning क्षेत्र में काफ़ी अनोखा लगता है
  जानना चाहता हूँ कि इस चुनाव के कोई विशेष फ़ायदे हैं या नहीं, और क्या आप इसे दूसरी teams को भी recommend करेंगे। यह भी जानना चाहूँगा कि project के कौन-से हिस्से Haskell का उपयोग करते हैं और कौन-से नहीं
- मेरी समझ के अनुसार आप specialized hardware से token generation की speed बढ़ा रहे हैं, और token generation काफी हद तक compute speed की latency से बंधा होता है
  लेकिन token generation में आम तौर पर सिर्फ 1D matrix multiplication की ज़रूरत होती है। यदि लगभग 100-token का prompt दिया जाए तो service काफ़ी धीमी हो जाती है, शायद इसलिए कि तब 2D matrices को multiply करना पड़ता है। जानना चाहता हूँ कि prompt processing compute speed बढ़ाने के लिए आप क्या कर रहे हैं
- आप उन लगभग इकलौती कंपनियों में से एक लगते हैं जो low-latency inference को लक्ष्य बना रही हैं और सिर्फ throughput तथा उससे जुड़ी per-inference cost पर केंद्रित नहीं हैं
  जानना चाहता हूँ कि आप अपना मुख्य market किसे मानते हैं
- AMA के लिए धन्यवाद। जानना चाहता हूँ कि demo चलाने के लिए कितने GroqCard इस्तेमाल हो रहे हैं, और क्या आप ऑनलाइन दिखने वाले 230MB SRAM से अधिक SRAM वाले नए hardware का उपयोग कर रहे हैं
  लगता है यह संख्या batch processing utilization और cost reduction को प्रभावित कर सकती है। साथ ही, अगर TTS pipeline को stack में integrate किया जा सके तो वास्तव में बहुत low-latency calls संभव लगती हैं। मैं मान रहा हूँ कि आप यही product इस्तेमाल कर रहे हैं: https://www.bittware.com/products/groq/
प्रभावशाली demo है
लेकिन hardware requirements और लागत की वजह से यह बड़े enterprises के बाहर पहुँचना मुश्किल लगता है। जानना चाहता हूँ कि hobby developers के लिए वह price range कब संभव हो सकती है। CNN Vapi demo भी प्रभावशाली था, लेकिन कुछ हफ्ते पहले साझा किया गया https://smarterchild.chat/ भी बहुत low voice latency के साथ स्वाभाविक बातचीत करने में सक्षम था। उस discussion को देखें तो लगता है कि इसे https://www.sindarin.tech/ ने बनाया है; जानना चाहता हूँ कि क्या वे Groq LPU का उपयोग करते हैं या कुछ और। मेरा मानना है कि लगभग 50 t/s तक पहुँचने पर real-time interaction संभव हो जाता है। उसके बाद यह बड़े पैमाने पर data generation को तेज़ करने में उपयोगी है, लेकिन यह मनुष्य की processing speed से बहुत आगे निकल जाता है, इसलिए महसूस होने वाला लाभ घट जाता है। AI-से-AI communication, knowledge/context transfer जैसी चीज़ों में यह उपयोगी हो सकता है। तो क्या ऐसा नहीं हो सकता कि सिर्फ AI-human interaction पर केंद्रित LPU product बहुत कम performance और बहुत कम लागत पर बनाया जाए?
https://news.ycombinator.com/item?id=39180237
- token API as a service access, किसी भी दूसरे provider की तुलना में per-token cost कम रखने की गारंटी देता है
  https://wow.groq.com देखें। hardware sales की ओर हम पूरे system की बिक्री पर ध्यान दे रहे हैं, और व्यवहार में यह सिर्फ enterprises या research institutions के लिए उपयुक्त है
- AI systems के साथ real-time interaction के लिए 50 t/s से कहीं अधिक speed अनिवार्य है
  LLM output का अधिकांश हिस्सा internal monologue, planning, RAG, summarization आदि में इस्तेमाल होगा, और सिर्फ final output ही user तक पहुँचेगा। कल्पना कीजिए कि बेहद तेज़ GPT-5 कुछ पलक झपकने के भीतर कई बार उत्तर की योजना बनाए, web search करे, पुस्तक समीक्षा लिखे, खुद से बहस करे, मिली हुई जानकारी को refine करे, जवाब की आलोचना करे और फिर उसे दोबारा लिखे
- Sindarin team का आकार लगभग 3 लोगों का लगता है, इसलिए यह मौजूदा तकनीकों को बहुत चतुराई से जोड़ने जैसा अधिक प्रतीत होता है
  real-time word-level transcription देने वाले voice APIs पहले से हैं, और Google के पास भी ऐसे विकल्प हैं। असली secret sauce संभवतः speech recognition → LLM → TTS के बीच बहुत अच्छी तरह डिज़ाइन की गई pipelining है। यह उनकी उपलब्धि को कम करके दिखाने के लिए नहीं कह रहा, बल्कि इसीलिए दिलचस्पी है कि उस परिणाम को दोबारा कैसे बनाया जा सकता है
यह हमेशा तेज़ नहीं होता; अगर आप जटिल सवाल पूछें या अलग लहजे में बोलने के लिए pre-prompt जोड़ें, तो लोड होने में अब भी समय लगता है
दिलचस्प है, लेकिन आखिरकार इसके विफल प्रयोग साबित होने की संभावना बड़ी लगती है
अगर पेज किसी खास फ़ॉन्ट तक पहुँच नहीं पाता, तो यह काम करने में विफल हो जाता है और अनुरोध को बार-बार retry करता रहता है
यह बात इसलिए पता चली क्योंकि ब्राउज़र ऐसे लगभग-tracker जैसी चीज़ों को डिफ़ॉल्ट रूप से ब्लॉक कर देता है
https://fonts.gstatic.com/s/notosansarabic/[...]
https://fonts.gstatic.com/s/notosanshebrew/[...]
https://fonts.gstatic.com/s/notosanssc/[...]
- यह शायद बिना Google tracker को सीधे वेबसाइट पर इंस्टॉल किए, Google को यह दिखाने का तरीका है कि अधिग्रहण के लक्ष्य के रूप में यह कितना लोकप्रिय और दिलचस्प है
- privacy plugin में font replacement इस्तेमाल करने की कोशिश करें तब भी वही समस्या होती है
  ऐसी dependency होना काफ़ी अजीब है
मैं इस क्षेत्र में थोड़ा भोला हूँ, इसलिए पूछना चाहता हूँ। इसमें प्रभावशाली क्या है?
जवाब जल्दी देने के लिए क्या बस ज़्यादा compute नहीं लगाया जा सकता? लोड होने पर queue बनती है, क्या यह सिर्फ़ प्रति इकाई समय संसाधित किए जा सकने वाले अनुरोधों की संख्या और तेज़ जवाब देने के लिए लगाए गए compute के बीच trade-off नहीं दिखाता? NVIDIA का यह चार्ट तो ऐसा लगता है कि H100 llama v2 70B को 500 tok/s से ज़्यादा पर चला देता है
https://raw.githubusercontent.com/NVIDIA/TensorRT-LLM/rel/do...
- compute बढ़ाने से throughput बेहतर हो सकता है, लेकिन tokens के बीच latency को आसानी से बेहतर नहीं किया जा सकता
  generation में आम तौर पर bottleneck वह समय होता है जो हर token पर network से गुजरने में लगता है। इसे तेज़ करने के लिए computation को ही तेज़ करना पड़ता है, और सबसे तेज़ accelerator या cache जैसे स्पष्ट विकल्प इस्तेमाल कर लेने के बाद यह कठिन समस्या बन जाती है
- LLM inference मूल रूप से एक sequential problem है
  इसे ज़्यादा parallel करने से यह तेज़ नहीं होता। 100वाँ token बनाने से पहले 101वाँ token नहीं बनाया जा सकता
- token throughput और latency अलग चीज़ें हैं
  token throughput पूरे GPU·system का throughput है, जबकि latency व्यक्तिगत उपयोगकर्ता के नज़रिए से token throughput है। Groq अत्यंत कम latency देता है, यानी प्रति उपयोगकर्ता बहुत ऊँचा token throughput, लेकिन पूरे system का कुल token throughput अभी उपलब्ध नहीं है। दूसरी ओर यहाँ Nvidia के metrics पूरे GPU·system का token throughput दिखाते हैं। वास्तव में अगर H100 पर 1.5k t/s मिल भी जाए, तो latency के हिसाब से प्रति उपयोगकर्ता token throughput 20 t/s जैसा बहुत कम हो सकता है। सच में महत्वपूर्ण metric है प्रति token लागत। Groq कम latency पर चला सकता है, इसका यह मतलब नहीं कि वह सस्ता भी होगा। एक उपयोगी approximation यह है कि system cost को पूरे system के tokens per second से विभाजित किया जाए, लेकिन Groq system का कुल tokens per second नहीं होने से इसकी efficiency पर कुछ कहना मुश्किल है, और अभी संभव है कि PR के लिए system cost को subsidize किया जा रहा हो और बाद में कीमत बढ़ा दी जाए
- आखिरकार यह इस बात पर निर्भर करता है कि मुख्य इन्फ्रास्ट्रक्चर लागत कितनी है
  H100 की उत्पादन लागत लगभग 3,300 डॉलर ही है, लेकिन औसतन यह लगभग 30,000 डॉलर में बिकता है
  https://www.hpcwire.com/2023/08/17/nvidia-h100-are-550000-gp...
- Nvidia ने शायद batch processing के आधार पर अधिकतम throughput लिखा है। उदाहरण के लिए, एक साथ 10 अलग-अलग prompt पर 50 tok/s प्रत्येक
  Groq LPU कच्ची गति में H100 से निश्चित रूप से आगे है। लेकिन मूल रूप से यह ऐसा system है जिसकी कीमत 500 गुना है और गति 10 गुना, और एक blockchain चलाने वाली कंपनी एक ऐसे chip को, जिसे मूल रूप से cryptocurrency mining के लिए बनाया गया था, LLM inference के लिए ज़ोरदार तरीके से मार्केट कर रही है। यह भी काफ़ी मज़ेदार संयोग है कि हर हफ़्ते जब कोई हैरान होकर यह लिंक पोस्ट करता है, तो कमेंट्स में Groq के engineer पहले से मौजूद रहते हैं और हर तरह के जवाब देने को तैयार रहते हैं
क्या इसका x.ai के Grok मॉडल से कोई संबंध नहीं है?
मैंने इसे इस्तेमाल किया, और इसकी गति सचमुच बहुत प्रभावशाली है
- Elon से इसका कोई संबंध नहीं है, और हमारे Groq ने यह नाम पहले इस्तेमाल किया था
  AI क्षेत्र में hacker spirit से जुड़ाव के कारण यह नाम स्वाभाविक चुनाव है, लेकिन trademark हमारे पास है, Elon के पास नहीं
  https://wow.groq.com/hey-elon-its-time-to-cease-de-grok/
- अगर यह टिप्पणी न होती, तो शायद मैं समझता कि यह Twitter ने बनाया है
- Grok नाम का एक बच्चों का खिलौना भी है जो LLM का उपयोग करके बच्चे से बात करता है
Groq और Mixtral दोनों ही दिमाग़ हिला देने वाले हैं
मैंने नीचे दिया गया prompt आज़माया: /frontend के नीचे एक Node frontend है जो yarn से package होता है और vite से build होकर /backend/public में जाता है, और backend एक Python Flask server है — ऐसे hybrid frontend/backend project के लिए GitLab CI yaml फ़ाइल बनाओ
- फिर भी इसने साधारण Python code में गलती की
  particles = np.zeros((2, 3)) # position, velocity, and acceleration
  particles[:, 0] = [0.0, 0.0, 0.0] # initial position

Groq, Mixtral 8x7B-32k को 500 T/s पर चलाता है

तेज़ और कम-लागत वाला inference platform

LPU से बना inference-dedicated stack

दुनिया भर के datacenters और GroqCloud

OpenAI-compatible developer integration

Customer cases और partnerships

साथ में प्रकाशित news items

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय