यह तकनीकी डेमो बहुत प्रभावशाली है और यह अच्छी बात है कि बिना किसी साइन-अप के कोई भी इसे ट्राय कर सकता है, यानी यह सच में एक ओपन डेमो है।
किसी मॉडल से अब तक देखे गए किसी भी डेमो की तुलना में कहीं ज़्यादा तेज़ी से टोकन जेनरेट होते देखना लगभग अवास्तविक लगता है।
यह उल्लेखनीय है कि Microsoft, Apple और Google जैसी बड़ी कंपनियों ने अभी तक इसे acquire नहीं किया।
दूसरी टिप्पणी का सारांश:
Groq LPUs की बड़ी समस्या यह है कि इनमें HBM बिल्कुल नहीं है और केवल बहुत ही कम मात्रा में (230 MiB) ultra-fast SRAM मौजूद है।
सिर्फ एक मॉडल को सर्विस करने के लिए 256 LPUs (लगभग 4 server rack के बराबर) की जरूरत पड़ती है।
जब एक ही मॉडल के लिए कई ग्राहक हों तो यह ठीक है, लेकिन कई मॉडल और fine-tuning की जरूरत हो तो इसे चलाना कठिन हो जाता है।
तीसरी टिप्पणी का सारांश:
डेमो आकर्षक है, लेकिन बिना benchmark के इसे लेकर सावधान रहना बेहतर होगा।
LLM की स्पीड बढ़ाने के लिए मॉडल क्वालिटी की कुर्बानी देकर मॉडल को तेज़ करने के तरीके मौजूद हैं, जैसे model quantization।
LLM टोकन/सेकंड की प्रगति वैसी ही होनी चाहिए जैसी CPU instructions/सेकंड में कई दशक पहले देखने को मिली थी।
चौथी टिप्पणी का सारांश:
मैं Groq में काम करता हूँ; अगर कोई भी सवाल हो तो जब चाहें पूछें।
उन्होंने बताया कि Groq के कंपाइल पाइपलाइन का कुछ हिस्सा Haskell में लिखा गया है।
पाँचवीं टिप्पणी का सारांश:
डेमो प्रभावशाली है, लेकिन हार्डवेयर की जरूरत और खर्च के कारण शायद सिर्फ बड़े खिलाड़ी ही इसे एक्सेस कर पाएँ।
यह सवाल उठता है कि hobbyists के लिए कब किफायती होगा।
CNN Vapi डेमो भी प्रभावशाली था, लेकिन यह भी बताया कि अन्य सेवाएँ कम ऑडियो लेटेंसी के साथ अधिक प्राकृतिक बातचीत संभव बनाती हैं।
रियल-टाइम इंटरैक्शन के लिए जरूरत के टोकन/सेकंड threshold पर अपनी राय साझा की और यह सोचा कि इससे ऊपर की स्पीड AI-to-AI communication के लिए उपयोगी हो सकती है।
छठी टिप्पणी का सारांश:
यह सवाल उठता है कि अगर तकनीक इतनी प्रभावशाली है तो और अधिक compute डालकर response speed क्यों नहीं बढ़ाई जा सकती।
NVIDIA के चार्ट का हवाला देते हुए उन्होंने कहा कि H100 70B मॉडल को 500+ tokens/second से अधिक पर चला सकता है।
सातवीं टिप्पणी का सारांश:
यह मुद्दा इंगित किया गया कि यदि किसी specific font तक पहुँच नहीं बनती तो पेज नहीं चलता और request को बार-बार retry करना पड़ता है।
उन्होंने यह इसलिए पकड़ा क्योंकि उनका ब्राउज़र डिफ़ॉल्ट रूप से ऐसे trackers को ब्लॉक करता है।
आठवीं टिप्पणी का सारांश:
पूछा गया कि क्या यह तकनीक x.ai की Grok मॉडल से जुड़ी हुई है।
खुद कोशिश करने के बाद उन्होंने कहा कि गति देखकर वे बेहद impressed हुए।
नौवीं टिप्पणी का सारांश:
Groq और Mixtral दोनों के लिए उत्साह व्यक्त किया गया।
एक डेमो के दौरान GitLab CI YAML फाइल जनरेट करने के लिए specific prompt इस्तेमाल करने का अनुभव साझा किया।
दसवीं टिप्पणी का सारांश:
Groq की API performance भी लगभग इसी स्तर की दिखी।
*time-based performance benchmarks में लगातार 400 tokens/second से ऊपर बनाए रखने का उल्लेख किया।
1 टिप्पणियां
Hacker News टिप्पणियाँ
पहली टिप्पणी का सारांश:
दूसरी टिप्पणी का सारांश:
तीसरी टिप्पणी का सारांश:
चौथी टिप्पणी का सारांश:
पाँचवीं टिप्पणी का सारांश:
छठी टिप्पणी का सारांश:
सातवीं टिप्पणी का सारांश:
आठवीं टिप्पणी का सारांश:
Grokमॉडल से जुड़ी हुई है।नौवीं टिप्पणी का सारांश:
दसवीं टिप्पणी का सारांश: