1 टिप्पणियां

 
GN⁺ 2024-02-21
Hacker News टिप्पणियाँ
  • पहली टिप्पणी का सारांश:

    • यह तकनीकी डेमो बहुत प्रभावशाली है और यह अच्छी बात है कि बिना किसी साइन-अप के कोई भी इसे ट्राय कर सकता है, यानी यह सच में एक ओपन डेमो है।
    • किसी मॉडल से अब तक देखे गए किसी भी डेमो की तुलना में कहीं ज़्यादा तेज़ी से टोकन जेनरेट होते देखना लगभग अवास्तविक लगता है।
    • यह उल्लेखनीय है कि Microsoft, Apple और Google जैसी बड़ी कंपनियों ने अभी तक इसे acquire नहीं किया।
  • दूसरी टिप्पणी का सारांश:

    • Groq LPUs की बड़ी समस्या यह है कि इनमें HBM बिल्कुल नहीं है और केवल बहुत ही कम मात्रा में (230 MiB) ultra-fast SRAM मौजूद है।
    • सिर्फ एक मॉडल को सर्विस करने के लिए 256 LPUs (लगभग 4 server rack के बराबर) की जरूरत पड़ती है।
    • जब एक ही मॉडल के लिए कई ग्राहक हों तो यह ठीक है, लेकिन कई मॉडल और fine-tuning की जरूरत हो तो इसे चलाना कठिन हो जाता है।
  • तीसरी टिप्पणी का सारांश:

    • डेमो आकर्षक है, लेकिन बिना benchmark के इसे लेकर सावधान रहना बेहतर होगा।
    • LLM की स्पीड बढ़ाने के लिए मॉडल क्वालिटी की कुर्बानी देकर मॉडल को तेज़ करने के तरीके मौजूद हैं, जैसे model quantization।
    • LLM टोकन/सेकंड की प्रगति वैसी ही होनी चाहिए जैसी CPU instructions/सेकंड में कई दशक पहले देखने को मिली थी।
  • चौथी टिप्पणी का सारांश:

    • मैं Groq में काम करता हूँ; अगर कोई भी सवाल हो तो जब चाहें पूछें।
    • उन्होंने बताया कि Groq के कंपाइल पाइपलाइन का कुछ हिस्सा Haskell में लिखा गया है।
  • पाँचवीं टिप्पणी का सारांश:

    • डेमो प्रभावशाली है, लेकिन हार्डवेयर की जरूरत और खर्च के कारण शायद सिर्फ बड़े खिलाड़ी ही इसे एक्सेस कर पाएँ।
    • यह सवाल उठता है कि hobbyists के लिए कब किफायती होगा।
    • CNN Vapi डेमो भी प्रभावशाली था, लेकिन यह भी बताया कि अन्य सेवाएँ कम ऑडियो लेटेंसी के साथ अधिक प्राकृतिक बातचीत संभव बनाती हैं।
    • रियल-टाइम इंटरैक्शन के लिए जरूरत के टोकन/सेकंड threshold पर अपनी राय साझा की और यह सोचा कि इससे ऊपर की स्पीड AI-to-AI communication के लिए उपयोगी हो सकती है।
  • छठी टिप्पणी का सारांश:

    • यह सवाल उठता है कि अगर तकनीक इतनी प्रभावशाली है तो और अधिक compute डालकर response speed क्यों नहीं बढ़ाई जा सकती।
    • NVIDIA के चार्ट का हवाला देते हुए उन्होंने कहा कि H100 70B मॉडल को 500+ tokens/second से अधिक पर चला सकता है।
  • सातवीं टिप्पणी का सारांश:

    • यह मुद्दा इंगित किया गया कि यदि किसी specific font तक पहुँच नहीं बनती तो पेज नहीं चलता और request को बार-बार retry करना पड़ता है।
    • उन्होंने यह इसलिए पकड़ा क्योंकि उनका ब्राउज़र डिफ़ॉल्ट रूप से ऐसे trackers को ब्लॉक करता है।
  • आठवीं टिप्पणी का सारांश:

    • पूछा गया कि क्या यह तकनीक x.ai की Grok मॉडल से जुड़ी हुई है।
    • खुद कोशिश करने के बाद उन्होंने कहा कि गति देखकर वे बेहद impressed हुए।
  • नौवीं टिप्पणी का सारांश:

    • Groq और Mixtral दोनों के लिए उत्साह व्यक्त किया गया।
    • एक डेमो के दौरान GitLab CI YAML फाइल जनरेट करने के लिए specific prompt इस्तेमाल करने का अनुभव साझा किया।
  • दसवीं टिप्पणी का सारांश:

    • Groq की API performance भी लगभग इसी स्तर की दिखी।
    • *time-based performance benchmarks में लगातार 400 tokens/second से ऊपर बनाए रखने का उल्लेख किया।