11 पॉइंट द्वारा xguru 2024-01-31 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • WhisperLive और WhisperSpeech की क्षमताओं के आधार पर Mistral LLM के साथ एकीकृत होकर AI के साथ सहज बातचीत प्रदान करता है
    • WhisperLive : OpenAI के Whisper को लगभग real-time में चलाने के लिए लागू किया गया है, जिससे speech को text में बदला जा सके
    • WhisperSpeech : Whisper को उलटकर बनाया गया TTS system
  • LLM और Whisper दोनों को TensorRT engine पर कुशलतापूर्वक चलाने के लिए optimize किया गया है, ताकि performance और real-time processing क्षमता अधिकतम हो सके, और WhisperSpeech को torch.compile से optimize किया गया है

3 टिप्पणियां

 
kleinstein 2024-02-02

अगर real-time अनुवाद हो जाए तो यह तेज़ और अच्छा रहेगा।

 
xguru 2024-01-31

Hacker News की राय

  • बातचीत वाले परिदृश्य को सही ढंग से काम करने के लिए दो चीज़ें चाहिए:
    • इंटरप्ट फीचर: जब उपयोगकर्ता "एक सेकंड" कहे, तो LLM को रुक सकना चाहिए।
    • खास संकेत पर प्रतिक्रिया: सिस्टम को "तुम्हें क्या लगता है?" जैसे किसी खास संकेत का इंतज़ार करके प्रतिक्रिया देनी चाहिए।
    • इन दो चीज़ों के अलावा कम latency भी ज़रूरी है, ताकि ऐसा लगे जैसे किसी इंसान से बात हो रही है।
  • WhisperFusion, WhisperLive और WhisperSpeech जैसे प्रोजेक्ट्स में दिलचस्पी जताई गई है, और हर सिस्टम की latency तथा WhisperLive के WER (Word Error Rate) आँकड़ों के बारे में जिज्ञासा है। यह भी कहा गया है कि इन मॉडलों के बारे में अहम जानकारी कम लगती है।
  • प्रोजेक्ट को बढ़िया बताया गया, लेकिन कहा गया कि समस्या ज़्यादातर packaging की है:
    • कई Python applications पर आलोचना की गई कि वे setuptools के आधे हिस्से को धीमे और bug से भरे तरीके से फिर से लागू कर रही हैं।
    • इस बात पर सवाल उठाया गया कि TensorRT मुख्य functionality को examples directory में क्यों बाँट रहा है।
    • huggingface_cli के बारे में कहा गया कि नाम से कुछ डाउनलोड करने का तरीका पहले से मौजूद है (जैसे PyPi index), और शायद वही तरीका models पर लागू करना बेहतर होगा।
  • Vocode प्रोजेक्ट पर हुई चर्चा को याद किया गया; कहा गया कि 10 महीने पहले इस पर बात हुई थी और डेमो आज़माने पर यह काफ़ी प्रभावशाली लगा। यह भी पूछा गया कि क्या कोई इसे अभी development या production environment में इस्तेमाल कर रहा है।
  • एक उपयोगकर्ता ने कल्पना की कि इस तकनीक को किसी dedicated app में लाया जाए, जो स्क्रीन पर मौजूद चीज़ों और टेक्स्ट को पहचानकर लगभग real-time में मदद देने वाला assistant बन सके।
  • यह पूछा गया कि Whisper को streaming transcription के लिए अच्छे तरीके से कैसे इस्तेमाल किया जाए, और इसी तरह के लक्ष्य वाले एक प्रोजेक्ट का ज़िक्र किया गया।
  • LLM वाले हिस्से का TGWUI+llama.cpp setup से कितना फ़र्क है या वह कितना मिलता-जुलता है, इसका सारांश माँगा गया। खास तौर पर यह सवाल उठाया गया कि उपयोगकर्ता के hardware पर "ultra-low latency" वास्तव में कैसे संभव होगी।
  • एक उपयोगकर्ता ने पूछा कि क्या यह प्रोजेक्ट पूरी तरह local पर चलता है, या OpenAI के remote system के लिए API access चाहिए। उसने कहा कि वह OpenAI का इस्तेमाल करके TTS और STT बना रहा है, लेकिन सिर्फ़ एक command का इंतज़ार करने के लिए लगातार audio stream OpenAI को भेजना नहीं चाहता।
  • इसे वही चीज़ बताया गया जो Siri और Alexa को होना चाहिए था, और कहा गया कि आने वाले कुछ वर्षों में ऐसी तकनीकें और ज़्यादा दिखेंगी। यह भी कहा गया कि अगर यह local पर चले और कोई स्थायी रिकॉर्ड न छोड़े, तो background listening की समस्या भी हल हो सकती है।
  • TensorRT के इस्तेमाल का ज़िक्र करते हुए पूछा गया कि कौन-कौन से GPU supported हैं, और क्या यह Jetson पर चल सकता है।