1 पॉइंट द्वारा GN⁺ 2024-06-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

दुनिया का सबसे तेज़ वॉइस बॉट डेमो

डेमो परिचय

  • स्पीड का महत्व: वॉइस AI इंटरफ़ेस में स्पीड बहुत महत्वपूर्ण है। लोग सामान्य बातचीत में तेज़ प्रतिक्रिया की उम्मीद करते हैं।
  • लक्ष्य: यह डेमो 500ms से कम वॉइस प्रतिक्रिया समय को लक्ष्य बनाते हुए लो-लेटेंसी LLM इंटरैक्शन दिखाता है।
  • तकनीक: यह बॉट Pipecat नाम के एक open source framework का उपयोग करके बनाया गया है।

डेमो आज़माएँ

  • डेमो ट्राय करें: आप डेमो को सीधे आज़मा सकते हैं।
  • सोर्स कोड देखें: आप सोर्स कोड देख सकते हैं।
  • खुद deploy करें: अपने environment में deploy करने का विकल्प दिया गया है।

GN⁺ की राय

  • स्पीड का महत्व: वॉइस इंटरफ़ेस में तेज़ प्रतिक्रिया user experience को काफ़ी बेहतर बनाती है।
  • open source के फ़ायदे: Pipecat जैसे open source framework डेवलपर्स के लिए उपयोगी हैं क्योंकि उन्हें आसानी से एक्सेस और modify किया जा सकता है।
  • तकनीक अपनाने पर विचार: नई तकनीक अपनाते समय मौजूदा systems के साथ compatibility, maintenance cost आदि पर विचार करना चाहिए।
  • मिलते-जुलते प्रोजेक्ट्स: Google का Dialogflow और Amazon का Lex जैसे अन्य वॉइस AI solutions भी मौजूद हैं।

1 टिप्पणियां

 
GN⁺ 2024-06-28
Hacker News टिप्पणियाँ
  • स्पीड: कस्टमर सर्विस AI में रिस्पॉन्स टाइम को कुछ सेकंड तक घटा दिया गया। स्पीड हर चीज़ पर भारी पड़ती है।
  • वॉइस इन्फरेंस: OpenAI के gpt4o रिलीज़ से पहले Websocket Faster Whisper लागू किया गया। VAD की विश्वसनीयता समस्याओं के कारण Push to talk इस्तेमाल किया गया।
  • क्रॉस-प्लेटफ़ॉर्म VAD: Silero के VAD नेटवर्क को ONNX में पोर्ट किए गए क्रॉस-प्लेटफ़ॉर्म ब्राउज़र VAD मॉड्यूल का परिचय। Firefox में भी काम करता है।
  • ब्राउज़र TTS: ब्राउज़र टेक्स्ट-टू-स्पीच इंजन लगातार तेज़ हो रहे हैं और उनकी गुणवत्ता बेहतर हो रही है। GPT-4o कम latency के लिए automatic speech recognition, understanding, और response generation models को एक में एकीकृत करता है।
  • ऐप क्षमता: यह Cerebrium के teaser app जैसा दिखता है। iPad पर टेस्ट करने पर latency 1400ms से 400ms तक अलग-अलग थी।
  • संवादी अनुभव: तेज़ रिस्पॉन्स conversational experience को बेहतर बनाता है। छोटा context बनाए रखकर कम response time हासिल किया गया।
  • Whisper-dictation: llama-70b के साथ Whisper-dictation का इस्तेमाल। वेबसाइट लोड होने के दौरान ही बोलना पूरा हो गया।
  • प्राकृतिक बातचीत: VAD और interruption tuning बहुत प्राकृतिक है। यह सबसे प्राकृतिक बातचीत का अनुभव है।
  • साझा करना: दूसरों को अपने समाधान साझा करने के लिए प्रोत्साहित किया गया। वीकेंड पर अलग-अलग implementation तरीकों को देखने की योजना है।
  • मार्केटिंग और गणित: मार्केटिंग में 500 कहा जाता है, लेकिन गणितीय रूप से यह 759 है, ऐसा बताया गया।
  • तेज़ इंटरफ़ेस: इंटरफ़ेस बहुत तेज़ है और इंसान से लगभग अलग नहीं किया जा सकता। Cerebrium.ai की प्रशंसा की गई।