HN पर खुलासा: 1 सेकंड से कम लेटेंसी वाला रीयल-टाइम AI वीडियो एजेंट

(news.ycombinator.com)

2 पॉइंट द्वारा GN⁺ 2024-10-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Tavus के सह-संस्थापक Hassaan और Quinn ने अपनी AI research company और video API development platform का परिचय दिया
2020 से वे 'digital twin' या 'avatar' के लिए AI video models विकसित कर रहे हैं
उन्होंने इंसानों के साथ यथार्थवादी बातचीत के लिए AI video interface बनाने की चुनौतियाँ साझा कीं

चुनौतियाँ

conversational video के प्रभावी होने के लिए बहुत कम लेटेंसी और conversation awareness ज़रूरी है
दोस्तों के बीच तेज़ बातचीत में बोलने के बीच लगभग 250ms का अंतर होता है, लेकिन जटिल विषयों या नए लोगों के साथ बातचीत में अतिरिक्त 'सोचने' का समय चाहिए होता है
1000ms से कम लेटेंसी बातचीत को अधिक वास्तविक बनाती है

आर्किटेक्चर निर्णय

लेटेंसी, scalability और cost के बीच संतुलन बनाना बड़ी चुनौती थी
लेटेंसी घटाने के लिए उन्हें शुरुआत से सब कुछ फिर से बनाना पड़ा
हज़ारों बातचीत को एक साथ support करते हुए भी computing cost कम रखनी थी

शुरुआती विकास

शुरुआती development phase में हर conversation को अलग H100 पर चलाना पड़ता था
यह scalable नहीं था और बहुत महँगा था

Phoenix-2 मॉडल विकास

उन्होंने कई सुधारों के साथ नया मॉडल Phoenix-2 विकसित किया
NeRF-आधारित backbone से Gaussian Splatting पर जाने से वे real-time से भी तेज़ frame generate कर सके
memory और GPU core usage को optimize करके इसे low-end hardware पर भी चलने योग्य बनाया गया
streaming vs batching, process parallelization जैसी अन्य विधियों का भी उपयोग समय और लागत घटाने के लिए किया गया

ऑप्टिमाइज़ेशन

हर component (vision, ASR, LLM, TTS, video generation) को अत्यंत तेज़ बनाना पड़ा
सबसे बड़ी समस्या LLM थी
token per second (t/s) तेज़ होने पर भी अगर time to first token (ttft) धीमा हो, तो समस्या बनी रहती है
अधिकांश providers बहुत धीमे थे

utterance end detection

utterance end detection कठिन था
सामान्य समाधान silence के बाद समय का उपयोग करके utterance end 'निर्धारित' करता है, लेकिन इससे अतिरिक्त लेटेंसी जुड़ती है
सही timing रखना महत्वपूर्ण था ताकि AI एजेंट उपयोगकर्ता की बात बीच में न काटे

परिणाम

इन optimizations से उन्होंने लेटेंसी को 3-5 सेकंड से घटाकर 1 सेकंड से कम, अधिकतम 600ms तक ला दिया
low-end hardware पर भी 1 सेकंड से कम लेटेंसी हासिल की गई
उनके कई ग्राहक हैं, जैसे Delphi, और digital twin के साथ बातचीत कुछ मिनटों से लेकर 4 घंटे तक चलती है

GN⁺ की संक्षिप्त जानकारी

Tavus का AI video model इंसानों के साथ स्वाभाविक बातचीत को लक्ष्य बनाता है
लेटेंसी कम करने के लिए आर्किटेक्चर को नए सिरे से बनाया और optimize किया गया
Phoenix-2 मॉडल low-end hardware पर भी real-time से तेज़ frame generate कर सकता है
यह तकनीक human-computer interface का एक महत्वपूर्ण हिस्सा बन सकती है
समान क्षमताओं वाले अन्य projects में Google का Duplex शामिल है

1 टिप्पणियां

GN⁺ 2024-10-02

Hacker News की राय

वेबसाइट और dial-up की आवाज़ पसंद आई, cowboy hat भी अच्छा लगा
दोनों avatars के साथ chat experience अच्छा नहीं था, बार-बार टूट रहा था और उलझाऊ था
image recognition अच्छा है, avatar के धीरे प्रतिक्रिया देने पर भी वह चीज़ों को पहचान पा रहा था
खास मुश्किलें साझा करने के लिए धन्यवाद, आगे चलकर यह और बेहतर होगा
Hassan version बेहतर था, उसने background को पहचाना और दीवार पर लगे model के बारे में बात की
- LEGO set के बारे में बातचीत की
बाथरूम में camera towel की तरफ़ था, फिर भी उसने कहा "काफ़ी cozy bathroom है"
ऐसा लगा जैसे किसी असली इंसान से बात कर रहा था, इसे code की तरह treat नहीं कर पाया
- इससे लोगों से बात करते समय किए जाने वाले सचेत प्रयास के बारे में सोचने लगा
- Google search करते समय मैं केवल minimum keywords ही इस्तेमाल करता हूँ
- चिंता है कि क्या यह तकनीक लोगों को इसी तरह व्यवहार करने के लिए train करेगी
अगर low-latency, multimodal AI में रुचि है, तो Tavus 19-20 अक्टूबर को SF में hackathon sponsor कर रहा है
- एक remote track भी है
demo capabilities: 9.5/10
- डरावनापन: 10/10
GPU deployment का अनुभव नहीं है, लेकिन यह महँगा लगता है और allocation पाना कठिन है
- सोच रहा हूँ कि cloud GPU resources को बड़े पैमाने पर कैसे संभालते हैं
- क्या हर websocket connection पर GPU allocate करते हैं, क्योंकि ऐसा है तो यह बहुत महँगा होगा
तकनीकी रूप से बहुत प्रभावशाली है, Carter avatar थोड़ा nervous लगता है
- मुँह/दाँत में कुछ अजीब है, लेकिन response तेज़ है
- Zoom में इससे ज़्यादा latency देखी है
- लगता है यह call center का भविष्य है, अगर avatar ज़्यादा expressive हो जाएँ तो CSAT और ऊँचा होगा
तकनीकी रूप से हैरान कर देने वाला काम, 1 सेकंड से कम response time बहुत प्रभावशाली है
- FaceTime पर किसी नकली इंसान से बात कर पाना डरावना है
- जानना चाहता हूँ कि social impact के बारे में क्या सोचते हैं
- आज इंसानी जुड़ाव की कमी के कारण loneliness crisis है
ChatGPT को बातचीत में विराम पहचानने में दिक्कत होती है
- यह हमेशा बीच में टोक देता है

HN पर खुलासा: 1 सेकंड से कम लेटेंसी वाला रीयल-टाइम AI वीडियो एजेंट

चुनौतियाँ

आर्किटेक्चर निर्णय

शुरुआती विकास

Phoenix-2 मॉडल विकास

ऑप्टिमाइज़ेशन

utterance end detection

परिणाम

GN⁺ की संक्षिप्त जानकारी

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय