- Tavus के सह-संस्थापक Hassaan और Quinn ने अपनी AI research company और video API development platform का परिचय दिया
- 2020 से वे 'digital twin' या 'avatar' के लिए AI video models विकसित कर रहे हैं
- उन्होंने इंसानों के साथ यथार्थवादी बातचीत के लिए AI video interface बनाने की चुनौतियाँ साझा कीं
चुनौतियाँ
- conversational video के प्रभावी होने के लिए बहुत कम लेटेंसी और conversation awareness ज़रूरी है
- दोस्तों के बीच तेज़ बातचीत में बोलने के बीच लगभग 250ms का अंतर होता है, लेकिन जटिल विषयों या नए लोगों के साथ बातचीत में अतिरिक्त 'सोचने' का समय चाहिए होता है
- 1000ms से कम लेटेंसी बातचीत को अधिक वास्तविक बनाती है
आर्किटेक्चर निर्णय
- लेटेंसी, scalability और cost के बीच संतुलन बनाना बड़ी चुनौती थी
- लेटेंसी घटाने के लिए उन्हें शुरुआत से सब कुछ फिर से बनाना पड़ा
- हज़ारों बातचीत को एक साथ support करते हुए भी computing cost कम रखनी थी
शुरुआती विकास
- शुरुआती development phase में हर conversation को अलग H100 पर चलाना पड़ता था
- यह scalable नहीं था और बहुत महँगा था
Phoenix-2 मॉडल विकास
- उन्होंने कई सुधारों के साथ नया मॉडल Phoenix-2 विकसित किया
- NeRF-आधारित backbone से Gaussian Splatting पर जाने से वे real-time से भी तेज़ frame generate कर सके
- memory और GPU core usage को optimize करके इसे low-end hardware पर भी चलने योग्य बनाया गया
- streaming vs batching, process parallelization जैसी अन्य विधियों का भी उपयोग समय और लागत घटाने के लिए किया गया
ऑप्टिमाइज़ेशन
- हर component (vision, ASR, LLM, TTS, video generation) को अत्यंत तेज़ बनाना पड़ा
- सबसे बड़ी समस्या LLM थी
- token per second (t/s) तेज़ होने पर भी अगर time to first token (ttft) धीमा हो, तो समस्या बनी रहती है
- अधिकांश providers बहुत धीमे थे
utterance end detection
- utterance end detection कठिन था
- सामान्य समाधान silence के बाद समय का उपयोग करके utterance end 'निर्धारित' करता है, लेकिन इससे अतिरिक्त लेटेंसी जुड़ती है
- सही timing रखना महत्वपूर्ण था ताकि AI एजेंट उपयोगकर्ता की बात बीच में न काटे
परिणाम
- इन optimizations से उन्होंने लेटेंसी को 3-5 सेकंड से घटाकर 1 सेकंड से कम, अधिकतम 600ms तक ला दिया
- low-end hardware पर भी 1 सेकंड से कम लेटेंसी हासिल की गई
- उनके कई ग्राहक हैं, जैसे Delphi, और digital twin के साथ बातचीत कुछ मिनटों से लेकर 4 घंटे तक चलती है
GN⁺ की संक्षिप्त जानकारी
- Tavus का AI video model इंसानों के साथ स्वाभाविक बातचीत को लक्ष्य बनाता है
- लेटेंसी कम करने के लिए आर्किटेक्चर को नए सिरे से बनाया और optimize किया गया
- Phoenix-2 मॉडल low-end hardware पर भी real-time से तेज़ frame generate कर सकता है
- यह तकनीक human-computer interface का एक महत्वपूर्ण हिस्सा बन सकती है
- समान क्षमताओं वाले अन्य projects में Google का Duplex शामिल है
1 टिप्पणियां
Hacker News की राय