- Agent framework का उपयोग करके ऐसे AI-आधारित server program बनाए जा सकते हैं जो real time में देख, सुन और बोल सकें
- यह उपयोगकर्ता के device से LiveKit session के जरिए जुड़ता है, और text, audio, image, video streaming को संभालता है तथा AI model द्वारा बनाए गए परिणामों को उपयोगकर्ता तक stream करता है
- OpenAI के साथ सहयोग करके MultimodalAgent API प्रदान करता है
- OpenAI के Realtime API को पूरी तरह wrap करके Raw Wire protocol को abstract करता है, और GPT-4o तथा devices के बीच ultra-low-latency WebRTC transmission प्रदान करता है
- यह ChatGPT app के Advanced Voice feature में इस्तेमाल होने वाला tech stack है
- प्रदान की जाने वाली सुविधाएँ
- प्रसिद्ध LLM, transcription और text-to-speech services, तथा RAG databases के लिए plugins
- automatic turn detection, interruption handling, function calling और transcription capabilities के साथ voice agent या assistant बनाने के लिए high-level abstractions प्रदान करता है
- LiveKit के telephony stack के साथ compatible है, जिससे agent फोन कॉल कर सकते हैं या receive कर सकते हैं
- edge-based dispatch, monitoring, और transparent failover के साथ agent pool को manage करने वाली integrated load balancing system
- agent execution localhost, self-hosted और LiveKit Cloud environments में एक समान तरीके से काम करता है
1 टिप्पणियां
LiveKit - रीयल-टाइम कम्युनिकेशन प्लेटफ़ॉर्म ओपन सोर्स
LiveKit को मैंने 2021 में एक बार शेयर किया था। लगता है कि Agents फीचर तक विस्तार होने के बाद इसका इस्तेमाल ChatGPT में भी हुआ है।
मूल रूप से यह 10~1000 लोगों के स्तर की रीयल-टाइम ऑडियो/वीडियो कॉन्फ्रेंसिंग सुविधाओं के लिए बना प्रोडक्ट है।
यह ClubHouse द्वारा इस्तेमाल किए जाने वाले Agora का एक ओपन सोर्स विकल्प बन सकता था, इसलिए उस समय इसने काफ़ी ध्यान खींचा था।
और खोजने पर पता चला कि Agora भी Conversational AI SDK नाम से बिल्कुल वही फीचर दे रहा है.
https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/