- Realtime API के ऊपर बनाया गया React/ब्राउज़र के लिए वॉइस-कंट्रोल कॉम्पोनेंट
- आवाज़ के ज़रिए फ़ॉर्म इनपुट से लेकर कई तरह की कार्रवाइयों का निर्देश दिया जा सकता है, और उन पर प्रतिक्रिया देने वाले विजेट लागू किए जा सकते हैं
- tool-constrained UI पैटर्न प्रदान करता है, जिससे असिस्टेंट को सिर्फ़ वही कार्रवाइयाँ करने तक सीमित रखा जा सकता है जिन्हें ऐप ने अनुमति दी हो
- सेशन कनेक्शन, ऑडियो प्रोसेसिंग, टूल निष्पादन, और ट्रांसक्रिप्ट असेंबली को एक ही कंट्रोलर एकसाथ मैनेज करता है, इसलिए डेवलपर को WebRTC या Realtime प्रोटोकॉल सीधे संभालने की ज़रूरत नहीं होती
- मौजूदा ऐप में जोड़ते समय ऐप स्टेट का एकमात्र source of truth बनाए रखता है, और वॉइस लेयर केवल सीमित ऐप हैंडलरों को कॉल करती है
- यह कोई जनरल-पर्पज़ orchestration framework नहीं, बल्कि ब्राउज़र UI फ्लो के लिए विशेषीकृत opinionated पैकेज है; अगर non-React runtime या agent orchestration चाहिए, तो Raw Realtime या
openai-agents-js उपयोग करने की सलाह दी गई है
- मौजूदा ऐप इंटीग्रेशन के लिए
/session एंडपॉइंट प्रॉक्सी → voice adapter रैपर बनाना → टूल रजिस्टर करना → कंट्रोलर hoisting → विजेट mount करना तक की 9-स्टेप गाइड दी गई है
- कंट्रोलर डिफ़ॉल्ट रूप से
server_vad का उपयोग करता है, और tool-only session में interruptResponse: false सेट किया जाता है ताकि चल रही टूल कॉल नई आवाज़ से रद्द न हो
- डेमो ऐप में थीम स्विचिंग, multi-step form, shared-state chess flow, wake-word प्रयोग आदि जैसे कई इंटीग्रेशन परिदृश्य देखे जा सकते हैं
- Apache-2.0 लाइसेंस
अभी कोई टिप्पणी नहीं है.