• Realtime API के ऊपर बनाया गया React/ब्राउज़र के लिए वॉइस-कंट्रोल कॉम्पोनेंट
  • आवाज़ के ज़रिए फ़ॉर्म इनपुट से लेकर कई तरह की कार्रवाइयों का निर्देश दिया जा सकता है, और उन पर प्रतिक्रिया देने वाले विजेट लागू किए जा सकते हैं
  • tool-constrained UI पैटर्न प्रदान करता है, जिससे असिस्टेंट को सिर्फ़ वही कार्रवाइयाँ करने तक सीमित रखा जा सकता है जिन्हें ऐप ने अनुमति दी हो
  • सेशन कनेक्शन, ऑडियो प्रोसेसिंग, टूल निष्पादन, और ट्रांसक्रिप्ट असेंबली को एक ही कंट्रोलर एकसाथ मैनेज करता है, इसलिए डेवलपर को WebRTC या Realtime प्रोटोकॉल सीधे संभालने की ज़रूरत नहीं होती
  • मौजूदा ऐप में जोड़ते समय ऐप स्टेट का एकमात्र source of truth बनाए रखता है, और वॉइस लेयर केवल सीमित ऐप हैंडलरों को कॉल करती है
  • यह कोई जनरल-पर्पज़ orchestration framework नहीं, बल्कि ब्राउज़र UI फ्लो के लिए विशेषीकृत opinionated पैकेज है; अगर non-React runtime या agent orchestration चाहिए, तो Raw Realtime या openai-agents-js उपयोग करने की सलाह दी गई है
  • मौजूदा ऐप इंटीग्रेशन के लिए /session एंडपॉइंट प्रॉक्सी → voice adapter रैपर बनाना → टूल रजिस्टर करना → कंट्रोलर hoisting → विजेट mount करना तक की 9-स्टेप गाइड दी गई है
  • कंट्रोलर डिफ़ॉल्ट रूप से server_vad का उपयोग करता है, और tool-only session में interruptResponse: false सेट किया जाता है ताकि चल रही टूल कॉल नई आवाज़ से रद्द न हो
  • डेमो ऐप में थीम स्विचिंग, multi-step form, shared-state chess flow, wake-word प्रयोग आदि जैसे कई इंटीग्रेशन परिदृश्य देखे जा सकते हैं
  • Apache-2.0 लाइसेंस

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.