OpenAI Realtime API आधारित वॉइस-कंट्रोल React कॉम्पोनेंट
(github.com/openai)- Realtime API के ऊपर बनाया गया React/ब्राउज़र के लिए वॉइस-कंट्रोल कॉम्पोनेंट
- आवाज़ के ज़रिए फ़ॉर्म इनपुट से लेकर कई तरह की क्रियाओं का निर्देश दिया जा सकता है, और उन पर प्रतिक्रिया देने वाले विजेट्स लागू किए जा सकते हैं
- tool-constrained UI पैटर्न प्रदान करता है, जिससे असिस्टेंट को ऐप द्वारा अनुमत क्रियाएँ ही करने तक सीमित किया जा सकता है
- सेशन कनेक्शन, ऑडियो प्रोसेसिंग, टूल एक्ज़ीक्यूशन और ट्रांसक्रिप्ट असेंबली को एक ही कंट्रोलर समग्र रूप से मैनेज करता है, इसलिए डेवलपर को WebRTC या Realtime प्रोटोकॉल सीधे संभालने की ज़रूरत नहीं होती
- मौजूदा ऐप में जोड़ते समय ऐप state का एकमात्र source of truth बनाए रखता है, और वॉइस लेयर केवल सीमित ऐप हैंडलर्स को कॉल करती है
- यह कोई सामान्य orchestration framework नहीं, बल्कि ब्राउज़र UI फ्लो के लिए विशेषीकृत एक opinionated पैकेज है; अगर non-React runtime या agent orchestration चाहिए, तो Raw Realtime या
openai-agents-jsके उपयोग की सिफारिश की गई है - मौजूदा ऐप इंटीग्रेशन के लिए
/sessionendpoint proxy → voice adapter wrapper बनाना → टूल रजिस्टर करना → कंट्रोलर hoisting → विजेट mount करने तक की 9-स्टेप गाइड दी गई है - कंट्रोलर डिफ़ॉल्ट रूप से
server_vadका उपयोग करता है, और tool-only session मेंinterruptResponse: falseसेट किया जाता है ताकि चल रही टूल कॉल नई आवाज़ से रद्द न हो - डेमो ऐप में theme switching, multi-step form, shared-state chess flow, wake-word प्रयोग आदि जैसे कई इंटीग्रेशन परिदृश्य देखे जा सकते हैं
- Apache-2.0 लाइसेंस
1 टिप्पणियां
डेमो वीडियो आप https://x.com/OpenAIDevs/status/2048871260512473385 पर देख सकते हैं
काफी तेज़ी से और अच्छी तरह काम कर रहा है। हालांकि API लागत बोझिल है, इसलिए इसका उपयोग सीमित ही रहेगा..
अगर ऐसी चीज़ें local model पर implement हो जाएँ, तो यह काफ़ी काम की होगी।