OpenAI Realtime API आधारित वॉइस-कंट्रोल React कॉम्पोनेंट

xguru · 2026-04-29T09:31:01+09:00

Realtime API के ऊपर बनाया गया React/ब्राउज़र के लिए वॉइस-कंट्रोल कॉम्पोनेंट आवाज़ के ज़रिए फ़ॉर्म इनपुट से लेकर कई तरह की क्रियाओं का निर्देश दिया जा सकता है, और उन पर प्रतिक्रिया देने वाले विजेट्स लागू किए जा सकते हैं tool-constrained UI पैटर्न प्रदान करता है, जिससे असिस्टेंट को ऐप द्वारा अनुमत क्रियाएँ ही करने तक सीमित किया जा सकता है सेशन कनेक्शन, ऑडियो प्रोसेसिंग, टूल एक्ज़ीक्यूशन और ट्रांसक्रिप्ट असेंबली को एक ही कंट्रोलर समग्र रूप से मैनेज करता है, इसलिए डेवलपर को WebRTC या Realtime प्रोटोकॉल सीधे संभालने की ज़रूरत नहीं होती मौजूदा ऐप में जोड़ते समय ऐप state का एकमात्र source of truth बनाए रखता है, और वॉइस लेयर केवल सीमित ऐप हैंडलर्स को कॉल करती है यह कोई सामान्य orchestration framework नहीं, बल्कि ब्राउज़र UI फ्लो के लिए विशेषीकृत एक opinionated पैकेज है; अगर non-React runtime या agent orchestration चाहिए, तो Raw Realtime या openai-agents-js के उपयोग की सिफारिश की गई है मौजूदा ऐप इंटीग्रेशन के लिए /session endpoint proxy → voice adapter wrapper बनाना → टूल रजिस्टर करना → कंट्रोलर hoisting → विजेट mount करने तक की 9-स्टेप गाइड दी गई है कंट्रोलर डिफ़ॉल्ट रूप से server_vad का उपयोग करता है, और tool-only session में interruptResponse: false सेट किया जाता है ताकि चल रही टूल कॉल नई आवाज़ से रद्द न हो डेमो ऐप में theme switching, multi-step form, shared-state chess flow, wake-word प्रयोग आदि जैसे कई इंटीग्रेशन परिदृश्य देखे जा सकते हैं Apache-2.0 लाइसेंस

Realtime API के ऊपर बनाया गया React/ब्राउज़र के लिए वॉइस-कंट्रोल कॉम्पोनेंट
आवाज़ के ज़रिए फ़ॉर्म इनपुट से लेकर कई तरह की क्रियाओं का निर्देश दिया जा सकता है, और उन पर प्रतिक्रिया देने वाले विजेट्स लागू किए जा सकते हैं
tool-constrained UI पैटर्न प्रदान करता है, जिससे असिस्टेंट को ऐप द्वारा अनुमत क्रियाएँ ही करने तक सीमित किया जा सकता है
सेशन कनेक्शन, ऑडियो प्रोसेसिंग, टूल एक्ज़ीक्यूशन और ट्रांसक्रिप्ट असेंबली को एक ही कंट्रोलर समग्र रूप से मैनेज करता है, इसलिए डेवलपर को WebRTC या Realtime प्रोटोकॉल सीधे संभालने की ज़रूरत नहीं होती
मौजूदा ऐप में जोड़ते समय ऐप state का एकमात्र source of truth बनाए रखता है, और वॉइस लेयर केवल सीमित ऐप हैंडलर्स को कॉल करती है
यह कोई सामान्य orchestration framework नहीं, बल्कि ब्राउज़र UI फ्लो के लिए विशेषीकृत एक opinionated पैकेज है; अगर non-React runtime या agent orchestration चाहिए, तो Raw Realtime या openai-agents-js के उपयोग की सिफारिश की गई है
मौजूदा ऐप इंटीग्रेशन के लिए /session endpoint proxy → voice adapter wrapper बनाना → टूल रजिस्टर करना → कंट्रोलर hoisting → विजेट mount करने तक की 9-स्टेप गाइड दी गई है
कंट्रोलर डिफ़ॉल्ट रूप से server_vad का उपयोग करता है, और tool-only session में interruptResponse: false सेट किया जाता है ताकि चल रही टूल कॉल नई आवाज़ से रद्द न हो
डेमो ऐप में theme switching, multi-step form, shared-state chess flow, wake-word प्रयोग आदि जैसे कई इंटीग्रेशन परिदृश्य देखे जा सकते हैं
Apache-2.0 लाइसेंस

OpenAI Realtime API आधारित वॉइस-कंट्रोल React कॉम्पोनेंट

संबंधित पढ़ाई

1 टिप्पणियां