5 पॉइंट द्वारा xguru 2026-04-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Realtime API के ऊपर बनाया गया React/ब्राउज़र के लिए वॉइस-कंट्रोल कॉम्पोनेंट
  • आवाज़ के ज़रिए फ़ॉर्म इनपुट से लेकर कई तरह की क्रियाओं का निर्देश दिया जा सकता है, और उन पर प्रतिक्रिया देने वाले विजेट्स लागू किए जा सकते हैं
  • tool-constrained UI पैटर्न प्रदान करता है, जिससे असिस्टेंट को ऐप द्वारा अनुमत क्रियाएँ ही करने तक सीमित किया जा सकता है
  • सेशन कनेक्शन, ऑडियो प्रोसेसिंग, टूल एक्ज़ीक्यूशन और ट्रांसक्रिप्ट असेंबली को एक ही कंट्रोलर समग्र रूप से मैनेज करता है, इसलिए डेवलपर को WebRTC या Realtime प्रोटोकॉल सीधे संभालने की ज़रूरत नहीं होती
  • मौजूदा ऐप में जोड़ते समय ऐप state का एकमात्र source of truth बनाए रखता है, और वॉइस लेयर केवल सीमित ऐप हैंडलर्स को कॉल करती है
  • यह कोई सामान्य orchestration framework नहीं, बल्कि ब्राउज़र UI फ्लो के लिए विशेषीकृत एक opinionated पैकेज है; अगर non-React runtime या agent orchestration चाहिए, तो Raw Realtime या openai-agents-js के उपयोग की सिफारिश की गई है
  • मौजूदा ऐप इंटीग्रेशन के लिए /session endpoint proxy → voice adapter wrapper बनाना → टूल रजिस्टर करना → कंट्रोलर hoisting → विजेट mount करने तक की 9-स्टेप गाइड दी गई है
  • कंट्रोलर डिफ़ॉल्ट रूप से server_vad का उपयोग करता है, और tool-only session में interruptResponse: false सेट किया जाता है ताकि चल रही टूल कॉल नई आवाज़ से रद्द न हो
  • डेमो ऐप में theme switching, multi-step form, shared-state chess flow, wake-word प्रयोग आदि जैसे कई इंटीग्रेशन परिदृश्य देखे जा सकते हैं
  • Apache-2.0 लाइसेंस

1 टिप्पणियां

 
xguru 2026-04-29

डेमो वीडियो आप https://x.com/OpenAIDevs/status/2048871260512473385 पर देख सकते हैं
काफी तेज़ी से और अच्छी तरह काम कर रहा है। हालांकि API लागत बोझिल है, इसलिए इसका उपयोग सीमित ही रहेगा..
अगर ऐसी चीज़ें local model पर implement हो जाएँ, तो यह काफ़ी काम की होगी।