• रीयल-टाइम वॉइस API में reasoning, translation और transcription क्षमताओं वाले 3 नए ऑडियो मॉडल लॉन्च किए गए हैं, ताकि डेवलपर्स अधिक प्राकृतिक और बुद्धिमान voice applications बना सकें
  • GPT-Realtime-2 GPT-5-स्तरीय reasoning क्षमता से लैस पहला voice model है, जो tool calling और interruption handling के साथ बातचीत को स्वाभाविक रूप से जारी रखता है
  • GPT-Realtime-Translate 70 से अधिक input languages को 13 output languages में real-time में अनुवाद करने वाला live translation model है
  • GPT-Realtime-Whisper बोलते समय ही टेक्स्ट में बदलने वाला streaming speech transcription model है, जिसे captioning, meeting notes और customer support जैसे उपयोगों में लगाया जा सकता है
  • यह एक मोड़ है जहाँ voice, साधारण call-and-response से आगे बढ़कर reasoning, translation, transcription और tool execution एक साथ करने वाले interface में बदल रही है

3 नए real-time audio models का अवलोकन

  • API में 3 मॉडल जोड़े गए हैं, ताकि डेवलपर्स ऐसे voice experiences बना सकें जो अधिक प्राकृतिक हों, अधिक बुद्धिमानी से प्रतिक्रिया दें, और real-time में actions perform करें
  • GPT-Realtime-2: GPT-5-स्तरीय reasoning वाला पहला voice model, जो कठिन requests संभाल सकता है और बातचीत को स्वाभाविक ढंग से आगे बढ़ाता है
  • GPT-Realtime-Translate: 70 से अधिक input languages से 13 output languages में speaker की गति के अनुसार real-time speech translation करता है
  • GPT-Realtime-Whisper: speaker के बोलते समय live streaming speech-to-text transcription प्रदान करता है

voice का software interface बनना

  • voice, ड्राइविंग के दौरान मदद माँगने, एयरपोर्ट पर यात्रा योजनाएँ बदलने, पसंदीदा भाषा में सहायता लेने और बिना टाइप किए काम आगे बढ़ाने जैसे उपयोगों के कारण software इस्तेमाल करने के सबसे प्राकृतिक तरीकों में से एक बन रही है
  • उपयोगी voice products के लिए सिर्फ तेज turn-taking या natural-sounding voice पर्याप्त नहीं है; उनमें अर्थ समझना, context tracking, request बदलने पर recovery, बातचीत के दौरान tools का उपयोग, और सही tone में जवाब देना भी ज़रूरी है
  • इस बार लॉन्च किए गए मॉडल real-time audio को साधारण call-and-response से बदलकर सुनने, reasoning करने, translation करने, transcription करने और कार्रवाई करने वाले voice interface में परिवर्तित करते हैं

voice AI के 3 उभरते पैटर्न

  • Voice-to-Action: उपयोगकर्ता अपनी ज़रूरत बोलता है, फिर system reasoning करके tools का उपयोग कर काम पूरा करता है
    • Zillow उदाहरण: “मेरी BuyAbility range के भीतर घर ढूँढो, व्यस्त सड़कों से बचो, और शनिवार का tour schedule कर दो” जैसे अनुरोध को सुनकर reasoning और execution करने वाला assistant बनाया जा रहा है
  • Systems-to-Voice: software, context को real-time voice guidance में बदल देता है
    • travel app उदाहरण: “इनबाउंड flight में देरी हुई है, लेकिन connection संभव है। नया gate मिल गया है, terminal में सबसे छोटा रास्ता बता रहे हैं, और आपका सामान सामान्य रूप से transfer होगा” जैसे proactive voice guidance देना
  • Voice-to-Voice: AI भाषा, कार्य और बदलते context के पार real-time conversation जारी रखती है
    • Deutsche Telekom उदाहरण: ग्राहक अपनी सुविधाजनक भाषा में बोले, और मॉडल उसे real-time में translate करे—ऐसा voice support experience बनाया जा रहा है
  • इन पैटर्न्स को मिलाकर भी इस्तेमाल किया जा सकता है, और Priceline ऐसा भविष्य आगे बढ़ा रहा है जहाँ flights और hotels की खोज, booking changes, TSA wait time updates और local conversation translation तक पूरी यात्रा voice से प्रबंधित हो सके

GPT-Realtime-2: reasoning और action करने वाला real-time voice model

  • यह real-time voice interactions के लिए optimized है और reasoning करते हुए tool calling, corrections और interruptions को संभालना, तथा context के अनुसार जवाब देना एक साथ कर सकता है
  • Preambles: “मैं चेक करता हूँ”, “एक क्षण” जैसे छोटे वाक्यों से agent उपयोगकर्ता को बताता है कि request process हो रही है
  • Parallel tool calling और tool transparency: कई tools को एक साथ कॉल करते हुए “calendar चेक कर रहा हूँ”, “अभी search कर रहा हूँ” जैसे वाक्यों से responsiveness बनाए रखता है
  • बेहतर recovery behavior: “अभी इसे process करना मुश्किल है” जैसे वाक्यों के जरिए चुपचाप fail होने या बातचीत तोड़ने के बजाय स्वाभाविक रूप से recover करता है
  • विस्तारित context window: 32K से बढ़ाकर 128K कर दी गई है, जिससे लंबे sessions और जटिल workflows को support मिलता है
  • बेहतर domain understanding: technical terms, proper nouns, medical terms जैसे production environments के लिए महत्वपूर्ण vocabulary को अधिक अच्छी तरह बनाए रखता है
  • Controllable tone और delivery: issue resolution के समय शांत, उपयोगकर्ता के असंतुष्ट होने पर empathetic, और सफलता की पुष्टि पर उत्साही जैसे tone control संभव हैं
  • समायोज्य reasoning effort: minimal, low, medium, high, xhigh के 5 स्तर दिए गए हैं; default low है, ताकि simple interactions में कम latency और complex requests में गहरा reasoning के बीच संतुलन बना रहे

GPT-Realtime-2 performance benchmarks

  • GPT-Realtime-2 (high) ने Big Bench Audio में audio intelligence के आधार पर GPT-Realtime-1.5 की तुलना में 15.2% अधिक score दर्ज किया
  • GPT-Realtime-2 (xhigh) ने Audio MultiChallenge में instruction-following के आधार पर GPT-Realtime-1.5 की तुलना में 13.8% अधिक score दर्ज किया, जिससे reasoning, context management और controllability में सुधार दिखा
  • Zillow के Josh Weisberg, SVP के अनुसार: सबसे कठिन adversarial benchmarks में prompt optimization के बाद call success rate में 26-point सुधार (95% बनाम 69%) हुआ, Fair Housing compliance भी अधिक मजबूत रही, और agent capability तथा guardrail strength का संयोजन Zillow की production voice के लिए उपयुक्त है

GPT-Realtime-Translate: real-time multilingual speech translation

  • ऐसा multilingual voice experience बनाना संभव है जिसमें हर participant अपनी पसंदीदा भाषा में बोले, real-time में translated conversation सुने और real-time transcription पढ़ सके
  • 70 से अधिक input languages और 13 output languages के support के साथ इसे customer support, cross-border sales, education, events, media और global creator platforms में उपयोग किया जा सकता है
  • इसे speaker की गति के साथ चलते हुए अर्थ सुरक्षित रखना होता है, और natural speech, context switching, regional accents तथा domain-specific language को भी संभालना होता है
  • Deutsche Telekom इसे multilingual voice interactions के लिए test कर रहा है, और कम latency तथा बेहतर fluency cross-language conversation को अधिक स्वाभाविक बनाती है
  • Vimeo उदाहरण: GPT-Realtime-Translate product training videos चलते समय real-time translation करता है, ताकि global customers अलग से तैयार किए गए versions के बिना अपनी पसंदीदा भाषा में updates सुन सकें
  • BolnaAI के CTO Prateek Sachan के अनुसार: Hindi, Tamil और Telugu evaluations में word error rate (WER) दूसरे मॉडलों की तुलना में 12.5% कम था, fallback ratio घटा, task completion rate ऊँचा रहा, और latency ऐसी रही कि बातचीत प्राकृतिक बनी रही

GPT-Realtime-Whisper: low-latency streaming transcription

  • यह low-latency speech-to-text conversion के लिए नया streaming transcription model है, जो बोलते समय ही audio को transcribe करता है
  • इसे real-time captions, बातचीत के दौरान बनने वाले meeting notes, लगातार user understanding की ज़रूरत वाले voice agents, और customer support, healthcare, sales, hiring जैसी high-frequency voice interactions के तेज follow-up workflows में इस्तेमाल किया जा सकता है
  • meetings, classrooms, broadcasts और events के लिए captions बनाना, तथा बातचीत चलते समय notes और summaries तैयार करना जैसे business workflows में real-time voice data का तुरंत उपयोग संभव बनाता है

सुरक्षा और policies

  • Realtime API पर दुरुपयोग रोकने के लिए multi-layer safeguards और mitigation measures लागू किए गए हैं
  • sessions पर active classifiers चल रहे हैं, और harmful content guidelines के उल्लंघन का पता चलने पर बातचीत रोकी जा सकती है
  • डेवलपर्स Agents SDK का उपयोग करके अपने अतिरिक्त safety guardrails जोड़ सकते हैं
  • usage policies के अनुसार spam, deception जैसे हानिकारक उद्देश्यों के लिए outputs का पुनः उपयोग या वितरण प्रतिबंधित है
  • अंतिम उपयोगकर्ता को स्पष्ट रूप से बताया जाना चाहिए कि वे AI के साथ interact कर रहे हैं, सिवाय उन मामलों के जहाँ यह context से स्पष्ट हो
  • EU data residency का पूर्ण support और enterprise privacy commitments लागू हैं

pricing और availability

  • GPT-Realtime-2, GPT-Realtime-Translate और GPT-Realtime-Whisper तीनों Realtime API में उपलब्ध हैं
  • GPT-Realtime-2: audio input tokens के प्रति 1 million पर $32 (cached input tokens के लिए $0.40), और audio output tokens के प्रति 1 million पर $64
  • GPT-Realtime-Translate: प्रति मिनट $0.034
  • GPT-Realtime-Whisper: प्रति मिनट $0.017
  • Playground में नए real-time voice models को test किया जा सकता है, और Codex के माध्यम से मौजूदा apps में GPT-Realtime-2 जोड़ा जा सकता है या नया project शुरू किया जा सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.