15 पॉइंट द्वारा xguru 2025-02-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

हमारी Thesis - "आवाज़ क्यों?"

  • AI के उपयोगिता पक्ष में आवाज़ एक शक्तिशाली breakthrough की भूमिका निभाती है
  • कंपनियों के लिए AI के माध्यम से मानव श्रम का कुछ हिस्सा बदलना और 24 घंटे ग्राहक प्रतिक्रिया देना संभव हो जाता है
  • उपभोक्ताओं के दृष्टिकोण से भी यह संभावना है कि आवाज़ AI का प्रमुख interface बनेगी
  • अभी वह समय है जब AI voice infrastructure कुछ हद तक स्थापित हो चुका है, और विभिन्न applications में आवाज़ का गंभीरता से उपयोग शुरू हो गया है
  • मॉडल performance में सुधार के साथ यह भी माना जा रहा है कि आवाज़ स्वयं product नहीं रहेगी, बल्कि बाज़ार में प्रवेश के लिए एक 'wedge' की तरह काम करेगी

अब तक क्या-क्या नया आया

  • मई 2024: OpenAI ने GPT-4o voice लॉन्च किया और real-time voice response फीचर दिखाया, Cartesia ने Sonic पेश किया
  • जून 2024: Character ने voice call फीचर beta में जोड़ा, Apple ने Siri में ChatGPT integration की घोषणा की
  • जुलाई 2024: OpenAI ने Advanced Voice rollout शुरू किया, Speechmatics ने Flow मॉडल पेश किया
  • अगस्त 2024: Amazon ने Alexa में Claude को integrate किया, Meta ने मशहूर हस्तियों की आवाज़ पर आधारित AI companion उपलब्ध कराया
  • सितंबर 2024: NotebookLM ने Audio Overview के साथ चर्चा बटोरी, PlayHT ने 2.0 मॉडल पेश किया
  • अक्टूबर 2024: OpenAI ने real-time API लॉन्च किया, Kyutai ने Moshi मॉडल पेश किया
  • नवंबर 2024: ElevenLabs ने Conversational AI लॉन्च किया, NVIDIA ने Fugatto मॉडल पेश किया, Gemini Live ने real-time app जारी किया
  • दिसंबर 2024: ChatGPT Advanced Voice Mode में internet search जोड़ा गया, 1-800-CHATGPT लॉन्च के कारण चर्चा बढ़ी

क्या बदला है?

  • मॉडल infrastructure सरल हुआ है, और कम latency तथा उच्च performance वाले voice agents सामने आए हैं
  • पिछले 6 महीनों के नए conversational models इस performance सुधार के बड़े driver रहे हैं
  • लागत में भी कमी आ रही है; दिसंबर 2024 में OpenAI ने GPT-4o real-time API की कीमत काफी घटाई
  • GPT-4o mini भी real-time version में उपलब्ध कराया गया

मौजूदा स्थिति

  • मॉडल गुणवत्ता

    • बातचीत की गुणवत्ता (latency, interruption की क्षमता, भावनात्मक अभिव्यक्ति आदि) अधिकांशतः हल हो चुकी है
    • OpenAI के real-time voice model और अन्य मॉडलों की प्रगति के कारण कुछ मामलों में प्रदर्शन call center/BPO से भी बेहतर दिखा है
  • GTM(go-to-market)

    • agent products सीधे मानव श्रम को replace करके तेज़ी से फैल सकते हैं
    • लेकिन entry barrier कम भी है, जबकि conservative बड़े enterprises में adoption barrier ऊँचा है
    • GTM execution और अतिरिक्त product phase (act 2) सफलता के मुख्य तत्व हैं
  • मुद्रीकरण

    • शुरुआत में pricing मुख्यतः प्रति-मिनट शुल्क पर आधारित थी, लेकिन model cost के तेज़ी से घटने से pricing pressure बढ़ गया है
    • आगे platform fee + usage-based billing वाला मिश्रित charging model आने की संभावना है
  • प्रतिस्पर्धी परिदृश्य

    • enterprise voice agents के क्षेत्र में developer-केंद्रित platforms, no-code general platforms, और specific industries के लिए विशेष solutions के बीच प्रतिस्पर्धा चल रही है
    • आगे प्रतिस्पर्धा और तेज़ होने की संभावना है

बाज़ार का विकास

  • 2024 की दूसरी छमाही में voice agent बाज़ार तेज़ी से बढ़ा
  • कई products में voice features जोड़ने का रुझान है
  • conversational voice stack की कई layers में नई funding और वास्तविक customers हासिल करने की गतिविधि तेज़ है
  • खासकर बड़े enterprises में पूरी human call operation को एक साथ AI से बदलने के बजाय, पहले कुछ call types से शुरुआत कर धीरे-धीरे विस्तार करने की प्रवृत्ति दिखती है
    • रात/overflow calls: जो कॉल आमतौर पर voicemail में चली जाती थीं, उन्हें AI संभालकर एक निश्चित स्तर तक जानकारी एकत्र और transaction process कर सकता है
    • नए outbound calls: जो कॉल पहले कम आर्थिक लाभ के कारण नहीं की जाती थीं, वे अब संभव हो रही हैं, जिससे अतिरिक्त revenue या cost saving की उम्मीद है
      • 'back-office' calls: दूसरी कंपनियों या संस्थानों को फ़ोन करने वाले कामों के automation से efficiency बढ़ सकती है

बाज़ार का विकास - funding के उदाहरण

  • मॉडल कंपनियाँ

    • ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI आदि में Series B और seed rounds तक बड़े निवेश जुटाने की खबरें लगातार आईं
  • general platforms

    • Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland आदि ने Series A से C तक funding हासिल की
    • specific industries (sales, customer support आदि) पर केंद्रित 11x, Decagon, Sierra, Artisan जैसी कंपनियाँ भी ध्यान आकर्षित कर रही हैं
    • Vapi, Retell AI जैसे developer platforms भी उभरे हैं
  • vertical platforms

    • Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad आदि ने healthcare, HR, emergency response जैसे specialized क्षेत्रों में निवेश प्राप्त किया
    • Wayfaster, HappyRobot आदि ने logistics और interview जैसे क्षेत्रों में भी funding जुटाने में सफलता पाई

महत्वपूर्ण vertical markets

  • voice agents सबसे पहले उन industries में अपनाए जाने की संभावना है जहाँ call center/BPO पर खर्च बहुत अधिक है
  • finance, insurance, B2C, B2B, government, healthcare जैसे प्रमुख sectors संभवतः अपने-अपने विशेष voice solutions अपनाएँगे
  • नीचे दिए गए क्षेत्रों में founders के सक्रिय रूप से प्रयास करने की संभावना है
    • Financial services (उदाहरण: debt collection)
    • Insurance (customer response और back-office)
    • Government
    • Support services (जैसे specialized knowledge की ज़रूरत वाले IT support सहित जटिल customer interactions)
  • call center श्रेणी से बाहर के क्षेत्रों में भी, high-salary roles के लिए coaching/training हेतु AI voice agents पर भुगतान की इच्छा देखी गई है
    • यथार्थवादी voice agents 'simulator' की भूमिका निभाकर कार्य-कौशल को काफी बेहतर बना सकते हैं
    • इससे sales coach जैसे श्रम-खर्च या मौजूदा कम-प्रभावी software को replace किया जा सकता है

ध्यान देने योग्य verticals - YC कंपनियों का रुझान

  • YC में शामिल voice agent कंपनियों की संख्या तेज़ी से बढ़ रही है
  • B2B (~69%) और healthcare (~18%) प्रमुख हैं, और B2B के भीतर fintech तथा customer support से जुड़े startups अधिक हैं
  • healthcare क्षेत्र front-office (patients के लिए) और back-office (pharmacies, insurers आदि के लिए) में बँटा हुआ है
  • कुल मिलाकर startups voice agents के माध्यम से विभिन्न industries की समस्याएँ हल करने की कोशिश कर रहे हैं

हम क्या खोज रहे हैं

  • ऐसे industries जहाँ फ़ोन मुख्य channel है, या regulation/efficiency के दृष्टिकोण से फ़ोन सबसे उपयुक्त है
    • जहाँ फ़ोन customer demo का प्राथमिक साधन हो सकता है (उदाहरण: logistics)
    • जहाँ regulation के कारण calls अधिक प्रभावी हों (उदाहरण: debt collection)
    • या जहाँ अन्य approaches की तुलना में सफलता दर अधिक हो (उदाहरण: healthcare)
  • call structure स्पष्ट और मापने योग्य होना चाहिए
    • कौन-कौन से data points इकट्ठा करने हैं या कौन-सी जानकारी देनी है, यह स्पष्ट होना चाहिए
    • परिणामों को मापना आसान होना चाहिए, ताकि कंपनियाँ बिना अधिक झिझक AI voice agent अपनाने पर विचार कर सकें
  • मानव-समान प्रदर्शन के साथ labor cost में 50% से अधिक कमी हासिल होनी चाहिए
    • जहाँ replace होने वाला workforce स्पष्ट हो या उसे redeploy किया जा सके, वहाँ adoption आसान होता है
    • भीतर AI skepticism हो सकता है, इसलिए ROI बहुत बड़ा होना चाहिए
  • call ग्राहक के लिए 'बहुत महत्वपूर्ण' समस्या हो, लेकिन कॉल करने या रिसीव करने वाले पक्ष के लिए कुछ हद तक failure सहनीय हो
    • अक्सर शुरुआत रात/overflow calls या 'subprime' calls से होती है
    • जहाँ performance bar कम हो, वहाँ AI के लिए प्रवेश आसान होता है
  • direct revenue generation (उदाहरण: नई booking, payment) या high-cost areas (उदाहरण: drive-thru) में call efficiency का प्रभाव बड़ा होता है
  • SMB/mid-market में प्रवेश के लिए simple VoIP integration या self-setup संभव होना चाहिए
  • enterprise में शुरुआती integration जितना जटिल होगा, entry barrier उतना बनेगा; लेकिन एक बार सही तरह से बन जाने पर वही competitive advantage बन सकता है
    • या कम integration complexity के साथ आसानी से शुरू करके, धीरे-धीरे विस्तार किया जा सकता है
  • कुल मिलाकर बाज़ार की दिलचस्पी उन solutions में अधिक है जो एक साथ high success rate और बड़े cost savings दे सकें

case study - AI voice interview

  • शुरुआत में high complexity और high sensitivity वाले job interviews में AI voice का उपयोग कुछ हद तक अप्रत्याशित लगा
  • लेकिन staffing industry में बड़े पैमाने और दोहराए जाने वाले interviews संभालने में इसका बड़ा प्रभाव दिखा
  • candidate experience को नुकसान पहुँचाए बिना interviews को अधिक तेज़ और अधिक consistent बनाया जा सका
  • AI ज़रूरत पड़ते ही तुरंत interview ले सकता है, और language/accent barriers के बिना candidates का मूल्यांकन कर सकता है
  • खासकर technical roles में, ऐसा feedback मिला है कि AI सामान्य HR staff की तुलना में अधिक सटीक मूल्यांकन कर सकता है
  • कंपनियों ने interview pass-through rate बढ़ने और candidate matching process तेज़ होने जैसे फायदे महसूस किए