- Generative AI की बदौलत आगे चलकर इंसानों को फोन कॉल करने की ज़रूरत नहीं रहेगी
- इंसान केवल तब ही फोन कॉल पर समय लगाएंगे जब उसमें वास्तविक मूल्य होगा
कंपनियों के लिए फायदे
- मानव कॉलर के कारण लगने वाले समय और श्रम-लागत में कमी
- राजस्व बढ़ाने के लिए संसाधनों को पुनः आवंटित करने की संभावना
- अधिक मानकीकृत और सुसंगत ग्राहक अनुभव के कारण जोखिम में कमी
उपभोक्ताओं के लिए फायदे
- Voice एजेंट्स बिना किसी वास्तविक व्यक्ति को भुगतान किए या उसके साथ "match" किए, इंसान-स्तर की सेवा दे सकते हैं
- अभी इसमें therapist, coach, companion आदि शामिल हैं
- भविष्य में यह आवाज़-केंद्रित कहीं अधिक व्यापक अनुभवों को समेट सकता है
- अधिकतर अन्य consumer software की तरह, "विजेता" कौन होगा यह अनुमान लगाना मुश्किल होगा
फोन कॉल दुनिया से संवाद करने का API है, और AI इसे एक कदम आगे ले जाता है
जहां अवसर दिखाई देते हैं
- हर layer में, जैसे infrastructure players, consumer interface, और enterprise एजेंट्स, बड़े अवसर मौजूद हैं
- B2C और B2B Voice एजेंट्स के लिए कुछ उभरते हुए दिलचस्प products को लेकर कुछ परिकल्पनाएँ हैं:
B2B और B2C Voice एजेंट्स की प्रमुख विशेषताएँ
- Built to scale (स्केल के लिए बनाया गया)
- latency और conversational experience अभी पूरी तरह हल नहीं हुए हैं
- हम ऐसे founders की तलाश में हैं जिनकी agent-building को लेकर स्पष्ट राय हो
- वे agent की सबसे महत्वपूर्ण चीज़ों (speed, accuracy, tone/emotion आदि) को अधिकतम करने की कोशिश कर रहे हैं
- Vertically focused (वर्टिकल रूप से केंद्रित)
- यह किसी खास use case के लिए finely tuned models और tight integrations पर निर्भर performance agents हो सकते हैं
- इन्हें बनाना, बाज़ार में लाना, और सफलतापूर्वक बढ़ाना अपेक्षाकृत आसान होता है
- Realistic in scope (दायरे में यथार्थवादी)
- महत्वपूर्ण कॉल्स को पूरी तरह AI को सौंप देना एक बड़ी चुनौती है
- हम उम्मीद करते हैं कि Voice agent कंपनियाँ निकट अवधि में वे काम करेंगी जिन्हें तुरंत "scale" नहीं किया जा सकता
- इसमें customer-specific tuning या अंतिम चरण के लिए कॉल को human agents को सौंपना शामिल हो सकता है
Voice एजेंट बनाने के लिए stack
- Voice एजेंट के काम करने के लिए यह ज़रूरी है:
- इंसानी आवाज़ को capture करना (ASR)
- LLM का उपयोग करके इस input को process करना और output लौटाना
- इंसान से फिर से बात करना (TTS)
- GPT-4o जैसे नए multimodal models एक ही model के ज़रिए इन कई layers को एक साथ "run" करके stack की संरचना बदल सकते हैं
- इससे latency और cost कम हो सकती है, और अधिक natural conversational interface मिल सकता है
- कई agents नीचे दिए गए synthetic stack के साथ असली इंसानी-जैसी quality तक नहीं पहुँच पाए हैं
- कुछ कंपनियों/approaches में LLM या LLMs की एक श्रृंखला conversation flow और emotion को संभालती है। अन्य मामलों में emotion जोड़ने और interruptions को manage करने जैसे proprietary engines होते हैं
- "Full stack" Voice providers यह सब एक ही जगह पर उपलब्ध कराते हैं
- Consumer (B2C) और enterprise (B2B) apps इस stack के ऊपर मौजूद हैं
- Third-party providers का उपयोग करने पर भी apps आमतौर पर custom LLM plug in करते हैं, जो अक्सर conversation engine की भूमिका भी निभाता है
Full stack बनाम खुद assemble करना: प्रमुख कारकों की तुलना
- Voice agent founders यह चुन सकते हैं कि agent को full stack platform (जैसे Retell, Vapi, Bland) पर चलाया जाए या stack को खुद assemble किया जाए
- यह निर्णय लेते समय कुछ प्रमुख कारक होते हैं:
- Complexity (जटिलता)
- Full stack players ऐसी विधि देते हैं जिससे infrastructure-side complexity को abstract करते हुए Voice agents को अधिक आसानी से बनाया जा सकता है
- फिर भी यह customization और tuning के लिए जगह छोड़ता है, जैसे prompt या knowledge documents (RAG) को LLM में plug in करना
- Flexibility (लचीलापन)
- किसी खास vertical market और use case के लिए build करने वाले founders stack की हर layer कैसे काम करे/execute हो, इस पर अधिकतम flexibility चाहते हैं
- इससे latency को जितना हो सके कम करना भी संभव हो सकता है
- Cost (लागत)
- Full stack providers प्रति कॉल अतिरिक्त लागत जोड़ सकते हैं, हालांकि volume के आधार पर बेहतर pricing negotiate भी कर सकते हैं
- बड़े पैमाने के Voice agents के लिए प्रति कॉल कुछ cents का अंतर भी महत्वपूर्ण हो सकता है
- Control (नियंत्रण)
- कुछ गलत होने पर Voice agent founders को समस्या को तुरंत trace और resolve कर पाना चाहिए, खासकर sensitive use cases में
- उन्हें यह भी चाहिए हो सकता है कि हर layer कैसे काम कर रही है, इसकी अधिकतम visibility मिले
- खुद assembled stack के साथ यह करना अधिक आसान हो सकता है
- Complexity (जटिलता)
- stack के प्रमुख players
- Full Stack : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion : hume
- Text to Speech : ElevenLabs, Azure
- Speech to Text : Deepgram, Whisper, AssemblyAI, Azure
- Streaming : LiveKit, daily
B2B agents पर हमारा दृष्टिकोण
AI Voice का विकास
- हम 1.0 AI Voice (phone tree) से 2.0 AI Voice (LLM-based) युग में जा रहे हैं
- 2.0 कंपनियाँ पिछले लगभग 6 महीनों में उभरना शुरू हुई हैं
- 1.0 कंपनियाँ अभी अधिक accurate हो सकती हैं, लेकिन लंबी अवधि में 2.0 approach कहीं अधिक scalable और accurate होगी
Vertical-market-specific models की ज़रूरत
- ऐसा कोई एक horizontal model या platform नहीं होगा जो हर तरह के enterprise Voice agent पर लागू हो सके
- अलग-अलग vertical markets में कुछ मुख्य अंतर होते हैं:
- कॉल का प्रकार, tone और structure
- integrations और processes
- GTM और "killer features"
- इसका अर्थ UI में highly opinionated vertical agents की तेज़ वृद्धि हो सकता है
- इसके लिए ऐसे founding teams चाहिए जिन्हें इस domain की expertise या गहरी रुचि हो
सबसे निकट के अवसर
- labor-heavy कंपनियों के लिए TAM बड़ा है
- निकट अवधि के सबसे बड़े अवसर इन industries में हो सकते हैं:
- जहाँ business phone booking पर बहुत निर्भर है
- जहाँ गंभीर labor shortage है
- जहाँ call complexity कम है
- जैसे-जैसे agents अधिक sophisticated होंगे, वे अधिक complex calls संभाल सकेंगे
B2B agents का विकास
- विकास की प्रक्रिया
- IVR (Interactive Voice Response) : पारंपरिक touch-tone model, जिसमें agent उपभोक्ता को कई options देता है (1 sales के लिए, 2 customer support के लिए आदि) और उसी आधार पर मार्गदर्शन करता है
- AI 1.0 (Phone Trees) : IVR का अधिक flexible और intuitive version, जिसमें उपभोक्ता natural language में बोलता है और agent कई conversational flows के माध्यम से मार्गदर्शन करने की कोशिश करता है
- AI 2.0 (LLMs) : free-form conversation, जहाँ AI इंसान की बातों को किसी पूर्व-निर्धारित विकल्प से match करने की कोशिश नहीं करता
- कई Voice agent कंपनियाँ किसी खास industry (जैसे automotive service) या किसी खास task type (जैसे appointment booking) के लिए vertical-specific approach अपना रही हैं। इसके कुछ कारण हैं:
- execution की कठिनाई
- AI को फोन सौंपने के लिए quality bar ऊँचा है, और conversation flow (साथ ही customer side backend workflow) तेज़ी से complex या specific हो सकता है
- जो कंपनियाँ इन vertical markets के "exception cases" बनाती हैं, उनके सफल होने की संभावना अधिक होती है (जैसे unique vocabulary जिसे general model गलत समझ सकता है)
- regulations और licensing
- कुछ Voice agent कंपनियों को विशेष restrictions, आवश्यक certifications आदि का सामना करना पड़ता है
- इसका प्रमुख उदाहरण healthcare है (जैसे HIPAA compliance), लेकिन यह sales जैसी श्रेणियों में भी दिख रहा है जहाँ country-level AI cold calling regulations हैं
- integrations
- कुछ categories में user experience (enterprise और consumer दोनों) को सही तरह से लागू करने के लिए long-tail integrations या specialized integrations की ज़रूरत हो सकती है। यह तभी बनाना सार्थक है जब आप किसी specific use case को target कर रहे हों
- दूसरे software में entry point
- Voice स्वाभाविक रूप से booking, renewal, quote आदि जैसे core customer actions में प्रवेश कर सकता है
- कुछ मामलों में यह इन कंपनियों के लिए एक व्यापक vertical SaaS platform में विस्तार करने का अवसर बन सकता है, खासकर जब customer base अभी भी offline operate करती हो
- execution की कठिनाई
B2B agents: जहां अवसर दिखते हैं
LLM-आधारित - लेकिन ज़रूरी नहीं कि पहले दिन से 100% automation हो
- AI Voice agents का "strong form" IVR या phone tree approach नहीं बल्कि पूरी तरह LLM-driven conversation होगा
- लेकिन चूँकि LLM पूरे flow में 100% reliable नहीं है, इसलिए अधिक sensitive या बड़े deals में (अस्थायी रूप से) "human in the loop" होने की संभावना है
- इससे vertical-specific workflows और भी महत्वपूर्ण हो जाते हैं, क्योंकि इनके माध्यम से edge cases को कम करते हुए success probability बढ़ाई जा सकती है और human intervention घटाया जा सकता है
Custom model tuning बनाम LLM prompting approach
- B2B Voice agents को ऐसे specialized (या vertical-specific) conversations संभालने पड़ते हैं जिनके लिए सामान्य LLM पर्याप्त नहीं हो सकता
- कई कंपनियाँ customer-specific models tune कर रही हैं (कुछ सौ या low-thousands data points का उपयोग करके), और संभव है कि इससे company-wide base model पर inference लिया जाए
- enterprise ग्राहकों के लिए custom tuning आगे भी जारी रह सकती है
- नोट: कुछ कंपनियाँ किसी विशेष use case के लिए एक "general" model (जो सभी customers में उपयोग होगा) tune करती हैं और फिर customer-specific prompting करती हैं
Domain expertise वाली technical teams
- complexity को देखते हुए, high-quality B2B Voice agents बनाने और scale करने के लिए पहले से AI background होना मददगार हो सकता है
- लेकिन product को package करने और vertical market में wedge बनाने का तरीका समझना भी उतना ही महत्वपूर्ण हो सकता है, क्योंकि इसके लिए domain expertise या गहरी रुचि चाहिए
- enterprise Voice agents बनाने और लॉन्च करने के लिए AI में PhD होना ज़रूरी नहीं है!
Integrations + ecosystem पर स्पष्ट दृष्टिकोण
- ऊपर की बातों की तरह, हर vertical market के buyers कुछ विशेष features या integrations खरीदने से पहले आमतौर पर देखना चाहते हैं
- वास्तव में, यही वह प्रमाण हो सकता है जो किसी product को "useful" से "magical" तक ले जाए
- यही एक और कारण है कि काफी verticalized रूप से शुरुआत करना समझदारी भरा हो सकता है
"Enterprise-grade" या मजबूत product-led growth (PLG) motion
- जिन vertical markets में revenue का बड़ा हिस्सा top enterprises/providers में केंद्रित है, वहाँ Voice agent कंपनियाँ बड़े enterprises से शुरू कर सकती हैं और अंततः self-service product के रूप में SMBs तक "down-market" जा सकती हैं
- SMB customers इस solution को बहुत चाहते हैं और अलग-अलग options test करने को तैयार हैं, लेकिन वे startup को enterprise-grade model tuning के लिए पर्याप्त scale/quality का data शायद न दे सकें
B2C agents पर हमारा दृष्टिकोण
B2B से अंतर
- B2B में Voice agents मुख्य रूप से विशिष्ट tasks को पूरा करने के लिए मौजूदा phone calls को replace करते हैं
- consumer agents के मामले में users को लगातार engage रहने का चुनाव करना पड़ता है, जो कठिन है क्योंकि Voice के जरिए interaction हमेशा सुविधाजनक नहीं होता
- इसका मतलब है कि product bar "और ऊँचा" है
शुरुआती application areas
- consumer Voice agents का पहला और सबसे स्पष्ट application area महंगी या मुश्किल से उपलब्ध human services को AI से replace करना है
- इसमें therapy, coaching, tutoring आदि जैसी सभी conversation-based चीज़ें शामिल हैं जिन्हें virtual रूप से पूरा किया जा सकता है
आगे की संभावनाएँ
- लेकिन हमें लगता है कि B2C Voice agents का असली जादू अभी आना बाकी है!
- हम ऐसे products की तलाश में हैं जो Voice की शक्ति का उपयोग करके पहले से मौजूद न रहे नए प्रकार के "conversation" संभव बनाएं
- यह मौजूदा services के format को फिर से गढ़ सकता है या पूरी तरह नई services बना सकता है
मानवीय जुड़ाव की नकल
- जिन products ने UX सही ढंग से लागू किया है, उनके लिए Voice agents उपभोक्ताओं को software में पहले कभी न दिखे स्तर तक engage करने का मौका देते हैं
- यह वास्तव में मानवीय जुड़ाव की नकल करने जैसा है
- यह agent-as-product के रूप में या किसी व्यापक product के Voice mode के रूप में सामने आ सकता है
B2C agents का विकास
- अब तक प्रमुख consumer AI Voice agents बड़ी कंपनियों से आए हैं, जैसे ChatGPT Voice और Inflection की Pi app
- consumer Voice के धीमे उभरने के कुछ कारण हैं:
बड़ी कंपनियों की बढ़त
- बड़ी कंपनियों के पास पहले से consumer distribution और accuracy, latency आदि के मामले में best-in-class models मौजूद हैं
- Voice को बड़े पैमाने पर उपलब्ध कराना आसान नहीं है, खासकर हाल में GPT-4o के लॉन्च को देखते हुए
नए व्यवहार अपनाने की कठिनाई
- B2B Voice agents जहाँ मौजूदा process में AI को "plug in" करते हैं, वहीं B2C Voice agents के लिए users को नया behavior अपनाना पड़ता है
- इससे या तो धीमा adoption हो सकता है या फिर अधिक magical product की ज़रूरत पड़ सकती है
मौजूदा Voice AI के प्रति नकारात्मक धारणा
- Siri जैसे product experiences के कारण उपभोक्ता Voice AI को लेकर नकारात्मक रूप से प्रभावित हो चुके हैं, इसलिए वे नए apps आज़माने के लिए प्रेरित न हों
broad-based products द्वारा base use cases की पूर्ति
- broad-based products आम तौर पर Voice AI के base use cases (tutoring, companionship आदि) दे सकते हैं
- B2C Voice startups अब उस चरण में हैं जहाँ वे ऐसे use cases या experiences बनाना शुरू कर रहे हैं जिन्हें ChatGPT, Pi आदि address नहीं करेंगे
B2C agents: जहां अवसर दिखते हैं
Voice क्यों ज़रूरी है, इस पर मजबूत दृष्टिकोण
- हम ऐसे products और founders को लेकर उत्साहित हैं जिनकी स्पष्ट राय हो कि Voice उनके product में uniquely value कैसे जोड़ता है
- सिर्फ "voice for voice's sake" नहीं
- कई मामलों में Voice interface text interface की तुलना में अधिक असुविधाजनक होता है, क्योंकि इसमें जानकारी consume करना और निकालना कठिन होता है
real-time Voice क्यों ज़रूरी है, इस पर मजबूत दृष्टिकोण
- Voice को consume करना कठिन है, और real-time Voice तो उससे भी कठिन है (asynchronous voice messages की तुलना में)
- हम उन founders को लेकर उत्साहित हैं जिनकी स्पष्ट सोच हो कि उनका product real-time conversation के आसपास ही क्यों बनाया जाना चाहिए
- संभवतः यह human-like companionship, practice environment आदि के लिए हो सकता है
pre-AI "products" से असमानता
- हमें संदेह है कि product का strong form ऐसा नहीं होगा जिसमें AI Voice agent बस पहले से मौजूद human-to-human conversation को सीधे replace कर दे
- पहला कारण, उस bar तक पहुँचना कठिन है
- इससे भी अधिक महत्वपूर्ण यह है कि AI का उपयोग करके वही value और बेहतर तरीके से (अधिक efficiently, अधिक आनंददायक रूप में) दी जा सकती है
ऐसी verticalization जहाँ model quality ही विजेता तय न करे
- प्रमुख general consumer AI products (ChatGPT, Pi, Claude) के पास high-quality Voice modes हैं
- वे कई प्रकार की conversations और interactions में सार्थक रूप से भाग ले सकते हैं
- क्योंकि वे अपना खुद का model और stack host करते हैं, इसलिए short term में latency और conversation flow में उनके जीतने की संभावना है
हम उम्मीद करते हैं कि startups निम्नलिखित तरीकों से सफल होंगे:
- किसी खास प्रकार की conversation के लिए adapt या tune करके,
- ऐसा UI बनाकर जो Voice agent experience को अधिक context और value दे
- (उदाहरण: समय के साथ progress tracking, conversation/experience को opinionated तरीके से steer करना)
1 टिप्पणियां
मुझे एक enterprise कंपनी की integration टीम को करीब से देखने का मौका मिला था, और मैंने रीयल-टाइम में देखा कि मुख्य लेख में बताए गए जैसा ही एक प्रोजेक्ट चल रहा था.
शुरुआती लक्ष्य AWS Connect के ज़रिए CS को automate करना था, लेकिन फिर traffic distribution processing भी होने लगी, और VVIP ग्राहकों के लिए special service planning में भी शामिल होने लगे.... इस तरह इसका दायरा धीरे-धीरे बढ़ता देखना भी काफ़ी दिलचस्प था.
ऐसा होते-होते, सच कहूँ तो जिन ग्राहकों से ज़्यादा revenue नहीं आता, उन्हें automated response bot से जितना हो सके उतना संभालने दिया जाता है, और जिन ग्राहकों की deposit राशि ज़्यादा होती है, उनसे human agents जितनी जल्दी हो सके सीधे संपर्क करते हैं—यही service policy थी. शायद यह एक हद तक लाज़िमी भी है, हाहा