- Eleven v3 (Alpha) अब तक का सबसे अधिक अभिव्यंजक टेक्स्ट-टू-स्पीच (TTS) मॉडल है, जिसमें भावनाओं और voice effects तक का सटीक नियंत्रण संभव है
- Audio Tags का उपयोग करके भावनाएं, बोलने का अंदाज़, दिशा और sound effects जैसे कई voice elements को मनचाहे ढंग से संयोजित किया जा सकता है
- यह कई वक्ताओं के बीच प्राकृतिक बातचीत वाला ऑडियो बना सकता है और 70+ भाषाओं में इंसान-जैसी आवाज़ को सपोर्ट करता है
- v2 की तुलना में voice emotions की range और effects के उपयोग का दायरा काफी बढ़ाया गया है, और UI users को जून 2025 के अंत तक 80% छूट मिल सकती है
- API support जल्द आने वाला है, और अलग-अलग voice तथा situation tags को prompt guide में देखा जा सकता है
Eleven v3 का अवलोकन
- Eleven v3 (alpha) एक next-generation Text to Speech (TTS) मॉडल है, जो पिछले versions से अलग भावनात्मक अभिव्यक्ति और immersive voice generation प्रदान करता है
- यह मॉडल दिए गए text को ऐसे speech में बदलता है जिसमें भावनाएं, intonation और rhythm उसी तरह व्यक्त होते हैं जैसे कोई इंसान पढ़ रहा हो
- उपयोगकर्ता Audio Tags के जरिए voice emotions, speaking style, sound effects और background sound तक का बारीक नियंत्रण कर सकते हैं
- text के भीतर emotion, effect और direction tags डालकर, साधारण narration से आगे बढ़ते हुए बहु-आयामी ऑडियो निर्माण संभव होता है, जिससे immersion और realism काफी बढ़ जाते हैं
कई वक्ताओं के संवाद का निर्माण
- कई speakers को context और emotion साझा करते हुए स्वाभाविक बातचीत करने वाला ऑडियो बनाने का समर्थन
- हर speaker की prosody, emotion और tags को प्रतिबिंबित करके मानव-जैसा ऑडियो synthesis संभव होता है
बहुभाषी voice support
- Afrikaans, Arabic, German, Chinese, Korean सहित 70 से अधिक भाषाओं का आधिकारिक समर्थन
- हर भाषा के विशिष्ट intonation, pronunciation और accent को स्वाभाविक रूप से दोहराता है
- multinational services, educational content और global accessibility projects जैसे कई क्षेत्रों में इसका उपयोग बहुत प्रभावी है
v3 और v2 के मुख्य अंतर
- Dialogue Mode: multiple speakers के संवाद का समर्थन
- Audio Tag support: emotions, direction, effects आदि के लिए विभिन्न audio tags का उपयोग
- emotion/effect range: v2 में pause जैसे basic tags थे, जबकि v3 में समृद्ध भावनाएं और audio effects लागू किए जा सकते हैं
- languages: v3 में 70+ भाषाएं, v2 में 29 भाषाएं
- Afrikaans, Arabic, Armenian, Assamese, Azerbaijani, Belarusian, Bengali, Bosnian, Bulgarian, Catalan, Cebuano, Chichewa, Croatian, Czech, Danish, Dutch, English, Estonian, Filipino, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Hausa, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Kyrgyz, Korean, Latvian, Lingala, Lithuanian, Luxembourgish, Macedonian, Malay, Malayalam, Standard Chinese, Marathi, Nepali, Norwegian, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Serbian, Sindhi, Slovak, Slovenian, Somali, Spanish, Swahili, Swedish, Tamil, Telugu, Thai, Turkish, Ukrainian, Urdu, Vietnamese, Welsh आदि
आवाज़ की गुणवत्ता और user experience
- voice synthesis के दौरान कम noise और high-resolution quality वाले audio files आउटपुट किए जा सकते हैं
- sentence length, भावनाओं के nuance में बदलाव और speaking speed जैसे पहलुओं का सूक्ष्म नियंत्रण संभव है, जिससे custom voice बनाना आसान होता है
- यह dynamic emotions और speaking styles को व्यक्त कर सकता है, जिन्हें पारंपरिक TTS solutions में दोहराना मुश्किल था
प्रतिस्पर्धात्मक बढ़त और उपयोग की संभावनाएं
- content creators, developers और enterprises इसे audiobooks, games, ads और accessibility improvement services में तुरंत लागू कर सकते हैं
- एक ही मॉडल से multilingual और multipurpose services संभव हैं, जिससे लागत और समय दोनों बचते हैं
- open alpha चरण में ही इसने वास्तविक सेवाओं में लागू किए जा सकने योग्य स्तर की voice quality और विविधता हासिल कर ली है
छूट और API support
- जून 2025 के अंत तक UI users 80% discounted price पर v3 alpha का उपयोग कर सकते हैं
- API जल्द उपलब्ध होगा
निष्कर्ष
- Eleven v3 Text to Speech तकनीक के क्षेत्र में अभिव्यक्ति, बहुभाषी support और customized voice क्षमताओं को मजबूत करने वाला नवीनतम मॉडल है
- यह विभिन्न उद्योगों में प्राकृतिक voice generation तकनीक की बढ़ती मांग का प्रभावी ढंग से जवाब दे सकता है
2 टिप्पणियां
अभी alpha में है, लेकिन अच्छा है..
अच्छी जानकारी के लिए धन्यवाद।
Hacker News की राय
मुझे docs या prompt guide में गाने के बारे में कोई ज़िक्र नहीं दिखा, इसलिए जिज्ञासा हुई कि क्या यह मॉडल मूल रूप से गाना भी गा सकता है
मज़ाक में Friends theme song के lyrics demo में डालकर देखा, तो output guitar sound के साथ गाती हुई आवाज़ में आया
एक दूसरे प्रयोग में [verse] और [chorus] label जोड़ने पर इसने a cappella version में गाया
[1] और [2] में सिर्फ lyrics डाले थे, जबकि [3] में verse/chorus tags डाले थे
दूसरे popular songs पर भी test किया, लेकिन किसी वजह से इतना साफ़-सुथरा singing mode नहीं मिला
output का गाना गाना दिलचस्प है, लेकिन गाना खुद बहुत खराब है, और यही इसे और ज़्यादा रोचक बनाता है
ऐसा लगता है जैसे कोई ऐसा इंसान गा रहा हो जिसे बिल्कुल गाना नहीं आता
असली Friends opening से यह काफ़ी अलग निकलता है, इसलिए लगता नहीं कि यह training data में आम तौर पर मौजूद किसी परिचित pattern पर overfit हुआ नतीजा है
Mirage AI में singing quality काफ़ी अच्छी लगती है
मुझे याद है कि model demo में भी singing शामिल थी
इसलिए शायद यह feature अंदर ही built-in है
दिलचस्प बात यह है कि नीचे वाले prompt से प्रयोग करने पर model को आख़िरी "purr" हिस्से में थोड़ी दिक्कत होती दिखती है
मैं हाल में OpenAI के नए model का काफ़ी real-world उपयोग कर रहा हूँ (openai.fm)
instructions और spoken text को अलग रखने का इसका तरीका अलग है, और शायद OpenAI अपनी products में लंबे समय से "instructions" की अवधारणा इस्तेमाल करता आया है, इसलिए training और data generation में भी यह तरीका उसे ज़्यादा स्वाभाविक लगता होगा
instructions को अलग करना थोड़ा अटपटा लग सकता है, लेकिन फ़ायदा यह है कि general instructions और situation-specific instructions को मिलाकर इस्तेमाल करना आसान हो जाता है
उदाहरण के लिए, "but actually" के बाद आवाज़ को फुसफुसाहट जैसा धीमा करना और हल्का डर दिखाना, और साथ में "British accent वाली low, deep voice" जैसी general instruction देना
OpenAI का output Eleven Labs की तुलना में ज़्यादा unpredictable लगता है और production quality भी थोड़ी कम महसूस होती है
लेकिन prosody की range काफ़ी ज़्यादा चौड़ी है, बल्कि कभी-कभी कुछ ज़्यादा ही कोशिश करता हुआ लगता है
voices की variety भी Eleven Labs से कम लगी, और अलग-अलग styles देने पर भी थोड़ा ऐसा लगता है जैसे "वही व्यक्ति अलग-अलग आवाज़ें निकालने की कोशिश कर रहा हो"
लेकिन OpenAI का सबसे बड़ा फ़ायदा यह है कि इसकी कीमत लगभग 10x कम है और billing पूरी तरह usage-based है
(TTS services का monthly subscription या extra paid credits माँगना सच में बहुत inefficient है)
मैं ElevenLabs नहीं इस्तेमाल करता और quality थोड़ी कम होने पर भी दूसरे solution चुनता हूँ, क्योंकि मैं सिर्फ़ जितना चाहिए उतना ही इस्तेमाल करना चाहता हूँ, लेकिन subscription model में हर महीने एक बड़ा chunk लेना पड़ता है, और ज़्यादा चाहिए तो फिर एक और बड़ा chunk ही खरीदना पड़ता है
मेरे हिसाब से यह pricing policy बहुत ख़राब है
उदाहरण वाक्य "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating." जैसी मशीन की प्रतिक्रिया मुझे अपमानजनक लगेगी
मुझे सिर्फ़ मदद चाहिए, अगर कोई मशीन मुझे भावनात्मक तौर पर manipulate करे तो वह बहुत डरावना भविष्य होगा
इंसानों से भी इस तरह का जवाब चिढ़ पैदा करता है, AI से तो बिल्कुल नहीं सुनना चाहता
मुझे computer से बात करना कोई मज़ेदार experience नहीं लगता, इसलिए Siri जैसे voice interface मैं बिल्कुल इस्तेमाल नहीं करता
मैं human-like बोलने वाली मशीन भी नहीं चाहता
Star Trek computer की तरह बस "काम हो रहा है..." कहकर जवाब दे दे, वही काफ़ी है
छोटी-मोटी बातों के बजाय सीधा मुद्दे पर आए तो बेहतर
मैंने अपने ChatGPT profile में validation, empathy वगैरह जैसी सारी फ़ालतू lines मना करने के लिए लगभग 5 वाक्य लिख रखे हैं, फिर भी हर बार "आपकी चिंता जायज़ है" जैसी प्रतिक्रिया लौट आती है, कुछ बदलता ही नहीं
अगर अमेरिकी अंदाज़ के दखलअंदाज़ी वाले संबोधन ("champ", "bud") यूरोप या ऑस्ट्रेलिया में भी चलन में हों, तो यह दिलचस्प होगा
यह dialogue फ़िल्म Her जैसा लगा, और आवाज़ Scarlett Johansson की आवाज़ के बेहद क़रीब थी, इसलिए लगा कि शायद यही inspiration रही हो
"ज़्यादातर मामलों में मैं मदद कर सकता हूँ", "अभी आपका order number ढूँढ़ता हूँ" जैसी lines के साथ असल में मौजूद ही न होने वाले links दे देने वाली hallucination पर मज़ाक
शायद यह कोई व्यावहारिक समस्या नहीं है, लेकिन एक मज़ेदार बात दिखी
language को Japanese पर सेट करके
गंभीरता से सोचूँ तो, जब कई भाषाएँ साथ में आज़माते हैं तो लगता है input language model processing के शुरुआती चरण में "normalize" हो जाती है
यानी prompt English में लिखो या Japanese में, नतीजों में बहुत बड़ा फ़र्क नहीं दिखता
यहाँ system prompt अलग तरह से काम करता है या नहीं, यह जानने की जिज्ञासा है
जिसे जानना हो उसके लिए जानकारी छोड़ रहा हूँ
यह model tortoise-tts-fast पर आधारित है
इस project का developer बाद में Eleven Labs में hired हुआ था
'hired हुआ' नहीं, असल में वह v3 release से 6 महीने पहले ही कंपनी छोड़ चुका था
पिछला दावा (कि project base होने का मतलब Eleven Labs में hiring से है) कारण-परिणाम साबित नहीं करता
(अमेरिकी) English voice सच में बहुत शानदार है, लेकिन laugh tag वाला हिस्सा "यहाँ हँसिए" जैसे अलग section insert होने जैसा लगता है; यह स्वाभाविक, क्षणिक हँसी कम और ज़बरदस्ती डाला गया segment ज़्यादा लगता है
उदाहरण के लिए, किसी शब्द के बीच हँसते हुए उच्चारण वाला हिस्सा अभी भी अटपटा लगता है
अगर text को इस तरह edit करें कि हँसी context के हिसाब से स्वाभाविक जगह पर आए, तो यह काफ़ी बेहतर लगता है, इसलिए इस sample को देखना सुझाऊँगा
अभी भी इसकी कीमत ऊँची है, इसलिए competitors के लिए काफ़ी जगह है
quality के मामले में ElevenLabs अब भी leader है, लेकिन competitors भी तेज़ी से पकड़ रहे हैं
खासकर Chinese AI labs और companies पूरी तरह open source TTS models जारी कर रही हैं, जिससे अमेरिकी कंपनियों के लिए भी ecosystem में बदलाव तेज़ हो रहा है
आख़िरकार इसका फ़ायदा users को ही होगा
YCombinator द्वारा funded PlayHT भी कई अच्छे features जारी कर रहा है
output सच में इतना उत्कृष्ट है कि 99% मामलों में इसे professional voice actor से अलग कर पाना मुश्किल होगा
pricing की जानकारी नहीं मिली, अगर किसी को पता हो तो जानना चाहूँगा
Eleven v3 (alpha) के लिए public API जल्द आने वाली है, ऐसा announcement देखा
early experience participation या pricing consultation के लिए sales team से संपर्क करने को कहा गया है
लगता है कंपनी ने अभी खुद भी सटीक pricing तय नहीं की है और पहले demand समझना चाहती है
ओह... मैं एक professional voice actor हूँ
फिर भी यह असली इंसान नहीं, सिर्फ़ "AI" है
असली इंसान की बोली हुई music, audiobook, कविता, उपन्यास, नाटक जैसी चीज़ें सुनाई देती रहनी चाहिए
वही मेरे लिए मूल आनंद है
यह बात थोड़ी off-topic हो सकती है (हालाँकि TTS से जुड़ी तो है ही...), लेकिन 'eleven' शब्द सुनते ही मुझे स्कॉटिश elevator voice recognition वाला comedy video याद आ गया
Elevator Voice Recognition comedy video
मुझे नहीं लगता कि मैंने British accent वाला sample देखा है
कुल मिलाकर TTS systems सिर्फ़ American accent पर ध्यान देते हैं, और British accent अक्सर Frasier जैसी "अमेरिकियों द्वारा की गई British नकल" लगती है
हमारी voice library में कई तरह की British voices हैं
या फिर prompt की शुरुआत में "[British accent]" जोड़ें, तो output ऐसा बनता है जैसे कोई अमेरिकी British accent की नकल कर रहा हो
Frasier Crane के accent का मामला बहस वाला है, क्योंकि अमेरिकी actor ने अमेरिकी character के रूप में (स्थिति के अनुसार) American होते हुए भी transatlantic या Boston Brahmin accent, या उनके blend, का प्रदर्शन किया था
दोनों accents में British जैसी कुछ विशेषताएँ शामिल हैं
जानकारी के लिए, Frasier वाला accent "British imitation" नहीं बल्कि Boston Brahmin/transatlantic तरह का accent है
ElevenLabs v2 की accent voices अभी भी competitors की तुलना में काफ़ी बेहतर हैं
मैंने इसे Arabic, French, Hindi, English जैसी कई भाषाओं में खुद इस्तेमाल किया है
English वाकई शानदार लगती है, इसके लिए बधाई देनी चाहिए
लेकिन जिन दूसरी भाषाओं को मैंने आज़माया, उनमें अभी भी English accent काफ़ी मज़बूती से बना हुआ है
Italian में यह पूरी तरह comic American accent से शुरू होता है, लेकिन 10~20 शब्दों के बाद अचानक असली Italian pronunciation में बदल जाता है
मैंने Alice voice इस्तेमाल की थी, और लगा जैसे अंदर से यह en-us base पर शुरू होकर target language के हिसाब से तेज़ी से adjust कर रहा हो
background में क्या हो रहा है, यह जानने की जिज्ञासा है
French में accent ऐसा लगा जैसे Alabama का कोई व्यक्ति college में थोड़ी-बहुत French सीखकर बोल रहा हो
फिर भी English बहुत अच्छी थी
Portuguese के मामले में, Liam voice दिलचस्प रूप से Spanish accent वाली लगती है
language icon Portuguese दिखाता है, लेकिन expression साफ़ तौर पर Brazilian Portuguese का है
Swedish तो पूरी तरह American लगती है
मैं सलाह दूँगा कि उस भाषा पर trained voice से कोशिश करें
यह research preview अभी समान रूप से consistent नहीं है, और चुनी गई voice के अनुसार quality में काफ़ी फ़र्क आता है