Play 3.0 Mini पेश: हल्का, किफायती बहुभाषी Text-To-Speech मॉडल

(play.ht)

23 पॉइंट द्वारा GN⁺ 2024-11-03 | 4 टिप्पणियां | WhatsApp पर शेयर करें

30 से अधिक भाषाओं में इंडस्ट्री-लीडिंग गति और सटीकता के साथ किसी भी आवाज़ या accent में बोल सकने वाला सबसे सक्षम और conversational voice model
- साथ ही कई भाषाओं में 50 से अधिक नई conversational AI voices भी जारी की गई हैं
TTS का उपयोग करके real-time applications बनाते समय latency, reliability, audio quality और voice की naturalness बेहद महत्वपूर्ण हैं

Play 3.0 mini अब तक का सबसे तेज conversational voice model है

3.0 mini ने TTFB के लिए औसतन 189 milliseconds की latency हासिल की है, जिससे यह सबसे तेज AI Text to Speech model बन गया है
यह LLM से text input streaming और audio output streaming को support करता है, और HTTP REST API, WebSocket API या SDK के जरिए उपयोग किया जा सकता है
3.0 mini, Play 2.0 की तुलना में अधिक efficient भी है और inference speed 28% अधिक तेज है

Play 3.0 mini 30 से अधिक भाषाओं में सभी voices को support करता है

Play 3.0 mini अब डिफ़ॉल्ट रूप से 30 से अधिक भाषाओं को support करता है, जिनमें कई male और female voice options शामिल हैं
English, Japanese, Hindi, Arabic, Spanish, Italian, German, French और Portuguese voices अब production use cases के लिए उपलब्ध हैं और API तथा playground में इस्तेमाल की जा सकती हैं
साथ ही Afrikaans, Bulgarian, Croatian, Czech, Hebrew, Hungarian, Indonesian, Malay, Mandarin, Polish, Serbian, Swedish, Tagalog, Thai, Turkish, Ukrainian, Urdu और Xhosa को भी test किया जा सकता है

Play 3.0 mini अधिक सटीक है

Play 3.0 mini का लक्ष्य conversational AI के लिए सर्वश्रेष्ठ TTS model बनाना था
इसे हासिल करने के लिए model को सबसे conversational tone में voice generate करते हुए latency और accuracy, दोनों में competitors के models से बेहतर होना था
LLM hallucinate करते हैं, और voice LLM भी इससे अलग नहीं हैं। voice LLM में hallucination का मतलब output audio में ऐसे अतिरिक्त या गायब शब्द या numbers हो सकते हैं, जो input text का हिस्सा नहीं थे

Play 3.0 mini अक्षरों और संख्याओं के combinations को अधिक स्वाभाविक ढंग से पढ़ता है

हमने model को इस तरह train किया कि वह numbers और initials को इंसानों की तरह पढ़ सके
model speed को adjust करता है और सभी alphabetic तथा numeric characters की गति को धीमा करता है
उदाहरण के लिए, phone numbers अधिक स्वाभाविक गति से पढ़े जाते हैं, और यही बात सभी initials और abbreviations पर भी लागू होती है
इससे कुल conversational experience अधिक natural हो जाता है

Play 3.0 mini voice cloning के लिए सबसे बेहतर voice similarity हासिल करता है

voice cloning में अक्सर केवल मिलती-जुलती आवाज़ पर्याप्त नहीं होती
Play 3.0 voice cloning, voices को clone करते समय state-of-the-art performance हासिल करता है और cloned voice की intonation, tone और accent को सटीक रूप से दोहराता है
लोकप्रिय open source embedding models का उपयोग करके किए गए benchmarking में यह original voice से similarity के मामले में competitors के models से काफ़ी आगे रहा
play.ai पर अपनी आवाज़ clone करें और खुद से बात करके इसे सीधे आज़माएँ

WebSocket API support

3.0 mini का API अब WebSocket को support करता है, जिससे HTTP connections को खोलने और बंद करने का overhead काफ़ी कम हो जाता है और LLM या अन्य sources से text input streaming को अधिक आसानी से enable किया जा सकता है

Play 3.0 mini एक किफायती model है

हमें यह घोषणा करते हुए खुशी है कि high-volume startup और growth tiers के लिए कीमतें कम की गई हैं, और अब comparatively modest requirements वाले businesses के लिए $49 प्रति माह का नया Pro tier भी पेश किया गया है
नई pricing table यहाँ देखें
हम यह देखने के लिए उत्साहित हैं कि आप हमारे साथ क्या बनाएँगे! यदि आपकी custom high-volume requirements हैं, तो कृपया sales team से संपर्क करें

GN+ की राय

conversational AI के लिए सबसे भरोसेमंद voice model विकसित करने की Play.ht की कोशिश प्रभावशाली है। latency और accuracy के मामले में competitors से आगे होने और सबसे natural conversational voices बनाने के कारण यह model इंडस्ट्री में अग्रणी बन सकता है
30 से अधिक भाषाओं और विभिन्न voice options का support देना अधिक users और use cases तक पहुँचने की दिशा में एक महत्वपूर्ण कदम है। इससे voice AI के व्यापक adoption में मदद मिलेगी
हालांकि, इस technology को अपनाते समय ethical considerations को ध्यान में रखना चाहिए। उदाहरण के लिए, बिना consent के किसी व्यक्ति की आवाज़ clone करना privacy concerns पैदा कर सकता है। साथ ही इस technology के misinformation फैलाने में दुरुपयोग की संभावना भी है
समान capabilities वाले अन्य उल्लेखनीय voice AI projects में Google का Tacotron और DeepMind का WaveNet शामिल हैं। ये models भी multilingual support और natural generated speech पर ध्यान केंद्रित करते हैं
निष्कर्षतः, Play 3.0 mini conversational AI में voice technology के लिए एक नया benchmark स्थापित करता है। developers अब विभिन्न real-time applications के लिए तेज, सटीक और natural TTS का लाभ उठा सकेंगे। हालांकि, इस technology के संभावित दुरुपयोग को रोकने के लिए मजबूत safeguards और ethical guidelines भी होने चाहिए

4 टिप्पणियां

dane1 2024-11-04

लेकिन Playground में देखा तो Korean फिर से मौजूद है?

dane1 2024-11-04

अरे, इतनी सारी भाषाओं का support है, लेकिन Korean ही नहीं है T_T

hmmhmmhm 2024-11-03

दुर्भाग्य से लगता है कि Korean अभी तक सपोर्ट नहीं किया गया है T_T

GN⁺ 2024-11-03

Hacker News राय

हाल ही में जारी किया गया open source TTS मॉडल बेहतरीन voice cloning क्षमता देता है। इसे 10G VRAM वाले NVIDIA GPU पर चलाया जा सकता है।
Firefox में live test काम नहीं किया, लेकिन Chrome पर स्विच करते ही यह जल्दी चलने लगा। 30 सेकंड में अपनी आवाज़ क्लोन करके उससे बातचीत की जा सकी। यह इतना परिष्कृत है कि ज़्यादातर लोगों को धोखा दे सकता है।
यह मॉडल Cartesia और OpenAI के TTS API की तुलना में अधिक महंगा पड़ता है। आम तौर पर TTS API, LLM की तुलना में अधिक margin पर चलाए जाते हैं।
अंग्रेज़ी के अलावा दूसरी भाषाओं में transcription फीचर उपयोगी नहीं है। अगर transcription सही हो तो translation और voice response बहुत तेज़ होते हैं, लेकिन transcription अच्छी न हो तो यह बेकार है।
गर्मियों के दौरान Go और Rust के लिए API client लिखे गए। उस समय काम पर Play का इस्तेमाल किया गया था, लेकिन केवल Python और Node SDK मौजूद थे।
अपनी जैसी आवाज़ के साथ low-latency बातचीत करना कुछ असहज महसूस करा सकता है। फिर भी यह बहुत सोचने पर मजबूर करने वाला अनुभव है।
क्लोन की गई आवाज़ बहुत मिलती-जुलती लगी, लेकिन blind test में पाँचों लोगों ने इसे उसकी अपनी आवाज़ के रूप में नहीं पहचाना। इससे यह सवाल उठता है कि क्या अपनी आवाज़ सुनते समय कोई bias होता है।
OpenAI का मॉडल संख्याओं के उच्चारण में अच्छा प्रदर्शन नहीं करता। यह बात चौंकाने वाली है कि 2024 में भी ऐसा TTS मॉडल जारी हुआ जो संख्याएँ सही से नहीं बोल पाता। माना जाता है कि नए TTS मॉडल कम-से-कम 100,000 तक की संख्याओं के लिए सत्यापित होने चाहिए।