- 200,000 घंटे से अधिक के बहुभाषी speech data पर प्रशिक्षित Open Weight Text-To-Speech मॉडल
- व्यावसायिक TTS सेवाओं के "बराबर या बेहतर voice quality" और "प्राकृतिक अभिव्यक्तिपूर्णता" प्रदान करता है
- 44kHz sampling rate पर उच्च-गुणवत्ता audio output
- voice cloning सपोर्ट: केवल कुछ सेकंड के reference audio से किसी खास वक्ता की शैली को सटीक रूप से दोहराया जा सकता है
- विभिन्न control फीचर: बोलने की गति, pitch, voice quality और emotion (खुशी, डर, उदासी, गुस्सा आदि) को नियंत्रित किया जा सकता है
मुख्य विशेषताएँ
- Zero-shot TTS और voice cloning
- text और 10~30 सेकंड लंबे speaker sample को इनपुट देने पर तुरंत उच्च-गुणवत्ता speech synthesis संभव
- audio prefix input सपोर्ट
- text के साथ audio prefix जोड़ने पर अधिक सटीक speaker matching संभव
- whispering voice जैसी विशेष vocal styles लागू करने में प्रभावी
- बहुभाषी समर्थन
- अंग्रेज़ी, जापानी, चीनी, फ़्रेंच, जर्मन का समर्थन
- emotion और voice quality control
- emotion control: खुशी, गुस्सा, उदासी, डर आदि को व्यक्त किया जा सकता है
- विस्तृत voice control: speed, pitch, maximum frequency, audio quality को समायोजित किया जा सकता है
- उच्च-गति प्रदर्शन
- RTX 4090 पर real-time से लगभग 2 गुना गति से चल सकता है
- Gradio WebUI समर्थन
- आसान web interface के ज़रिए कोई भी आसानी से voice generate कर सकता है
- सरल installation और deployment
- Docker का उपयोग करके आसानी से installation और deployment किया जा सकता है
2 टिप्पणियां
अफसोस है कि Korean नहीं है,,,,
कोरियन भी काफ़ी अच्छी तरह काम करता है। हालांकि थोड़ा अटपटा लगता है।