Zonos - उच्च-गुणवत्ता वाला open weight speech synthesis मॉडल

xguru · 2025-02-14T10:23:01+09:00

200,000 घंटे से अधिक के बहुभाषी speech data पर प्रशिक्षित Open Weight Text-To-Speech मॉडल व्यावसायिक TTS सेवाओं के "बराबर या बेहतर voice quality" और "प्राकृतिक अभिव्यक्तिपूर्णता" प्रदान करता है 44kHz sampling rate पर उच्च-गुणवत्ता audio output voice cloning सपोर्ट: केवल कुछ सेकंड के reference audio से किसी खास वक्ता की शैली को सटीक रूप से दोहराया जा सकता है विभिन्न control फीचर: बोलने की गति, pitch, voice quality और emotion (खुशी, डर, उदासी, गुस्सा आदि) को नियंत्रित किया जा सकता है मुख्य विशेषताएँ Zero-shot TTS और voice cloning text और 10~30 सेकंड लंबे speaker sample को इनपुट देने पर तुरंत उच्च-गुणवत्ता speech synthesis संभव audio prefix input सपोर्ट text के साथ audio prefix जोड़ने पर अधिक सटीक speaker matching संभव whispering voice जैसी विशेष vocal styles लागू करने में प्रभावी बहुभाषी समर्थन अंग्रेज़ी, जापानी, चीनी, फ़्रेंच, जर्मन का समर्थन emotion और voice quality control emotion control: खुशी, गुस्सा, उदासी, डर आदि को व्यक्त किया जा सकता है विस्तृत voice control: speed, pitch, maximum frequency, audio quality को समायोजित किया जा सकता है उच्च-गति प्रदर्शन RTX 4090 पर real-time से लगभग 2 गुना गति से चल सकता है Gradio WebUI समर्थन आसान web interface के ज़रिए कोई भी आसानी से voice generate कर सकता है सरल installation और deployment Docker का उपयोग करके आसानी से installation और deployment किया जा सकता है

(github.com/Zyphra)

24 पॉइंट द्वारा xguru 2025-02-14 | 2 टिप्पणियां | WhatsApp पर शेयर करें

200,000 घंटे से अधिक के बहुभाषी speech data पर प्रशिक्षित Open Weight Text-To-Speech मॉडल
व्यावसायिक TTS सेवाओं के "बराबर या बेहतर voice quality" और "प्राकृतिक अभिव्यक्तिपूर्णता" प्रदान करता है
44kHz sampling rate पर उच्च-गुणवत्ता audio output
voice cloning सपोर्ट: केवल कुछ सेकंड के reference audio से किसी खास वक्ता की शैली को सटीक रूप से दोहराया जा सकता है
विभिन्न control फीचर: बोलने की गति, pitch, voice quality और emotion (खुशी, डर, उदासी, गुस्सा आदि) को नियंत्रित किया जा सकता है

मुख्य विशेषताएँ

Zero-shot TTS और voice cloning
- text और 10~30 सेकंड लंबे speaker sample को इनपुट देने पर तुरंत उच्च-गुणवत्ता speech synthesis संभव
audio prefix input सपोर्ट
- text के साथ audio prefix जोड़ने पर अधिक सटीक speaker matching संभव
- whispering voice जैसी विशेष vocal styles लागू करने में प्रभावी
बहुभाषी समर्थन
- अंग्रेज़ी, जापानी, चीनी, फ़्रेंच, जर्मन का समर्थन
emotion और voice quality control
- emotion control: खुशी, गुस्सा, उदासी, डर आदि को व्यक्त किया जा सकता है
- विस्तृत voice control: speed, pitch, maximum frequency, audio quality को समायोजित किया जा सकता है
उच्च-गति प्रदर्शन
- RTX 4090 पर real-time से लगभग 2 गुना गति से चल सकता है
Gradio WebUI समर्थन
- आसान web interface के ज़रिए कोई भी आसानी से voice generate कर सकता है
सरल installation और deployment
- Docker का उपयोग करके आसानी से installation और deployment किया जा सकता है

2 टिप्पणियां

mindok 2025-02-14

अफसोस है कि Korean नहीं है,,,,

marantz 2025-02-19

कोरियन भी काफ़ी अच्छी तरह काम करता है। हालांकि थोड़ा अटपटा लगता है।

Zonos - उच्च-गुणवत्ता वाला open weight speech synthesis मॉडल

मुख्य विशेषताएँ

संबंधित पढ़ाई

2 टिप्पणियां