MetaVoice-1B - 1.2B पैरामीटर Text-To-Speech मॉडल

xguru · 2024-02-10T10:16:01+09:00

1.2 बिलियन पैरामीटर वाला TTS (text-to-speech) मॉडल, जिसे 100,000 घंटे के ऑडियो पर प्रशिक्षित किया गया है भावनात्मक बोलने की लय और टोन (अंग्रेज़ी) fine-tuning के जरिए voice cloning का समर्थन (भारतीय speakers के मामले में केवल लगभग 1 मिनट के voice data से सफलता मिली) अमेरिकी/ब्रिटिश आवाज़ों के लिए केवल 30 सेकंड के reference audio से Zero-Shot cloning संभव लंबे speech synthesis का समर्थन Apache 2.0 लाइसेंस के तहत बिना किसी प्रतिबंध के उपयोग संभव

(github.com/metavoiceio)

12 पॉइंट द्वारा xguru 2024-02-10 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

1.2 बिलियन पैरामीटर वाला TTS (text-to-speech) मॉडल, जिसे 100,000 घंटे के ऑडियो पर प्रशिक्षित किया गया है
भावनात्मक बोलने की लय और टोन (अंग्रेज़ी)
fine-tuning के जरिए voice cloning का समर्थन (भारतीय speakers के मामले में केवल लगभग 1 मिनट के voice data से सफलता मिली)
अमेरिकी/ब्रिटिश आवाज़ों के लिए केवल 30 सेकंड के reference audio से Zero-Shot cloning संभव
लंबे speech synthesis का समर्थन
Apache 2.0 लाइसेंस के तहत बिना किसी प्रतिबंध के उपयोग संभव

MetaVoice-1B - 1.2B पैरामीटर Text-To-Speech मॉडल

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.