MetaVoice-1B - 1.2B पैरामीटर Text-To-Speech मॉडल
(github.com/metavoiceio)- 1.2 बिलियन पैरामीटर वाला TTS (text-to-speech) मॉडल, जिसे 100,000 घंटे के ऑडियो पर प्रशिक्षित किया गया है
- भावनात्मक बोलने की लय और टोन (अंग्रेज़ी)
- fine-tuning के जरिए voice cloning का समर्थन (भारतीय speakers के मामले में केवल लगभग 1 मिनट के voice data से सफलता मिली)
- अमेरिकी/ब्रिटिश आवाज़ों के लिए केवल 30 सेकंड के reference audio से Zero-Shot cloning संभव
- लंबे speech synthesis का समर्थन
- Apache 2.0 लाइसेंस के तहत बिना किसी प्रतिबंध के उपयोग संभव
अभी कोई टिप्पणी नहीं है.