• 1.2 बिलियन पैरामीटर वाला TTS (text-to-speech) मॉडल, जिसे 100,000 घंटे के ऑडियो पर प्रशिक्षित किया गया है
  • भावनात्मक बोलने की लय और टोन (अंग्रेज़ी)
  • fine-tuning के जरिए voice cloning का समर्थन (भारतीय speakers के मामले में केवल लगभग 1 मिनट के voice data से सफलता मिली)
  • अमेरिकी/ब्रिटिश आवाज़ों के लिए केवल 30 सेकंड के reference audio से Zero-Shot cloning संभव
  • लंबे speech synthesis का समर्थन
  • Apache 2.0 लाइसेंस के तहत बिना किसी प्रतिबंध के उपयोग संभव

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.