Bark - ट्रांसफॉर्मर-आधारित Text-To-Audio मॉडल
(github.com/suno-ai)- बेहद वास्तविक बहुभाषी वॉइस जनरेशन संभव
- संगीत, बैकग्राउंड शोर और सरल साउंड इफेक्ट्स शामिल
- हंसी, आह और रोने जैसी गैर-शाब्दिक कम्युनिकेशन भी उत्पन्न कर सकता है
- अंग्रेज़ी/कोरियाई तथा जर्मन/फ़्रेंच/जापानी/चीनी आदि को सपोर्ट करता है
- Facebook के EnCodec codec का उपयोग करता है
- Bark, CC-BY 4.0 NC लाइसेंस के तहत है, जबकि Suno मॉडल स्वयं व्यावसायिक उपयोग के लिए उपलब्ध है
2 टिप्पणियां
Bark की generations कभी-कभी मेरे prompts से अलग होती हैं। ऐसा क्यों होता है?
Bark एक GPT-style model है। इसलिए, यह अपनी generations में कुछ creative liberties ले सकता है, जिसके कारण पारंपरिक text-to-speech approaches की तुलना में model outputs में ज़्यादा variance हो सकता है।
यह हिस्सा थोड़ा डरावना है, haha. कभी-कभी prompt से अलग generate होने की वजह model की creative freedom बताई जा रही है..
काफ़ी दिलचस्प है कि यह Korean generation काफ़ी अच्छी तरह करता है।