Bark - ट्रांसफॉर्मर-आधारित Text-To-Audio मॉडल

xguru · 2023-04-24T09:35:19+09:00

बेहद वास्तविक बहुभाषी वॉइस जनरेशन संभव संगीत, बैकग्राउंड शोर और सरल साउंड इफेक्ट्स शामिल हंसी, आह और रोने जैसी गैर-शाब्दिक कम्युनिकेशन भी उत्पन्न कर सकता है अंग्रेज़ी/कोरियाई तथा जर्मन/फ़्रेंच/जापानी/चीनी आदि को सपोर्ट करता है Facebook के EnCodec codec का उपयोग करता है Bark, CC-BY 4.0 NC लाइसेंस के तहत है, जबकि Suno मॉडल स्वयं व्यावसायिक उपयोग के लिए उपलब्ध है

(github.com/suno-ai)

24 पॉइंट द्वारा xguru 2023-04-24 | 2 टिप्पणियां | WhatsApp पर शेयर करें

बेहद वास्तविक बहुभाषी वॉइस जनरेशन संभव
संगीत, बैकग्राउंड शोर और सरल साउंड इफेक्ट्स शामिल
हंसी, आह और रोने जैसी गैर-शाब्दिक कम्युनिकेशन भी उत्पन्न कर सकता है
अंग्रेज़ी/कोरियाई तथा जर्मन/फ़्रेंच/जापानी/चीनी आदि को सपोर्ट करता है
Facebook के EnCodec codec का उपयोग करता है
Bark, CC-BY 4.0 NC लाइसेंस के तहत है, जबकि Suno मॉडल स्वयं व्यावसायिक उपयोग के लिए उपलब्ध है

2 टिप्पणियां

dlehals2 2023-04-24

Bark की generations कभी-कभी मेरे prompts से अलग होती हैं। ऐसा क्यों होता है?
Bark एक GPT-style model है। इसलिए, यह अपनी generations में कुछ creative liberties ले सकता है, जिसके कारण पारंपरिक text-to-speech approaches की तुलना में model outputs में ज़्यादा variance हो सकता है।

यह हिस्सा थोड़ा डरावना है, haha. कभी-कभी prompt से अलग generate होने की वजह model की creative freedom बताई जा रही है..

kuroneko 2023-04-24

काफ़ी दिलचस्प है कि यह Korean generation काफ़ी अच्छी तरह करता है।

Bark - ट्रांसफॉर्मर-आधारित Text-To-Audio मॉडल

संबंधित पढ़ाई

2 टिप्पणियां