VALL-E - Microsoft द्वारा बनाया गया voice synthesis के लिए language model

xguru · 2023-01-10T10:24:40+09:00

Transformer-आधारित Text-to-Speech मॉडल किसी भी आवाज़ के सिर्फ 3 सेकंड होने पर उसी आवाज़ में synthesis संभव नवीनतम Zero-shot TTS की तुलना में कहीं अधिक natural और speaker से मिलती-जुलती आवाज़, साथ ही speaker की भावनाएँ और acoustic environment भी संरक्षित पहले की pipeline phoneme(स्वनिम) → mel-spectrogram → waveform थी, VALL-E में phoneme → discrete code → waveform विभिन्न voice synthesis applications में उपयोग संभव और GPT-3 जैसे AI मॉडल के साथ संयोजन भी संभव

Transformer-आधारित Text-to-Speech मॉडल
किसी भी आवाज़ के सिर्फ 3 सेकंड होने पर उसी आवाज़ में synthesis संभव
नवीनतम Zero-shot TTS की तुलना में कहीं अधिक natural और speaker से मिलती-जुलती आवाज़, साथ ही speaker की भावनाएँ और acoustic environment भी संरक्षित
पहले की pipeline phoneme(स्वनिम) → mel-spectrogram → waveform थी,
VALL-E में phoneme → discrete code → waveform
विभिन्न voice synthesis applications में उपयोग संभव और GPT-3 जैसे AI मॉडल के साथ संयोजन भी संभव

3 टिप्पणियां

openmind 2023-01-10

ऐसा लगता है कि machine learning के विकास के साथ TTS तकनीक में प्रवेश की बाधा भी कम हो गई है। Open source repositories देखें तो खुद अपनी आवाज़ रिकॉर्ड करके अपनी आवाज़ के लिए custom TTS भी बनाया जा सकता है।

jjpark78 2023-01-10

अब वॉइस वेवफ़ॉर्म भी शायद फिंगरप्रिंट की तरह किसी व्यक्ति की पहचान तय नहीं कर पाएगा। -_-;

कहीं मैंने यह भी सुना था कि जब कहीं wiretapping की जाती है, तो बड़े पैमाने के सर्वर पर किसी खास व्यक्ति के voiceprint का इस्तेमाल करके उस voiceprint के खास keywords पर प्रतिक्रिया देने के लिए सिस्टम बनाया जाता है...

अगर इस स्तर तक synthesis किया जा सकता है, तो अब ऐसे सिस्टम तो बेकार हो गए लगते हैं...

VALL-E - Microsoft द्वारा बनाया गया voice synthesis के लिए language model

संबंधित पढ़ाई

3 टिप्पणियां