VALL-E - Microsoft द्वारा बनाया गया voice synthesis के लिए language model
(valle-demo.github.io)- Transformer-आधारित Text-to-Speech मॉडल
- किसी भी आवाज़ के सिर्फ 3 सेकंड होने पर उसी आवाज़ में synthesis संभव
- नवीनतम Zero-shot TTS की तुलना में कहीं अधिक natural और speaker से मिलती-जुलती आवाज़, साथ ही speaker की भावनाएँ और acoustic environment भी संरक्षित
- पहले की pipeline phoneme(स्वनिम) → mel-spectrogram → waveform थी,
VALL-E में phoneme → discrete code → waveform - विभिन्न voice synthesis applications में उपयोग संभव और GPT-3 जैसे AI मॉडल के साथ संयोजन भी संभव
3 टिप्पणियां
ऐसा लगता है कि machine learning के विकास के साथ TTS तकनीक में प्रवेश की बाधा भी कम हो गई है। Open source repositories देखें तो खुद अपनी आवाज़ रिकॉर्ड करके अपनी आवाज़ के लिए custom TTS भी बनाया जा सकता है।
अब वॉइस वेवफ़ॉर्म भी शायद फिंगरप्रिंट की तरह किसी व्यक्ति की पहचान तय नहीं कर पाएगा। -_-;
कहीं मैंने यह भी सुना था कि जब कहीं wiretapping की जाती है, तो बड़े पैमाने के सर्वर पर किसी खास व्यक्ति के voiceprint का इस्तेमाल करके उस voiceprint के खास keywords पर प्रतिक्रिया देने के लिए सिस्टम बनाया जाता है...
अगर इस स्तर तक synthesis किया जा सकता है, तो अब ऐसे सिस्टम तो बेकार हो गए लगते हैं...