17 पॉइंट द्वारा xguru 2023-01-10 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • Transformer-आधारित Text-to-Speech मॉडल
  • किसी भी आवाज़ के सिर्फ 3 सेकंड होने पर उसी आवाज़ में synthesis संभव
  • नवीनतम Zero-shot TTS की तुलना में कहीं अधिक natural और speaker से मिलती-जुलती आवाज़, साथ ही speaker की भावनाएँ और acoustic environment भी संरक्षित
  • पहले की pipeline phoneme(स्वनिम) → mel-spectrogram → waveform थी,
    VALL-E में phoneme → discrete code → waveform
  • विभिन्न voice synthesis applications में उपयोग संभव और GPT-3 जैसे AI मॉडल के साथ संयोजन भी संभव

3 टिप्पणियां

 
openmind 2023-01-10

ऐसा लगता है कि machine learning के विकास के साथ TTS तकनीक में प्रवेश की बाधा भी कम हो गई है। Open source repositories देखें तो खुद अपनी आवाज़ रिकॉर्ड करके अपनी आवाज़ के लिए custom TTS भी बनाया जा सकता है।

 
jjpark78 2023-01-10

अब वॉइस वेवफ़ॉर्म भी शायद फिंगरप्रिंट की तरह किसी व्यक्ति की पहचान तय नहीं कर पाएगा। -_-;

कहीं मैंने यह भी सुना था कि जब कहीं wiretapping की जाती है, तो बड़े पैमाने के सर्वर पर किसी खास व्यक्ति के voiceprint का इस्तेमाल करके उस voiceprint के खास keywords पर प्रतिक्रिया देने के लिए सिस्टम बनाया जाता है...

अगर इस स्तर तक synthesis किया जा सकता है, तो अब ऐसे सिस्टम तो बेकार हो गए लगते हैं...