StyleTTS2 – ओपन सोर्स Eleven-Labs गुणवत्ता की टेक्स्ट-टू-स्पीच तकनीक
(github.com/yl4579)मानव-स्तर का टेक्स्ट-टू-स्पीच मॉडल, StyleTTS 2
- StyleTTS 2 स्टाइल diffusion और बड़े speech language models का उपयोग करने वाले adversarial learning के माध्यम से मानव-स्तर का text-to-speech (TTS) synthesis हासिल करता है.
- यह मॉडल diffusion model के जरिए style को latent random variable के रूप में मॉडल करके efficient latent diffusion हासिल करता है, ताकि reference speech के बिना टेक्स्ट के लिए सबसे उपयुक्त style तैयार किया जा सके.
- speech की naturalness बेहतर बनाने के लिए यह बड़े pre-trained speech language model को discriminator के रूप में उपयोग करता है, और नए differentiable duration modeling के साथ end-to-end training चलाता है.
तैयारी
- Python version 3.7 या उससे ऊपर की आवश्यकता है.
- StyleTTS 2 repository को clone करें और ज़रूरी Python requirements install करें.
- LJSpeech dataset डाउनलोड करें, उसे 24 kHz पर upsample करें, और data folder में extract करें.
- यदि LibriTTS dataset का उपयोग कर रहे हैं, तो train-clean-360 और train-clean-100 को मिलाकर folder का नाम train-clean-460 में बदलना होगा.
प्रशिक्षण
- पहले चरण का training और दूसरे चरण का training क्रम से चलाया जा सकता है, और मॉडल एक विशेष format में save होता है.
- data list format
filename.wav|transcription|speakerहोना चाहिए, और multi-speaker model के मामले में style diffusion model training के लिए reference audio sampling की आवश्यकता होती है.
महत्वपूर्ण सेटिंग्स
config.ymlफ़ाइल में SLM adversarial learning के लिए OOD(out-of-distribution) text path, training के लिए minimum और maximum length, multi-speaker model training सक्षम है या नहीं, और OOM(out-of-memory) समस्या से बचने के लिए batch percentage जैसी महत्वपूर्ण settings शामिल हैं.
प्री-ट्रेंड मॉड्यूल
- ASR folder में pre-trained text aligner, JDC folder में pre-trained pitch extractor, और PLBERT folder में pre-trained PL-BERT model शामिल हैं.
सामान्य समस्याएँ
- loss के NaN हो जाने और memory की कमी जैसी समस्याओं के समाधान के रूप में batch size समायोजित करना या
max_lenमान कम करना सुझाया गया है.
फाइन-ट्यूनिंग
train_second.pyscript को संशोधित करके DP का उपयोग करने वाली fine-tuning script दी गई है, जबकि DDP अभी काम नहीं करता.
अनुमान
- LJSpeech और LibriTTS datasets पर inference के लिए notebook files देखें, और LibriTTS के लिए reference audio file की आवश्यकता होती है.
- pre-trained StyleTTS 2 model डाउनलोड किया जा सकता है, और उपयोग से पहले श्रोताओं को बताना चाहिए कि synthesized speech StyleTTS 2 model द्वारा बनाई गई है, या फिर केवल वही आवाज़ इस्तेमाल करनी चाहिए जिसके उपयोग की अनुमति प्राप्त हो.
GN⁺ की राय
इस लेख की सबसे महत्वपूर्ण बात यह है कि StyleTTS 2 ने मानव-स्तर का TTS synthesis हासिल किया है, जो style diffusion और बड़े speech language models का उपयोग करने वाले adversarial learning की क्षमता को दिखाता है. यह तकनीक speech synthesis की naturalness को काफी बेहतर बना सकती है, और reference speech के बिना भी विभिन्न styles बनाने की क्षमता देकर voice-based interfaces और digital assistants के विकास पर बड़ा प्रभाव डाल सकती है.
1 टिप्पणियां
Hacker News की राय
StyleTTS2 का उपयोग करके 100% लोकल voice chatbot विकसित करने का अनुभव
StyleTTS2 की voice quality पर व्यक्तिगत राय
StyleTTS2 install और उपयोग का अनुभव साझा करना
StyleTTS2 के install और काम करने का अनुभव
StyleTTS2 voice examples और वास्तविक आवाज़ की तुलना
StyleTTS2 की sound quality का मूल्यांकन
StyleTTS2 के title और content पर राय
StyleTTS2 के inference time पर सवाल
StyleTTS2 के license पर सवाल
text-to-speech models के लिए marketplace की संभावना