3 पॉइंट द्वारा GN⁺ 2023-11-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें

मानव-स्तर का टेक्स्ट-टू-स्पीच मॉडल, StyleTTS 2

  • StyleTTS 2 स्टाइल diffusion और बड़े speech language models का उपयोग करने वाले adversarial learning के माध्यम से मानव-स्तर का text-to-speech (TTS) synthesis हासिल करता है.
  • यह मॉडल diffusion model के जरिए style को latent random variable के रूप में मॉडल करके efficient latent diffusion हासिल करता है, ताकि reference speech के बिना टेक्स्ट के लिए सबसे उपयुक्त style तैयार किया जा सके.
  • speech की naturalness बेहतर बनाने के लिए यह बड़े pre-trained speech language model को discriminator के रूप में उपयोग करता है, और नए differentiable duration modeling के साथ end-to-end training चलाता है.

तैयारी

  • Python version 3.7 या उससे ऊपर की आवश्यकता है.
  • StyleTTS 2 repository को clone करें और ज़रूरी Python requirements install करें.
  • LJSpeech dataset डाउनलोड करें, उसे 24 kHz पर upsample करें, और data folder में extract करें.
  • यदि LibriTTS dataset का उपयोग कर रहे हैं, तो train-clean-360 और train-clean-100 को मिलाकर folder का नाम train-clean-460 में बदलना होगा.

प्रशिक्षण

  • पहले चरण का training और दूसरे चरण का training क्रम से चलाया जा सकता है, और मॉडल एक विशेष format में save होता है.
  • data list format filename.wav|transcription|speaker होना चाहिए, और multi-speaker model के मामले में style diffusion model training के लिए reference audio sampling की आवश्यकता होती है.

महत्वपूर्ण सेटिंग्स

  • config.yml फ़ाइल में SLM adversarial learning के लिए OOD(out-of-distribution) text path, training के लिए minimum और maximum length, multi-speaker model training सक्षम है या नहीं, और OOM(out-of-memory) समस्या से बचने के लिए batch percentage जैसी महत्वपूर्ण settings शामिल हैं.

प्री-ट्रेंड मॉड्यूल

  • ASR folder में pre-trained text aligner, JDC folder में pre-trained pitch extractor, और PLBERT folder में pre-trained PL-BERT model शामिल हैं.

सामान्य समस्याएँ

  • loss के NaN हो जाने और memory की कमी जैसी समस्याओं के समाधान के रूप में batch size समायोजित करना या max_len मान कम करना सुझाया गया है.

फाइन-ट्यूनिंग

  • train_second.py script को संशोधित करके DP का उपयोग करने वाली fine-tuning script दी गई है, जबकि DDP अभी काम नहीं करता.

अनुमान

  • LJSpeech और LibriTTS datasets पर inference के लिए notebook files देखें, और LibriTTS के लिए reference audio file की आवश्यकता होती है.
  • pre-trained StyleTTS 2 model डाउनलोड किया जा सकता है, और उपयोग से पहले श्रोताओं को बताना चाहिए कि synthesized speech StyleTTS 2 model द्वारा बनाई गई है, या फिर केवल वही आवाज़ इस्तेमाल करनी चाहिए जिसके उपयोग की अनुमति प्राप्त हो.

GN⁺ की राय

इस लेख की सबसे महत्वपूर्ण बात यह है कि StyleTTS 2 ने मानव-स्तर का TTS synthesis हासिल किया है, जो style diffusion और बड़े speech language models का उपयोग करने वाले adversarial learning की क्षमता को दिखाता है. यह तकनीक speech synthesis की naturalness को काफी बेहतर बना सकती है, और reference speech के बिना भी विभिन्न styles बनाने की क्षमता देकर voice-based interfaces और digital assistants के विकास पर बड़ा प्रभाव डाल सकती है.

1 टिप्पणियां

 
GN⁺ 2023-11-20
Hacker News की राय
  • StyleTTS2 का उपयोग करके 100% लोकल voice chatbot विकसित करने का अनुभव

    • StyleTTS2, Whisper, OpenHermes2-Mistral-7B जैसे open source टूल्स का उपयोग करके बनाया गया chatbot, ChatGPT की तुलना में कहीं तेज़ response speed दिखाता है.
    • मौजूदा voice assistants के विपरीत, यह स्वाभाविक बातचीत कर सकता है, और खास तौर पर 12GB Nvidia GPU वाले Windows gaming PC पर एक क्लिक में install करके बातचीत की जा सकती है.
    • डेमो थोड़ा अस्थिर है (headphones की ज़रूरत, console app के रूप में चलना आदि), लेकिन यह open source संयोजन के साथ gaming PC पर चल सकने वाले भविष्य की संभावना दिखाता है.
  • StyleTTS2 की voice quality पर व्यक्तिगत राय

    • आवाज़ बहुत अच्छी है, लेकिन उपयोग से पहले अपनी पसंद की आरामदायक आवाज़ में clone करना चाहेंगे.
  • StyleTTS2 install और उपयोग का अनुभव साझा करना

    • StyleTTS2 को test करने का अनुभव और locale settings में काम आ सकने वाले step-by-step notes साझा किए गए.
    • LJSpeech model के साथ speed/quality तुलना में StyleTTS2 बहुत तेज़ है और quality भी अच्छी है.
  • StyleTTS2 के install और काम करने का अनुभव

    • documentation थोड़ी अधूरी होने के कारण install थोड़ा पेचीदा था, लेकिन लगभग 20 मिनट बाद यह WSL Ubuntu 22.04 पर अच्छी तरह चलने लगा.
    • sound quality बहुत अच्छी है, और खासकर 4090 GPU का उपयोग करने पर यह बहुत तेज़ है.
    • यह Eleven Labs की quality तक नहीं पहुँचता, लेकिन Eleven की ताकत उसकी उच्च-गुणवत्ता वाली विविध voice library और सिर्फ 5 मिनट के sample से आश्चर्यजनक रूप से अच्छी तरह काम करने वाली instant voice cloning feature है.
    • उम्मीद है कि ये सुविधाएँ पूरी तरह open source project में भी उपलब्ध होंगी.
  • StyleTTS2 voice examples और वास्तविक आवाज़ की तुलना

    • TTS2 के voice examples वास्तविक आवाज़ से अधिक स्वाभाविक सुनाई देते हैं.
    • audiobooks न होने वाली ePub files, खासकर जापानी light novels आदि के लिए इस तकनीक का उपयोग करने को लेकर उत्साह है.
  • StyleTTS2 की sound quality का मूल्यांकन

    • sound quality बेहद शानदार है, और यह शुरुआती 2000 के दशक में कल्पना से परे का स्तर है.
    • ऐसे games के लिए दिलचस्प संभावनाएँ हैं जहाँ LLM character निभाए और TTS NPC को voice दे.
  • StyleTTS2 के title और content पर राय

    • अभी Hacker News का title "StyleTTS2 – open source Eleven Labs quality text-to-speech" है, लेकिन वास्तविक title या arXiv paper में Eleven Labs का कोई उल्लेख नहीं है.
    • इस तरह की editorial wording पर चिंता जताई गई.
  • StyleTTS2 के inference time पर सवाल

    • आधुनिक CPU पर inference time के मोटे अनुमान के बारे में सवाल.
  • StyleTTS2 के license पर सवाल

    • चूँकि license MIT नहीं है, क्या इसे commercial use के लिए इस्तेमाल नहीं किया जा सकता, इस पर सवाल.
  • text-to-speech models के लिए marketplace की संभावना

    • यह जिज्ञासा कि क्या Civitai-शैली का LoRA marketplace text-to-speech models के लिए भी आएगा.