• Sopro TTS एक अंग्रेज़ी-आधारित हल्का text-to-speech मॉडल है, जो zero-shot voice cloning और streaming generation को सपोर्ट करता है
  • इसमें 169 मिलियन parameters हैं, और CPU पर 0.25 RTF की गति से 30 सेकंड ऑडियो लगभग 7.5 सेकंड में जनरेट करता है
  • केवल 3~12 सेकंड लंबे reference audio से वक्ता की आवाज़ क्लोन की जा सकती है, और इसमें WaveNet-स्टाइल dilated conv और हल्का cross-attention आर्किटेक्चर इस्तेमाल किया गया है
  • यह एकल L40S GPU पर प्रशिक्षित कम-बजट प्रोजेक्ट है, और डेटा क्वालिटी बेहतर होने पर प्रदर्शन और सुधर सकता है
  • Streaming और non-streaming mode, CLI·Python API·web demo — सभी को सपोर्ट करता है, इसलिए डेवलपर प्रयोग और इंटीग्रेशन उपयोगिता अधिक है

Sopro TTS अवलोकन

  • Sopro का पुर्तगाली में अर्थ ‘सांस’ है, और इसे हल्के अंग्रेज़ी TTS मॉडल के रूप में विकसित किया गया है
    • Transformer की जगह dilated convolution और cross-attention को मिलाकर बना आर्किटेक्चर
    • एकल L40S GPU पर प्रशिक्षित व्यक्तिगत प्रोजेक्ट
  • मुख्य विशेषताएँ
    • 169M parameters, streaming support, zero-shot voice cloning
    • CPU पर 0.25 RTF से 30 सेकंड ऑडियो 7.5 सेकंड में जनरेट
    • 3~12 सेकंड लंबे reference audio से voice cloning संभव

इंस्टॉलेशन और रन

  • केवल न्यूनतम dependency versions निर्दिष्ट हैं, इसलिए अलग environment बनाए बिना इंस्टॉल किया जा सकता है
    • उदाहरण: torch==2.6.0 version पर M3 CPU में लगभग 3 गुना प्रदर्शन सुधार
  • इंस्टॉल करने के तरीके
    • PyPI: pip install sopro
    • GitHub repository: git clone के बाद pip install -e .

उपयोग उदाहरण

  • CLI रन उदाहरण
    • text, reference audio, output file निर्दिष्ट किए जा सकते हैं
    • --style_strength, --no_stop_head, --stop_threshold, --stop_patience जैसे विस्तृत control parameters उपलब्ध
  • Python API उदाहरण
    • SoproTTS.from_pretrained("samuel-vitorino/sopro", device="cpu") से मॉडल लोड
    • non-streaming और streaming — दोनों तरीकों का समर्थन
    • streaming mode में जनरेट हुए audio chunks को क्रमवार जोड़ा जा सकता है

इंटरैक्टिव streaming demo

  • इंस्टॉल के बाद uvicorn demo.server:app कमांड से लोकल सर्वर चलाएँ
  • या Docker से build और run किया जा सकता है
    • docker build -t sopro-demo .
    • docker run --rm -p 8000:8000 sopro-demo
  • ब्राउज़र में http://localhost:8000 खोलकर demo देखा जा सकता है

सावधानियाँ और सीमाएँ

  • output consistency में कमी हो सकती है, इसलिए parameters समायोजित करने पड़ सकते हैं
  • voice cloning quality माइक्रोफोन क्वालिटी और आसपास के शोर पर बहुत निर्भर करती है
  • non-streaming version बेहतर ऑडियो क्वालिटी देता है
  • generation length लगभग 32 सेकंड (400 frames) तक सीमित है; इससे अधिक होने पर hallucinatory output आ सकता है
  • torchaudio इस्तेमाल करने पर ffmpeg आवश्यक है, soundfile का उपयोग सुझाया गया है
  • training data pre-tokenized form में है, और स्टोरेज समस्या के कारण मूल ऑडियो हटा दिया गया
  • आगे training code को सार्वजनिक करने और multilingual support बढ़ाने की योजना का उल्लेख है

training data

  • Emilia YODAS, LibriTTS-R, Mozilla Common Voice 22, MLS datasets का उपयोग

संदर्भ और आधार तकनीक

  • Mimi Codec (Kyutai), WaveNet, Attentive Stats Pooling, AudioLM, CSM आदि के शोध और codebase का उपयोग

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.