- Sopro TTS एक अंग्रेज़ी-आधारित हल्का text-to-speech मॉडल है, जो zero-shot voice cloning और streaming generation को सपोर्ट करता है
- इसमें 169 मिलियन parameters हैं, और CPU पर 0.25 RTF की गति से 30 सेकंड ऑडियो लगभग 7.5 सेकंड में जनरेट करता है
- केवल 3~12 सेकंड लंबे reference audio से वक्ता की आवाज़ क्लोन की जा सकती है, और इसमें WaveNet-स्टाइल dilated conv और हल्का cross-attention आर्किटेक्चर इस्तेमाल किया गया है
- यह एकल L40S GPU पर प्रशिक्षित कम-बजट प्रोजेक्ट है, और डेटा क्वालिटी बेहतर होने पर प्रदर्शन और सुधर सकता है
- Streaming और non-streaming mode, CLI·Python API·web demo — सभी को सपोर्ट करता है, इसलिए डेवलपर प्रयोग और इंटीग्रेशन उपयोगिता अधिक है
Sopro TTS अवलोकन
- Sopro का पुर्तगाली में अर्थ ‘सांस’ है, और इसे हल्के अंग्रेज़ी TTS मॉडल के रूप में विकसित किया गया है
- Transformer की जगह dilated convolution और cross-attention को मिलाकर बना आर्किटेक्चर
- एकल L40S GPU पर प्रशिक्षित व्यक्तिगत प्रोजेक्ट
- मुख्य विशेषताएँ
- 169M parameters, streaming support, zero-shot voice cloning
- CPU पर 0.25 RTF से 30 सेकंड ऑडियो 7.5 सेकंड में जनरेट
- 3~12 सेकंड लंबे reference audio से voice cloning संभव
इंस्टॉलेशन और रन
- केवल न्यूनतम dependency versions निर्दिष्ट हैं, इसलिए अलग environment बनाए बिना इंस्टॉल किया जा सकता है
- उदाहरण:
torch==2.6.0 version पर M3 CPU में लगभग 3 गुना प्रदर्शन सुधार
- इंस्टॉल करने के तरीके
- PyPI:
pip install sopro
- GitHub repository:
git clone के बाद pip install -e .
उपयोग उदाहरण
- CLI रन उदाहरण
- text, reference audio, output file निर्दिष्ट किए जा सकते हैं
--style_strength, --no_stop_head, --stop_threshold, --stop_patience जैसे विस्तृत control parameters उपलब्ध
- Python API उदाहरण
SoproTTS.from_pretrained("samuel-vitorino/sopro", device="cpu") से मॉडल लोड
- non-streaming और streaming — दोनों तरीकों का समर्थन
- streaming mode में जनरेट हुए audio chunks को क्रमवार जोड़ा जा सकता है
इंटरैक्टिव streaming demo
- इंस्टॉल के बाद
uvicorn demo.server:app कमांड से लोकल सर्वर चलाएँ
- या Docker से build और run किया जा सकता है
docker build -t sopro-demo .
docker run --rm -p 8000:8000 sopro-demo
- ब्राउज़र में
http://localhost:8000 खोलकर demo देखा जा सकता है
सावधानियाँ और सीमाएँ
- output consistency में कमी हो सकती है, इसलिए parameters समायोजित करने पड़ सकते हैं
- voice cloning quality माइक्रोफोन क्वालिटी और आसपास के शोर पर बहुत निर्भर करती है
- non-streaming version बेहतर ऑडियो क्वालिटी देता है
- generation length लगभग 32 सेकंड (400 frames) तक सीमित है; इससे अधिक होने पर hallucinatory output आ सकता है
- torchaudio इस्तेमाल करने पर ffmpeg आवश्यक है,
soundfile का उपयोग सुझाया गया है
- training data pre-tokenized form में है, और स्टोरेज समस्या के कारण मूल ऑडियो हटा दिया गया
- आगे training code को सार्वजनिक करने और multilingual support बढ़ाने की योजना का उल्लेख है
training data
- Emilia YODAS, LibriTTS-R, Mozilla Common Voice 22, MLS datasets का उपयोग
संदर्भ और आधार तकनीक
- Mimi Codec (Kyutai), WaveNet, Attentive Stats Pooling, AudioLM, CSM आदि के शोध और codebase का उपयोग
अभी कोई टिप्पणी नहीं है.