Sopro TTS: CPU पर चलने वाला, zero-shot voice cloning को सपोर्ट करने वाला 169M-पैरामीटर TTS मॉडल

(github.com/samuel-vitorino)

3 पॉइंट द्वारा GN⁺ 2026-01-10 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Sopro TTS एक अंग्रेज़ी-आधारित हल्का text-to-speech मॉडल है, जो zero-shot voice cloning और streaming generation को सपोर्ट करता है
इसमें 169 मिलियन parameters हैं, और CPU पर 0.25 RTF की गति से 30 सेकंड ऑडियो लगभग 7.5 सेकंड में जनरेट करता है
केवल 3~12 सेकंड लंबे reference audio से वक्ता की आवाज़ क्लोन की जा सकती है, और इसमें WaveNet-स्टाइल dilated conv और हल्का cross-attention आर्किटेक्चर इस्तेमाल किया गया है
यह एकल L40S GPU पर प्रशिक्षित कम-बजट प्रोजेक्ट है, और डेटा क्वालिटी बेहतर होने पर प्रदर्शन और सुधर सकता है
Streaming और non-streaming mode, CLI·Python API·web demo — सभी को सपोर्ट करता है, इसलिए डेवलपर प्रयोग और इंटीग्रेशन उपयोगिता अधिक है

Sopro TTS अवलोकन

Sopro का पुर्तगाली में अर्थ ‘सांस’ है, और इसे हल्के अंग्रेज़ी TTS मॉडल के रूप में विकसित किया गया है
- Transformer की जगह dilated convolution और cross-attention को मिलाकर बना आर्किटेक्चर
- एकल L40S GPU पर प्रशिक्षित व्यक्तिगत प्रोजेक्ट
मुख्य विशेषताएँ
- 169M parameters, streaming support, zero-shot voice cloning
- CPU पर 0.25 RTF से 30 सेकंड ऑडियो 7.5 सेकंड में जनरेट
- 3~12 सेकंड लंबे reference audio से voice cloning संभव

केवल न्यूनतम dependency versions निर्दिष्ट हैं, इसलिए अलग environment बनाए बिना इंस्टॉल किया जा सकता है
- उदाहरण: torch==2.6.0 version पर M3 CPU में लगभग 3 गुना प्रदर्शन सुधार
इंस्टॉल करने के तरीके
- PyPI: pip install sopro
- GitHub repository: git clone के बाद pip install -e .

CLI रन उदाहरण
- text, reference audio, output file निर्दिष्ट किए जा सकते हैं
- --style_strength, --no_stop_head, --stop_threshold, --stop_patience जैसे विस्तृत control parameters उपलब्ध
Python API उदाहरण
- SoproTTS.from_pretrained("samuel-vitorino/sopro", device="cpu") से मॉडल लोड
- non-streaming और streaming — दोनों तरीकों का समर्थन
- streaming mode में जनरेट हुए audio chunks को क्रमवार जोड़ा जा सकता है

इंस्टॉल के बाद uvicorn demo.server:app कमांड से लोकल सर्वर चलाएँ
या Docker से build और run किया जा सकता है
- docker build -t sopro-demo .
- docker run --rm -p 8000:8000 sopro-demo
ब्राउज़र में http://localhost:8000 खोलकर demo देखा जा सकता है

output consistency में कमी हो सकती है, इसलिए parameters समायोजित करने पड़ सकते हैं
voice cloning quality माइक्रोफोन क्वालिटी और आसपास के शोर पर बहुत निर्भर करती है
non-streaming version बेहतर ऑडियो क्वालिटी देता है
generation length लगभग 32 सेकंड (400 frames) तक सीमित है; इससे अधिक होने पर hallucinatory output आ सकता है
torchaudio इस्तेमाल करने पर ffmpeg आवश्यक है, soundfile का उपयोग सुझाया गया है
training data pre-tokenized form में है, और स्टोरेज समस्या के कारण मूल ऑडियो हटा दिया गया
आगे training code को सार्वजनिक करने और multilingual support बढ़ाने की योजना का उल्लेख है

Emilia YODAS, LibriTTS-R, Mozilla Common Voice 22, MLS datasets का उपयोग

Mimi Codec (Kyutai), WaveNet, Attentive Stats Pooling, AudioLM, CSM आदि के शोध और codebase का उपयोग