- Pocket TTS, 100M parameters वाला एक हल्का text-to-speech मॉडल, voice cloning फीचर के साथ आता है और सामान्य laptop CPU पर भी real-time में चल सकता है
- यह मौजूदा बड़े LLM-आधारित TTS (1B+ parameters) और छोटे Kokoro TTS (82M parameters) के बीच की performance gap को कम करते हुए, उच्च गुणवत्ता और efficiency दोनों हासिल करता है
- केवल लगभग 5 सेकंड के voice sample से speaker की आवाज़ का रंग, emotion, intonation और acoustic condition को सटीक रूप से कॉपी कर सकता है
- Continuous Audio Language Model-आधारित architecture का उपयोग कर, discrete tokens की जगह continuous latent vectors को सीधे predict करता है, जिससे quality घटाए बिना model size कम किया गया है
- MIT license open source के रूप में जारी यह मॉडल, CPU environment में भी high-quality speech synthesis संभव बनाने वाली lightweight TTS technology का नया benchmark पेश करता है
Pocket TTS का अवलोकन
- Pocket TTS एक 100M-parameter text-to-speech मॉडल है, जो voice cloning को support करता है
- laptop CPU पर भी real-time में चल सकता है
- कमांड
uvx pocket-tts serve या uvx pocket-tts generate से local execution संभव है
- इसे Kyutai ने विकसित किया है और MIT license के तहत open source जारी किया गया है
- training data के लिए केवल public English speech datasets का उपयोग किया गया
- आगे अतिरिक्त private data तक विस्तार की संभावना का भी उल्लेख है
मौजूदा TTS मॉडलों से तुलना
- वर्तमान TTS तकनीक broadly दो श्रेणियों में बंटी है
- बड़े LLM-आधारित मॉडल: उदाहरण, Kyutai TTS 1.6B (लगभग 1.6B parameters)
- अलग-अलग voices, emotions और acoustic conditions को model कर सकते हैं, लेकिन GPU की जरूरत होती है
- छोटे specialized मॉडल: उदाहरण, Kokoro TTS (82M parameters)
- fixed voice set और hand-crafted pipeline के साथ efficient हैं, लेकिन flexibility सीमित है
- Pocket TTS इन दोनों approaches के बीच का स्थान लेता है और CPU पर भी high-quality speech synthesis संभव बनाता है
प्रदर्शन मूल्यांकन
- मूल्यांकन Librispeech test-clean set पर किया गया
- audio input को Adobe Enhance Speech से refine कर 24kHz quality सुनिश्चित की गई
- तुलना के मॉडल: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
- evaluation metrics:
- Word Error Rate (WER)
- audio quality (ELO)
- speaker similarity (ELO)
- परिणाम सारांश:
- Pocket TTS का WER 1.84 रहा, जो सबसे कम error rate है
- audio quality में यह F5-TTS और DSM से बेहतर रहा
- speaker similarity baseline voice के बराबर स्तर पर रही
- यह CPU पर real-time से तेज चलने वाला एकमात्र मॉडल था
| मॉडल |
Parameters |
WER ↓ |
Audio quality (ELO) ↑ |
Speaker similarity (ELO) ↑ |
CPU real-time execution |
| F5-TTS |
336M |
2.21 |
1949 ± 27 |
1946 ± 26 |
✗ |
| Kyutai TTS 1.6B |
750M |
1.84 |
1959 ± 25 |
2037 ± 21 |
✗ |
| Chatterbox Turbo |
350M |
3.24 |
2055 ± 23 |
2012 ± 22 |
✗ |
| Kokoro |
82M |
1.93 |
voice cloning नहीं |
voice cloning नहीं |
✓ |
| Pocket TTS |
100M |
1.84 |
2016 ± 25 |
1898 ± 26 |
✓ |
- Intel Core Ultra 7 165H और Apple M3 CPU पर टेस्ट करने पर, केवल Pocket TTS और Kokoro ही real-time synthesis कर पाए
आर्किटेक्चर
- Pocket TTS को Continuous Audio Language Model रिसर्च के आधार पर डिज़ाइन किया गया है
- पारंपरिक तरीका discrete audio tokens को predict करता था, जबकि Pocket TTS सीधे continuous latent vectors को predict करता है
- इससे RQ-transformer bottleneck हटता है और model को हल्का बनाया जा सकता है
Neural Audio Codec
- इसे Mimi codec के आधार पर डिज़ाइन किया गया है
- Mimi discrete tokens में compress करता है, लेकिन Pocket TTS continuous latent representation का उपयोग करता है
- Gaussian-normalized VAE training लागू की गई
- WavLM को cosine similarity loss के साथ internal representation में distill किया गया
- RVQ चरण हटाकर पूरे latent representation पर distillation loss लागू किया गया
Generative Model
- Masked Autoregressive (MAR) framework पर आधारित
- Causal Transformer backbone और MLP sampler से बना है
- Lagrangian Self-Distillation (LSD) loss का उपयोग कर 1-step sampling लागू की गई
- inference के दौरान, predicted latent vectors को autoregressive feedback के रूप में वापस डाला जाता है
Speech और text conditioning
- model input में voice prompt (कुछ सेकंड) और text को जोड़ा जाता है
- speech को codec encoder से, और text को SentencePiece tokenizer से embed किया जाता है
Model size संरचना
- generative model (Transformer + MLP): 90M parameters
- codec decoder: 10M parameters
- codec encoder: 18M parameters (voice sample encoding के समय केवल एक बार उपयोग)
Training data
- पूरा डेटा public English speech datasets से बना है, कुल 88,000 घंटे
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia
प्रमुख तकनीकी योगदान
Head Batch Multiplier
- Transformer के computational bottleneck को कम करने के लिए z vector को कई बार reuse किया गया
- हर input sequence के लिए z को एक बार compute कर 8 बार loss computation में reuse किया गया
- इससे efficiency बढ़ी और training stability में सुधार हुआ
Gaussian Temperature Sampling
- continuous space में भी sampling temperature control लागू किया गया
- Gaussian noise variance को कम कर quality सुधारी गई
- temperature 0.7 पर अच्छे परिणाम मिले
Latent Classifier-Free Guidance (Latent CFG)
- पारंपरिक CFG को latent variable (z) स्तर पर लागू किया गया
- conditional और unconditional outputs को linear combination में जोड़कर quality सुधारी गई
- α=1.5 का उपयोग किया गया
- SoundReactor रिसर्च में भी ऐसा ही विचार देखने को मिलता है
Distillation
- CFG model को teacher model बनाकर lightweight student model में distill किया गया
- teacher model के MLP head को freeze किया गया, और student model ने L2 loss से z सीखा
- 24-layer teacher model → 6-layer student model तक छोटा करना संभव हुआ
निष्कर्ष
- Pocket TTS एक हल्का TTS मॉडल है, जो CPU पर भी real-time high-quality speech synthesis कर सकता है
- यह continuous latent space-आधारित architecture, efficient training techniques, और voice cloning को जोड़ता है
- open-source MIT license के तहत जारी होने से यह developers और researchers को reproducibility और extensibility प्रदान करता है
अभी कोई टिप्पणी नहीं है.