Pocket TTS: CPU को आवाज़ देने वाला उच्च-गुणवत्ता TTS

(kyutai.org)

18 पॉइंट द्वारा GN⁺ 2026-01-16 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Pocket TTS, 100M parameters वाला एक हल्का text-to-speech मॉडल, voice cloning फीचर के साथ आता है और सामान्य laptop CPU पर भी real-time में चल सकता है
यह मौजूदा बड़े LLM-आधारित TTS (1B+ parameters) और छोटे Kokoro TTS (82M parameters) के बीच की performance gap को कम करते हुए, उच्च गुणवत्ता और efficiency दोनों हासिल करता है
केवल लगभग 5 सेकंड के voice sample से speaker की आवाज़ का रंग, emotion, intonation और acoustic condition को सटीक रूप से कॉपी कर सकता है
Continuous Audio Language Model-आधारित architecture का उपयोग कर, discrete tokens की जगह continuous latent vectors को सीधे predict करता है, जिससे quality घटाए बिना model size कम किया गया है
MIT license open source के रूप में जारी यह मॉडल, CPU environment में भी high-quality speech synthesis संभव बनाने वाली lightweight TTS technology का नया benchmark पेश करता है

Pocket TTS का अवलोकन

Pocket TTS एक 100M-parameter text-to-speech मॉडल है, जो voice cloning को support करता है
- laptop CPU पर भी real-time में चल सकता है
- कमांड uvx pocket-tts serve या uvx pocket-tts generate से local execution संभव है
इसे Kyutai ने विकसित किया है और MIT license के तहत open source जारी किया गया है
- training data के लिए केवल public English speech datasets का उपयोग किया गया
- आगे अतिरिक्त private data तक विस्तार की संभावना का भी उल्लेख है

मौजूदा TTS मॉडलों से तुलना

वर्तमान TTS तकनीक broadly दो श्रेणियों में बंटी है
- बड़े LLM-आधारित मॉडल: उदाहरण, Kyutai TTS 1.6B (लगभग 1.6B parameters)
  - अलग-अलग voices, emotions और acoustic conditions को model कर सकते हैं, लेकिन GPU की जरूरत होती है
- छोटे specialized मॉडल: उदाहरण, Kokoro TTS (82M parameters)
  - fixed voice set और hand-crafted pipeline के साथ efficient हैं, लेकिन flexibility सीमित है
Pocket TTS इन दोनों approaches के बीच का स्थान लेता है और CPU पर भी high-quality speech synthesis संभव बनाता है

प्रदर्शन मूल्यांकन

मूल्यांकन Librispeech test-clean set पर किया गया
- audio input को Adobe Enhance Speech से refine कर 24kHz quality सुनिश्चित की गई
तुलना के मॉडल: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
evaluation metrics:
- Word Error Rate (WER)
- audio quality (ELO)
- speaker similarity (ELO)
परिणाम सारांश:
- Pocket TTS का WER 1.84 रहा, जो सबसे कम error rate है
- audio quality में यह F5-TTS और DSM से बेहतर रहा
- speaker similarity baseline voice के बराबर स्तर पर रही
- यह CPU पर real-time से तेज चलने वाला एकमात्र मॉडल था

मॉडल	Parameters	WER ↓	Audio quality (ELO) ↑	Speaker similarity (ELO) ↑	CPU real-time execution
F5-TTS	336M	2.21	1949 ± 27	1946 ± 26	✗
Kyutai TTS 1.6B	750M	1.84	1959 ± 25	2037 ± 21	✗
Chatterbox Turbo	350M	3.24	2055 ± 23	2012 ± 22	✗
Kokoro	82M	1.93	voice cloning नहीं	voice cloning नहीं	✓
Pocket TTS	100M	1.84	2016 ± 25	1898 ± 26	✓

Intel Core Ultra 7 165H और Apple M3 CPU पर टेस्ट करने पर, केवल Pocket TTS और Kokoro ही real-time synthesis कर पाए

आर्किटेक्चर

Pocket TTS को Continuous Audio Language Model रिसर्च के आधार पर डिज़ाइन किया गया है
- पारंपरिक तरीका discrete audio tokens को predict करता था, जबकि Pocket TTS सीधे continuous latent vectors को predict करता है
- इससे RQ-transformer bottleneck हटता है और model को हल्का बनाया जा सकता है

Neural Audio Codec

इसे Mimi codec के आधार पर डिज़ाइन किया गया है
- Mimi discrete tokens में compress करता है, लेकिन Pocket TTS continuous latent representation का उपयोग करता है
- Gaussian-normalized VAE training लागू की गई
- WavLM को cosine similarity loss के साथ internal representation में distill किया गया
- RVQ चरण हटाकर पूरे latent representation पर distillation loss लागू किया गया

Generative Model

Masked Autoregressive (MAR) framework पर आधारित
- Causal Transformer backbone और MLP sampler से बना है
- Lagrangian Self-Distillation (LSD) loss का उपयोग कर 1-step sampling लागू की गई
- inference के दौरान, predicted latent vectors को autoregressive feedback के रूप में वापस डाला जाता है

Speech और text conditioning

model input में voice prompt (कुछ सेकंड) और text को जोड़ा जाता है
- speech को codec encoder से, और text को SentencePiece tokenizer से embed किया जाता है

Model size संरचना

generative model (Transformer + MLP): 90M parameters
codec decoder: 10M parameters
codec encoder: 18M parameters (voice sample encoding के समय केवल एक बार उपयोग)

Training data

पूरा डेटा public English speech datasets से बना है, कुल 88,000 घंटे
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

प्रमुख तकनीकी योगदान

Head Batch Multiplier

Transformer के computational bottleneck को कम करने के लिए z vector को कई बार reuse किया गया
- हर input sequence के लिए z को एक बार compute कर 8 बार loss computation में reuse किया गया
- इससे efficiency बढ़ी और training stability में सुधार हुआ

Gaussian Temperature Sampling

continuous space में भी sampling temperature control लागू किया गया
- Gaussian noise variance को कम कर quality सुधारी गई
- temperature 0.7 पर अच्छे परिणाम मिले

Latent Classifier-Free Guidance (Latent CFG)

पारंपरिक CFG को latent variable (z) स्तर पर लागू किया गया
- conditional और unconditional outputs को linear combination में जोड़कर quality सुधारी गई
- α=1.5 का उपयोग किया गया
- SoundReactor रिसर्च में भी ऐसा ही विचार देखने को मिलता है

Distillation

CFG model को teacher model बनाकर lightweight student model में distill किया गया
- teacher model के MLP head को freeze किया गया, और student model ने L2 loss से z सीखा
- 24-layer teacher model → 6-layer student model तक छोटा करना संभव हुआ

निष्कर्ष

Pocket TTS एक हल्का TTS मॉडल है, जो CPU पर भी real-time high-quality speech synthesis कर सकता है
यह continuous latent space-आधारित architecture, efficient training techniques, और voice cloning को जोड़ता है
open-source MIT license के तहत जारी होने से यह developers और researchers को reproducibility और extensibility प्रदान करता है

Pocket TTS: CPU को आवाज़ देने वाला उच्च-गुणवत्ता TTS

Pocket TTS का अवलोकन

मौजूदा TTS मॉडलों से तुलना

प्रदर्शन मूल्यांकन

आर्किटेक्चर

Neural Audio Codec

Generative Model

Speech और text conditioning

Model size संरचना

Training data

प्रमुख तकनीकी योगदान

Head Batch Multiplier

Gaussian Temperature Sampling

Latent Classifier-Free Guidance (Latent CFG)

Distillation

निष्कर्ष

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.