Pocket TTS: CPU को आवाज़ देने वाला उच्च-गुणवत्ता TTS
(kyutai.org)- Pocket TTS, 100M parameters वाला एक हल्का text-to-speech मॉडल, voice cloning फीचर के साथ आता है और सामान्य laptop CPU पर भी real-time में चल सकता है
- यह मौजूदा बड़े LLM-आधारित TTS (1B+ parameters) और छोटे Kokoro TTS (82M parameters) के बीच की performance gap को कम करते हुए, उच्च गुणवत्ता और efficiency दोनों हासिल करता है
- केवल लगभग 5 सेकंड के voice sample से speaker की आवाज़ का रंग, emotion, intonation और acoustic condition को सटीक रूप से कॉपी कर सकता है
- Continuous Audio Language Model-आधारित architecture का उपयोग कर, discrete tokens की जगह continuous latent vectors को सीधे predict करता है, जिससे quality घटाए बिना model size कम किया गया है
- MIT license open source के रूप में जारी यह मॉडल, CPU environment में भी high-quality speech synthesis संभव बनाने वाली lightweight TTS technology का नया benchmark पेश करता है
Pocket TTS का अवलोकन
- Pocket TTS एक 100M-parameter text-to-speech मॉडल है, जो voice cloning को support करता है
- laptop CPU पर भी real-time में चल सकता है
- कमांड
uvx pocket-tts serveयाuvx pocket-tts generateसे local execution संभव है
- इसे Kyutai ने विकसित किया है और MIT license के तहत open source जारी किया गया है
- training data के लिए केवल public English speech datasets का उपयोग किया गया
- आगे अतिरिक्त private data तक विस्तार की संभावना का भी उल्लेख है
मौजूदा TTS मॉडलों से तुलना
- वर्तमान TTS तकनीक broadly दो श्रेणियों में बंटी है
- बड़े LLM-आधारित मॉडल: उदाहरण, Kyutai TTS 1.6B (लगभग 1.6B parameters)
- अलग-अलग voices, emotions और acoustic conditions को model कर सकते हैं, लेकिन GPU की जरूरत होती है
- छोटे specialized मॉडल: उदाहरण, Kokoro TTS (82M parameters)
- fixed voice set और hand-crafted pipeline के साथ efficient हैं, लेकिन flexibility सीमित है
- बड़े LLM-आधारित मॉडल: उदाहरण, Kyutai TTS 1.6B (लगभग 1.6B parameters)
- Pocket TTS इन दोनों approaches के बीच का स्थान लेता है और CPU पर भी high-quality speech synthesis संभव बनाता है
प्रदर्शन मूल्यांकन
- मूल्यांकन Librispeech test-clean set पर किया गया
- audio input को Adobe Enhance Speech से refine कर 24kHz quality सुनिश्चित की गई
- तुलना के मॉडल: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
- evaluation metrics:
- Word Error Rate (WER)
- audio quality (ELO)
- speaker similarity (ELO)
- परिणाम सारांश:
- Pocket TTS का WER 1.84 रहा, जो सबसे कम error rate है
- audio quality में यह F5-TTS और DSM से बेहतर रहा
- speaker similarity baseline voice के बराबर स्तर पर रही
- यह CPU पर real-time से तेज चलने वाला एकमात्र मॉडल था
| मॉडल | Parameters | WER ↓ | Audio quality (ELO) ↑ | Speaker similarity (ELO) ↑ | CPU real-time execution |
|---|---|---|---|---|---|
| F5-TTS | 336M | 2.21 | 1949 ± 27 | 1946 ± 26 | ✗ |
| Kyutai TTS 1.6B | 750M | 1.84 | 1959 ± 25 | 2037 ± 21 | ✗ |
| Chatterbox Turbo | 350M | 3.24 | 2055 ± 23 | 2012 ± 22 | ✗ |
| Kokoro | 82M | 1.93 | voice cloning नहीं | voice cloning नहीं | ✓ |
| Pocket TTS | 100M | 1.84 | 2016 ± 25 | 1898 ± 26 | ✓ |
- Intel Core Ultra 7 165H और Apple M3 CPU पर टेस्ट करने पर, केवल Pocket TTS और Kokoro ही real-time synthesis कर पाए
आर्किटेक्चर
- Pocket TTS को Continuous Audio Language Model रिसर्च के आधार पर डिज़ाइन किया गया है
- पारंपरिक तरीका discrete audio tokens को predict करता था, जबकि Pocket TTS सीधे continuous latent vectors को predict करता है
- इससे RQ-transformer bottleneck हटता है और model को हल्का बनाया जा सकता है
Neural Audio Codec
- इसे Mimi codec के आधार पर डिज़ाइन किया गया है
- Mimi discrete tokens में compress करता है, लेकिन Pocket TTS continuous latent representation का उपयोग करता है
- Gaussian-normalized VAE training लागू की गई
- WavLM को cosine similarity loss के साथ internal representation में distill किया गया
- RVQ चरण हटाकर पूरे latent representation पर distillation loss लागू किया गया
Generative Model
- Masked Autoregressive (MAR) framework पर आधारित
- Causal Transformer backbone और MLP sampler से बना है
- Lagrangian Self-Distillation (LSD) loss का उपयोग कर 1-step sampling लागू की गई
- inference के दौरान, predicted latent vectors को autoregressive feedback के रूप में वापस डाला जाता है
Speech और text conditioning
- model input में voice prompt (कुछ सेकंड) और text को जोड़ा जाता है
- speech को codec encoder से, और text को SentencePiece tokenizer से embed किया जाता है
Model size संरचना
- generative model (Transformer + MLP): 90M parameters
- codec decoder: 10M parameters
- codec encoder: 18M parameters (voice sample encoding के समय केवल एक बार उपयोग)
Training data
- पूरा डेटा public English speech datasets से बना है, कुल 88,000 घंटे
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia
प्रमुख तकनीकी योगदान
Head Batch Multiplier
- Transformer के computational bottleneck को कम करने के लिए z vector को कई बार reuse किया गया
- हर input sequence के लिए z को एक बार compute कर 8 बार loss computation में reuse किया गया
- इससे efficiency बढ़ी और training stability में सुधार हुआ
Gaussian Temperature Sampling
- continuous space में भी sampling temperature control लागू किया गया
- Gaussian noise variance को कम कर quality सुधारी गई
- temperature 0.7 पर अच्छे परिणाम मिले
Latent Classifier-Free Guidance (Latent CFG)
- पारंपरिक CFG को latent variable (z) स्तर पर लागू किया गया
- conditional और unconditional outputs को linear combination में जोड़कर quality सुधारी गई
- α=1.5 का उपयोग किया गया
- SoundReactor रिसर्च में भी ऐसा ही विचार देखने को मिलता है
Distillation
- CFG model को teacher model बनाकर lightweight student model में distill किया गया
- teacher model के MLP head को freeze किया गया, और student model ने L2 loss से z सीखा
- 24-layer teacher model → 6-layer student model तक छोटा करना संभव हुआ
निष्कर्ष
- Pocket TTS एक हल्का TTS मॉडल है, जो CPU पर भी real-time high-quality speech synthesis कर सकता है
- यह continuous latent space-आधारित architecture, efficient training techniques, और voice cloning को जोड़ता है
- open-source MIT license के तहत जारी होने से यह developers और researchers को reproducibility और extensibility प्रदान करता है
4 टिप्पणियां
कोरियन सपोर्ट वाले ओपन TTS मॉडल ज़्यादा दिखाई नहीं देते।
पहले जारी किया गया Kokoro-82M कोरियन सपोर्ट करता है, ऐसा कहा जाता था, लेकिन सुना है कि उसकी क्वालिटी बहुत अच्छी नहीं है।
थोड़ा खोजने पर लगा कि GPT-Sovits से बनाकर इस्तेमाल करें, या Edge-TTS जैसी चीज़ों का उपयोग करें, तो नतीजे काफ़ी ठीक-ठाक आते हैं।
आजकल vibe coding करते हुए अगर इसे Whisper के साथ जोड़ें तो लगता है कुछ मज़ेदार निकल सकता है, लेकिन कोई आइडिया नहीं है, हा।
हाल ही में Supertonic ने एक ऐसा मॉडल जारी किया है जो कोरियन तक सपोर्ट करता है, एक बार देखकर देखें।
मैंने एक one-click लाइब्रेरी भी बनाई है!
https://www.npmjs.com/package/easy-supertonic-tts
बहुत बढ़िया है। लेकिन बनाते समय अगर target resource address भी साथ में दिया जाए तो अच्छा होगा। यूं ही बस इंस्टॉल नहीं कर सकते, हाहा
Hacker News की राय
मेरी पोस्ट पर इतना ज़्यादा ध्यान देखकर मुझे सच में बहुत खुशी हुई
मैं Paris में Kyutai research पर आधारित enterprise-grade voice solutions बनाने वाली टीम का हिस्सा हूँ
अगर आप इस क्षेत्र में कुछ बना रहे हैं, तो मैं आने वाले models और features साझा करना चाहूँगा
कृपया मेरी प्रोफ़ाइल में दिए गए email पर संपर्क करें
एक लंबा case study पढ़ते-पढ़ते मुझे एहसास हुआ कि browser extension की ज़रूरत है, इसलिए मैंने खुद browser interface बना लिया
नतीजा है Pocket Reader
यह दिलचस्प लगा, इसलिए मैंने तुरंत इसे MCP server बना दिया ताकि Claude काम पूरा होने पर मुझे बता सके
speak_when_done
मैंने भी ऐसा ही एक tool बनाया था जो
saycommand को background process के रूप में चलाता था, लेकिन अच्छी voice को लगातार सेट करना मुश्किल थालगता है वह natural voice कहीं छिपी हुई है
speak-mcp
अब मैं आपका server भी आज़माने वाला हूँ
इस बार code quality सच में बहुत अच्छी है
आमतौर पर नए models के codebase बेवजह के dependency dump से भरे होते हैं, लेकिन इस बार software engineering के लिहाज़ से भी यह शानदार है
साझा करने के लिए धन्यवाद! मैं Kokoro fan हूँ, इसलिए मैंने अपना local voice assistant खुद बनाया
ova project
मैं Pocket TTS भी ज़रूर आज़माऊँगा
हालांकि Pocket TTS closed है, इसलिए voice cloning feature को जाँचना संभव नहीं है
क्या यह mlx-based है या Hugging Face transformers पर आधारित है, यह जानना चाहूँगा
मैं सोच रहा हूँ कि क्या इस project को छोटे static binary के रूप में distribute किया जा सकता है
अभी dependencies काफ़ी बड़ी हैं
मुझे यह सच में बहुत पसंद आया
लेकिन इसमें MIT license लिखा है, जबकि README में अलग से Prohibited Use section भी है, इसलिए यह थोड़ा उलझन वाला है कि कहीं यह non-free software तो नहीं बन जाता
images या sound की तरह ML models को शायद software नहीं माना जाता
Hugging Face model card में भी वही prohibited clause है
इसलिए README में दिए गए prohibited items कानूनी रूप से टकराव पैदा कर सकते हैं
मैंने M1 Mac पर
uvx pocket-tts serveचलाकर देखाtest के लिए इसे 『A Tale of Two Cities』 के पहले paragraph को पढ़ने दिया, लेकिन Javert voice बीच-बीच में वाक्य छोड़ रही थी
उदाहरण के लिए “it was the age of foolishness” जैसी पंक्तियाँ छूट गईं
इससे भरोसा कम होता है
संबंधित issue मैंने यहाँ पर दर्ज किया है
मैंने अब तक बहुत ज़्यादा voice models इस्तेमाल नहीं किए थे, लेकिन Pocket TTS की वजह से मुझे unmute.sh के बारे में पता चला
यह open source है और लगता है कि उसी company ने बनाया है
ये models homelab environment में भी कम लागत पर काफ़ी उपयोगी लगते हैं
open source models का स्तर इतना ऊपर आ गया है कि लगभग हर use case के लिए कुछ न कुछ मौजूद है
सच में ऊँची entry barrier वाला क्षेत्र अब शायद सिर्फ़ coding models का ही बचा है
यह देखना दिलचस्प होगा कि क्या Deepseek 4, Claude Sonnet को हरा सकता है
मैंने इसे अपने Codex plugin में integrate किया ताकि हर turn के अंत में यह summary पढ़कर सुना दे, और यह हैरान करने वाले ढंग से बहुत अच्छा काम करता है
मेरे MacBook पर यह Samantha से कहीं ज़्यादा smoothly चलता है
agentify-sh/speak