• Pocket TTS, 100M parameters वाला एक हल्का text-to-speech मॉडल, voice cloning फीचर के साथ आता है और सामान्य laptop CPU पर भी real-time में चल सकता है
  • यह मौजूदा बड़े LLM-आधारित TTS (1B+ parameters) और छोटे Kokoro TTS (82M parameters) के बीच की performance gap को कम करते हुए, उच्च गुणवत्ता और efficiency दोनों हासिल करता है
  • केवल लगभग 5 सेकंड के voice sample से speaker की आवाज़ का रंग, emotion, intonation और acoustic condition को सटीक रूप से कॉपी कर सकता है
  • Continuous Audio Language Model-आधारित architecture का उपयोग कर, discrete tokens की जगह continuous latent vectors को सीधे predict करता है, जिससे quality घटाए बिना model size कम किया गया है
  • MIT license open source के रूप में जारी यह मॉडल, CPU environment में भी high-quality speech synthesis संभव बनाने वाली lightweight TTS technology का नया benchmark पेश करता है

Pocket TTS का अवलोकन

  • Pocket TTS एक 100M-parameter text-to-speech मॉडल है, जो voice cloning को support करता है
    • laptop CPU पर भी real-time में चल सकता है
    • कमांड uvx pocket-tts serve या uvx pocket-tts generate से local execution संभव है
  • इसे Kyutai ने विकसित किया है और MIT license के तहत open source जारी किया गया है
    • training data के लिए केवल public English speech datasets का उपयोग किया गया
    • आगे अतिरिक्त private data तक विस्तार की संभावना का भी उल्लेख है

मौजूदा TTS मॉडलों से तुलना

  • वर्तमान TTS तकनीक broadly दो श्रेणियों में बंटी है
    • बड़े LLM-आधारित मॉडल: उदाहरण, Kyutai TTS 1.6B (लगभग 1.6B parameters)
      • अलग-अलग voices, emotions और acoustic conditions को model कर सकते हैं, लेकिन GPU की जरूरत होती है
    • छोटे specialized मॉडल: उदाहरण, Kokoro TTS (82M parameters)
      • fixed voice set और hand-crafted pipeline के साथ efficient हैं, लेकिन flexibility सीमित है
  • Pocket TTS इन दोनों approaches के बीच का स्थान लेता है और CPU पर भी high-quality speech synthesis संभव बनाता है

प्रदर्शन मूल्यांकन

  • मूल्यांकन Librispeech test-clean set पर किया गया
    • audio input को Adobe Enhance Speech से refine कर 24kHz quality सुनिश्चित की गई
  • तुलना के मॉडल: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
  • evaluation metrics:
    • Word Error Rate (WER)
    • audio quality (ELO)
    • speaker similarity (ELO)
  • परिणाम सारांश:
    • Pocket TTS का WER 1.84 रहा, जो सबसे कम error rate है
    • audio quality में यह F5-TTS और DSM से बेहतर रहा
    • speaker similarity baseline voice के बराबर स्तर पर रही
    • यह CPU पर real-time से तेज चलने वाला एकमात्र मॉडल था
मॉडल Parameters WER ↓ Audio quality (ELO) ↑ Speaker similarity (ELO) ↑ CPU real-time execution
F5-TTS 336M 2.21 1949 ± 27 1946 ± 26
Kyutai TTS 1.6B 750M 1.84 1959 ± 25 2037 ± 21
Chatterbox Turbo 350M 3.24 2055 ± 23 2012 ± 22
Kokoro 82M 1.93 voice cloning नहीं voice cloning नहीं
Pocket TTS 100M 1.84 2016 ± 25 1898 ± 26
  • Intel Core Ultra 7 165H और Apple M3 CPU पर टेस्ट करने पर, केवल Pocket TTS और Kokoro ही real-time synthesis कर पाए

आर्किटेक्चर

  • Pocket TTS को Continuous Audio Language Model रिसर्च के आधार पर डिज़ाइन किया गया है
    • पारंपरिक तरीका discrete audio tokens को predict करता था, जबकि Pocket TTS सीधे continuous latent vectors को predict करता है
    • इससे RQ-transformer bottleneck हटता है और model को हल्का बनाया जा सकता है

Neural Audio Codec

  • इसे Mimi codec के आधार पर डिज़ाइन किया गया है
    • Mimi discrete tokens में compress करता है, लेकिन Pocket TTS continuous latent representation का उपयोग करता है
    • Gaussian-normalized VAE training लागू की गई
    • WavLM को cosine similarity loss के साथ internal representation में distill किया गया
    • RVQ चरण हटाकर पूरे latent representation पर distillation loss लागू किया गया

Generative Model

  • Masked Autoregressive (MAR) framework पर आधारित
    • Causal Transformer backbone और MLP sampler से बना है
    • Lagrangian Self-Distillation (LSD) loss का उपयोग कर 1-step sampling लागू की गई
    • inference के दौरान, predicted latent vectors को autoregressive feedback के रूप में वापस डाला जाता है

Speech और text conditioning

  • model input में voice prompt (कुछ सेकंड) और text को जोड़ा जाता है
    • speech को codec encoder से, और text को SentencePiece tokenizer से embed किया जाता है

Model size संरचना

  • generative model (Transformer + MLP): 90M parameters
  • codec decoder: 10M parameters
  • codec encoder: 18M parameters (voice sample encoding के समय केवल एक बार उपयोग)

Training data

  • पूरा डेटा public English speech datasets से बना है, कुल 88,000 घंटे
    • AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

प्रमुख तकनीकी योगदान

Head Batch Multiplier

  • Transformer के computational bottleneck को कम करने के लिए z vector को कई बार reuse किया गया
    • हर input sequence के लिए z को एक बार compute कर 8 बार loss computation में reuse किया गया
    • इससे efficiency बढ़ी और training stability में सुधार हुआ

Gaussian Temperature Sampling

  • continuous space में भी sampling temperature control लागू किया गया
    • Gaussian noise variance को कम कर quality सुधारी गई
    • temperature 0.7 पर अच्छे परिणाम मिले

Latent Classifier-Free Guidance (Latent CFG)

  • पारंपरिक CFG को latent variable (z) स्तर पर लागू किया गया
    • conditional और unconditional outputs को linear combination में जोड़कर quality सुधारी गई
    • α=1.5 का उपयोग किया गया
    • SoundReactor रिसर्च में भी ऐसा ही विचार देखने को मिलता है

Distillation

  • CFG model को teacher model बनाकर lightweight student model में distill किया गया
    • teacher model के MLP head को freeze किया गया, और student model ने L2 loss से z सीखा
    • 24-layer teacher model → 6-layer student model तक छोटा करना संभव हुआ

निष्कर्ष

  • Pocket TTS एक हल्का TTS मॉडल है, जो CPU पर भी real-time high-quality speech synthesis कर सकता है
  • यह continuous latent space-आधारित architecture, efficient training techniques, और voice cloning को जोड़ता है
  • open-source MIT license के तहत जारी होने से यह developers और researchers को reproducibility और extensibility प्रदान करता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.