18 पॉइंट द्वारा GN⁺ 2026-01-16 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • Pocket TTS, 100M parameters वाला एक हल्का text-to-speech मॉडल, voice cloning फीचर के साथ आता है और सामान्य laptop CPU पर भी real-time में चल सकता है
  • यह मौजूदा बड़े LLM-आधारित TTS (1B+ parameters) और छोटे Kokoro TTS (82M parameters) के बीच की performance gap को कम करते हुए, उच्च गुणवत्ता और efficiency दोनों हासिल करता है
  • केवल लगभग 5 सेकंड के voice sample से speaker की आवाज़ का रंग, emotion, intonation और acoustic condition को सटीक रूप से कॉपी कर सकता है
  • Continuous Audio Language Model-आधारित architecture का उपयोग कर, discrete tokens की जगह continuous latent vectors को सीधे predict करता है, जिससे quality घटाए बिना model size कम किया गया है
  • MIT license open source के रूप में जारी यह मॉडल, CPU environment में भी high-quality speech synthesis संभव बनाने वाली lightweight TTS technology का नया benchmark पेश करता है

Pocket TTS का अवलोकन

  • Pocket TTS एक 100M-parameter text-to-speech मॉडल है, जो voice cloning को support करता है
    • laptop CPU पर भी real-time में चल सकता है
    • कमांड uvx pocket-tts serve या uvx pocket-tts generate से local execution संभव है
  • इसे Kyutai ने विकसित किया है और MIT license के तहत open source जारी किया गया है
    • training data के लिए केवल public English speech datasets का उपयोग किया गया
    • आगे अतिरिक्त private data तक विस्तार की संभावना का भी उल्लेख है

मौजूदा TTS मॉडलों से तुलना

  • वर्तमान TTS तकनीक broadly दो श्रेणियों में बंटी है
    • बड़े LLM-आधारित मॉडल: उदाहरण, Kyutai TTS 1.6B (लगभग 1.6B parameters)
      • अलग-अलग voices, emotions और acoustic conditions को model कर सकते हैं, लेकिन GPU की जरूरत होती है
    • छोटे specialized मॉडल: उदाहरण, Kokoro TTS (82M parameters)
      • fixed voice set और hand-crafted pipeline के साथ efficient हैं, लेकिन flexibility सीमित है
    विज्ञापन
  • Pocket TTS इन दोनों approaches के बीच का स्थान लेता है और CPU पर भी high-quality speech synthesis संभव बनाता है

प्रदर्शन मूल्यांकन

  • मूल्यांकन Librispeech test-clean set पर किया गया
    • audio input को Adobe Enhance Speech से refine कर 24kHz quality सुनिश्चित की गई
  • तुलना के मॉडल: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
  • evaluation metrics:
    • Word Error Rate (WER)
    • audio quality (ELO)
    • speaker similarity (ELO)
  • परिणाम सारांश:
    • Pocket TTS का WER 1.84 रहा, जो सबसे कम error rate है
    • audio quality में यह F5-TTS और DSM से बेहतर रहा
    • speaker similarity baseline voice के बराबर स्तर पर रही
    • यह CPU पर real-time से तेज चलने वाला एकमात्र मॉडल था
मॉडल Parameters WER ↓ Audio quality (ELO) ↑ Speaker similarity (ELO) ↑ CPU real-time execution
F5-TTS 336M 2.21 1949 ± 27 1946 ± 26
Kyutai TTS 1.6B 750M 1.84 1959 ± 25 2037 ± 21
Chatterbox Turbo 350M 3.24 2055 ± 23 2012 ± 22
Kokoro 82M 1.93 voice cloning नहीं voice cloning नहीं
Pocket TTS 100M 1.84 2016 ± 25 1898 ± 26
  • Intel Core Ultra 7 165H और Apple M3 CPU पर टेस्ट करने पर, केवल Pocket TTS और Kokoro ही real-time synthesis कर पाए
विज्ञापन

आर्किटेक्चर

  • Pocket TTS को Continuous Audio Language Model रिसर्च के आधार पर डिज़ाइन किया गया है
    • पारंपरिक तरीका discrete audio tokens को predict करता था, जबकि Pocket TTS सीधे continuous latent vectors को predict करता है
    • इससे RQ-transformer bottleneck हटता है और model को हल्का बनाया जा सकता है

Neural Audio Codec

  • इसे Mimi codec के आधार पर डिज़ाइन किया गया है
    • Mimi discrete tokens में compress करता है, लेकिन Pocket TTS continuous latent representation का उपयोग करता है
    • Gaussian-normalized VAE training लागू की गई
    • WavLM को cosine similarity loss के साथ internal representation में distill किया गया
    • RVQ चरण हटाकर पूरे latent representation पर distillation loss लागू किया गया

Generative Model

  • Masked Autoregressive (MAR) framework पर आधारित
    • Causal Transformer backbone और MLP sampler से बना है
    • Lagrangian Self-Distillation (LSD) loss का उपयोग कर 1-step sampling लागू की गई
    • inference के दौरान, predicted latent vectors को autoregressive feedback के रूप में वापस डाला जाता है

Speech और text conditioning

  • model input में voice prompt (कुछ सेकंड) और text को जोड़ा जाता है
    • speech को codec encoder से, और text को SentencePiece tokenizer से embed किया जाता है
    विज्ञापन

Model size संरचना

  • generative model (Transformer + MLP): 90M parameters
  • codec decoder: 10M parameters
  • codec encoder: 18M parameters (voice sample encoding के समय केवल एक बार उपयोग)

Training data

  • पूरा डेटा public English speech datasets से बना है, कुल 88,000 घंटे
    • AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

प्रमुख तकनीकी योगदान

Head Batch Multiplier

  • Transformer के computational bottleneck को कम करने के लिए z vector को कई बार reuse किया गया
    • हर input sequence के लिए z को एक बार compute कर 8 बार loss computation में reuse किया गया
    • इससे efficiency बढ़ी और training stability में सुधार हुआ
विज्ञापन

Gaussian Temperature Sampling

  • continuous space में भी sampling temperature control लागू किया गया
    • Gaussian noise variance को कम कर quality सुधारी गई
    • temperature 0.7 पर अच्छे परिणाम मिले

Latent Classifier-Free Guidance (Latent CFG)

  • पारंपरिक CFG को latent variable (z) स्तर पर लागू किया गया
    • conditional और unconditional outputs को linear combination में जोड़कर quality सुधारी गई
    • α=1.5 का उपयोग किया गया
    • SoundReactor रिसर्च में भी ऐसा ही विचार देखने को मिलता है

Distillation

  • CFG model को teacher model बनाकर lightweight student model में distill किया गया
    • teacher model के MLP head को freeze किया गया, और student model ने L2 loss से z सीखा
    • 24-layer teacher model → 6-layer student model तक छोटा करना संभव हुआ

निष्कर्ष

  • Pocket TTS एक हल्का TTS मॉडल है, जो CPU पर भी real-time high-quality speech synthesis कर सकता है
  • यह continuous latent space-आधारित architecture, efficient training techniques, और voice cloning को जोड़ता है
  • open-source MIT license के तहत जारी होने से यह developers और researchers को reproducibility और extensibility प्रदान करता है

4 टिप्पणियां

 
xguru 2026-01-16

कोरियन सपोर्ट वाले ओपन TTS मॉडल ज़्यादा दिखाई नहीं देते।
पहले जारी किया गया Kokoro-82M कोरियन सपोर्ट करता है, ऐसा कहा जाता था, लेकिन सुना है कि उसकी क्वालिटी बहुत अच्छी नहीं है।
थोड़ा खोजने पर लगा कि GPT-Sovits से बनाकर इस्तेमाल करें, या Edge-TTS जैसी चीज़ों का उपयोग करें, तो नतीजे काफ़ी ठीक-ठाक आते हैं।

आजकल vibe coding करते हुए अगर इसे Whisper के साथ जोड़ें तो लगता है कुछ मज़ेदार निकल सकता है, लेकिन कोई आइडिया नहीं है, हा।

 
ng0301 2026-01-18

हाल ही में Supertonic ने एक ऐसा मॉडल जारी किया है जो कोरियन तक सपोर्ट करता है, एक बार देखकर देखें।

मैंने एक one-click लाइब्रेरी भी बनाई है!

https://www.npmjs.com/package/easy-supertonic-tts

 
bichi 2026-01-19

बहुत बढ़िया है। लेकिन बनाते समय अगर target resource address भी साथ में दिया जाए तो अच्छा होगा। यूं ही बस इंस्टॉल नहीं कर सकते, हाहा

 
GN⁺ 2026-01-16
Hacker News की राय
  • मेरी पोस्ट पर इतना ज़्यादा ध्यान देखकर मुझे सच में बहुत खुशी हुई
    मैं Paris में Kyutai research पर आधारित enterprise-grade voice solutions बनाने वाली टीम का हिस्सा हूँ
    अगर आप इस क्षेत्र में कुछ बना रहे हैं, तो मैं आने वाले models और features साझा करना चाहूँगा
    कृपया मेरी प्रोफ़ाइल में दिए गए email पर संपर्क करें

    • शानदार काम है। मुझे लगता है कि यह सीमाओं को आगे धकेलने वाली उपलब्धि है, खासकर इस स्तर तक कि यह रोज़मर्रा के devices पर भी local रूप से चल सके
  • एक लंबा case study पढ़ते-पढ़ते मुझे एहसास हुआ कि browser extension की ज़रूरत है, इसलिए मैंने खुद browser interface बना लिया
    नतीजा है Pocket Reader

  • यह दिलचस्प लगा, इसलिए मैंने तुरंत इसे MCP server बना दिया ताकि Claude काम पूरा होने पर मुझे बता सके
    speak_when_done

    • macOS में पहले से ही काफ़ी natural TTS feature built-in है
      मैंने भी ऐसा ही एक tool बनाया था जो say command को background process के रूप में चलाता था, लेकिन अच्छी voice को लगातार सेट करना मुश्किल था
      लगता है वह natural voice कहीं छिपी हुई है
    • मैंने भी हाल ही में piper-tts के साथ कुछ ऐसा ही बनाया
      speak-mcp
    • मैंने भी उसी वजह से Pushover सेट किया ताकि फ़ोन पर notifications मिल सकें
      अब मैं आपका server भी आज़माने वाला हूँ
  • इस बार code quality सच में बहुत अच्छी है
    आमतौर पर नए models के codebase बेवजह के dependency dump से भरे होते हैं, लेकिन इस बार software engineering के लिहाज़ से भी यह शानदार है

  • साझा करने के लिए धन्यवाद! मैं Kokoro fan हूँ, इसलिए मैंने अपना local voice assistant खुद बनाया
    ova project
    मैं Pocket TTS भी ज़रूर आज़माऊँगा

    • मुझे लगता है कि TTS performance Kokoro में काफ़ी बेहतर है
      हालांकि Pocket TTS closed है, इसलिए voice cloning feature को जाँचना संभव नहीं है
    • repository शानदार है! मैं भी इसे आज़माने वाला हूँ
      क्या यह mlx-based है या Hugging Face transformers पर आधारित है, यह जानना चाहूँगा
  • मैं सोच रहा हूँ कि क्या इस project को छोटे static binary के रूप में distribute किया जा सकता है
    अभी dependencies काफ़ी बड़ी हैं

    • संबंधित issue को यहाँ track किया जा सकता है
  • मुझे यह सच में बहुत पसंद आया
    लेकिन इसमें MIT license लिखा है, जबकि README में अलग से Prohibited Use section भी है, इसलिए यह थोड़ा उलझन वाला है कि कहीं यह non-free software तो नहीं बन जाता

    • मेरी समझ से code MIT है, लेकिन model अलग license के तहत है
      images या sound की तरह ML models को शायद software नहीं माना जाता
      Hugging Face model card में भी वही prohibited clause है
    • MIT license में “बिना किसी restriction के उपयोग” जैसी पंक्ति होती है
      इसलिए README में दिए गए prohibited items कानूनी रूप से टकराव पैदा कर सकते हैं
    • prohibited clause का स्तर “इसे crime के लिए मत इस्तेमाल करो” जैसा है, इसलिए कानूनी प्रभाव शायद बहुत कम होगा
    • अगर बात यह है कि “इस्तेमाल कर सकते हो, लेकिन इन उद्देश्यों के लिए नहीं”, तो व्यवहार में यह साफ़ नहीं है कि वास्तव में license violation हुआ या नहीं
    • prohibited clause मुझे एक बेवजह की औपचारिक सजावट जैसा लगता है
  • मैंने M1 Mac पर uvx pocket-tts serve चलाकर देखा
    test के लिए इसे 『A Tale of Two Cities』 के पहले paragraph को पढ़ने दिया, लेकिन Javert voice बीच-बीच में वाक्य छोड़ रही थी
    उदाहरण के लिए “it was the age of foolishness” जैसी पंक्तियाँ छूट गईं
    इससे भरोसा कम होता है
    संबंधित issue मैंने यहाँ पर दर्ज किया है

    • मेरे test में भी “we had everything before us” वाला हिस्सा छूट गया। यह निश्चित रूप से अच्छा संकेत नहीं है
    • मैंने भी यही देखा। sentences skip हो रहे थे या शब्दों का क्रम बदल रहा था, यानी output distortion था (Win10 RTX 5070 Ti)
    • Eponine voice में भी “we had nothing before us” छूट गया और आख़िरी sentence बोला ही नहीं गया। लगता है अंदर कुछ गड़बड़ है
  • मैंने अब तक बहुत ज़्यादा voice models इस्तेमाल नहीं किए थे, लेकिन Pocket TTS की वजह से मुझे unmute.sh के बारे में पता चला
    यह open source है और लगता है कि उसी company ने बनाया है
    ये models homelab environment में भी कम लागत पर काफ़ी उपयोगी लगते हैं
    open source models का स्तर इतना ऊपर आ गया है कि लगभग हर use case के लिए कुछ न कुछ मौजूद है
    सच में ऊँची entry barrier वाला क्षेत्र अब शायद सिर्फ़ coding models का ही बचा है
    यह देखना दिलचस्प होगा कि क्या Deepseek 4, Claude Sonnet को हरा सकता है

  • मैंने इसे अपने Codex plugin में integrate किया ताकि हर turn के अंत में यह summary पढ़कर सुना दे, और यह हैरान करने वाले ढंग से बहुत अच्छा काम करता है
    मेरे MacBook पर यह Samantha से कहीं ज़्यादा smoothly चलता है
    agentify-sh/speak