5 पॉइंट द्वारा GN⁺ 2026-03-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ONNX-आधारित State-of-the-art हल्का text-to-speech (TTS) लाइब्रेरी, जो केवल CPU पर high-quality speech synthesis करता है
  • मॉडल का आकार 15M~80M parameters (25~80MB) की रेंज में है, इसलिए GPU के बिना भी इसे कुशलता से चलाया जा सकता है
  • 8 built-in voices, speed control, text preprocessing pipeline, और 24kHz audio output फीचर उपलब्ध
  • Hugging Face पर तुरंत उपयोग किया जा सकता है, और Python API के साथ आसानी से integrate किया जा सकता है
  • edge device deployment और commercial integration support को ध्यान में रखकर बनाया गया open source TTS solution

Kitten TTS अवलोकन

  • Kitten TTS एक ONNX-आधारित open source TTS लाइब्रेरी है, जो GPU के बिना CPU पर high-quality speech synthesis करता है
    • मॉडल आकार 15M~80M parameters है, और disk पर 25~80MB
    • version 0.8 में 15M, 40M, 80M मॉडल उपलब्ध हैं
  • यह अभी developer preview stage में है, इसलिए API भविष्य में बदल सकती है
  • commercial support (integration support, custom voice, enterprise license) उपलब्ध है

मुख्य फीचर्स

  • अत्यंत हल्की संरचना: int8 के आधार पर 25MB से शुरू, edge environment deployment के लिए उपयुक्त
  • CPU optimization: GPU के बिना भी कुशल ONNX inference
  • 8 built-in voices: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
  • speed control फीचर: speed parameter से बोलने की गति नियंत्रित
  • text preprocessing pipeline: numbers, currency, units आदि का स्वतः प्रसंस्करण
  • 24kHz output: standard sample rate पर high-quality audio generation

उपलब्ध मॉडल

  • चार मॉडल उपलब्ध हैं
    • kitten-tts-mini (80M, 80MB)
    • kitten-tts-micro (40M, 41MB)
    • kitten-tts-nano (15M, 56MB)
    • kitten-tts-nano (int8, 15M, 25MB)
  • कुछ users ने kitten-tts-nano-0.8-int8 मॉडल में समस्याएँ report की हैं, और issue दर्ज करने की सिफारिश की गई है

डेमो और उपयोग

  • Hugging Face Spaces में browser से सीधे आज़माया जा सकता है
  • सिर्फ Python 3.8 या उससे ऊपर और pip के साथ install किया जा सकता है
  • basic usage example:
    • from kittentts import KittenTTS
    • model = KittenTTS("KittenML/kitten-tts-mini-0.8")
    • audio = model.generate("tekseuteu", voice="Jasper")
  • advanced फीचर्स: speed control (speed), file save (generate_to_file), available voices list lookup

API संरचना

  • KittenTTS(model_name, cache_dir=None)
    • Hugging Face Hub से मॉडल load करता है
  • model.generate(text, voice, speed, clean_text)
    • text को 24kHz audio में बदलता है
  • model.generate_to_file(text, output_path, voice, speed, sample_rate, clean_text)
    • synthesized voice को सीधे file में save करता है
  • model.available_voices
    • उपलब्ध voices की list लौटाता है

system requirements

  • operating system: Linux, macOS, Windows
  • Python: 3.8 या उससे ऊपर
  • hardware: केवल CPU आवश्यक, GPU की जरूरत नहीं
  • disk space: मॉडल के अनुसार 25~80MB
  • virtual environment (venv, conda आदि) का उपयोग recommended

रोडमैप

  • inference engine optimization, mobile SDK, high-quality model, multilingual TTS, KittenASR आने वाले हैं
  • Apache License 2.0

1 टिप्पणियां

 
GN⁺ 2026-03-20
Hacker News टिप्पणियाँ
  • मैंने Kitten TTS के लिए CLI wrapper purr बनाया
    kitten पैकेज की dependency chain kittentts → misaki[en] → spacy-curated-transformers है
    इसलिए अगर इसे सीधे uv से install करें, तो यह torch और NVIDIA CUDA packages (कई GB) खींच लाता है, जबकि actual runtime में उनकी ज़रूरत नहीं होती

    • install script ने अच्छी तरह काम किया
      पहली run पर “OSError: PortAudio library not found” error आया, लेकिन apt install libportaudio2 से हल हो गया
    • सच में बहुत धन्यवाद। dependency chain टूट जाने की वजह से install बार-बार fail हो रहा था, और इससे समस्या हल हो गई
      लेकिन मैं जानना चाहता हूँ कि अनावश्यक dependencies हटाने से कोई functionality loss तो नहीं हुआ
  • यह सच में शानदार project है
    मैं इसे जल्द खुद आज़माने वाला हूँ
    बस एक सवाल है — इसे command-line executable के रूप में distribute क्यों नहीं किया गया?
    API भी लगभग manpage style का है, इसलिए लगता है कि इसे जल्दी बनाया जा सकता है। बस जिज्ञासा है

    • अच्छा idea है। ऐसा भी करने का plan है
      पहले onnx version पर feedback लेना है, फिर command-line executable जोड़कर execution process को और सरल बनाने का इरादा है
  • मुझे OpenClaw इसलिए पसंद आया, क्योंकि Discord में सिर्फ GitHub URL भेजते ही इसने तुरंत voice message बना दिया
    कुछ ही मिनटों में benchmark और sample audio भी मिल गए
    quality, size के हिसाब से प्रभावशाली है। आवाज़ perfect नहीं है, लेकिन खराब भी नहीं
    Intel 9700 CPU पर 80M model के साथ लगभग 1.5x real-time speed मिली, और 3080 GPU पर भी यह तेज़ नहीं था

    • आगे और professional voices और DIY custom voices जोड़ने का plan है
      अभी expressive capability दिखाने के लिए animation-style आवाज़ डाली गई है
      GPU पर slow होने का कारण GitHub issue या Discord में साझा करें तो अच्छा होगा। example code भी जोड़ा जाएगा
    • यह अच्छा use case है। email जैसी security-vulnerable link के बिना sandbox में test और deploy किया जा सके, यह structure दिलचस्प लगा
    • मैं तो बस इतना कह सकता हूँ कि मुझे जलन हो रही है। मुझे इसे चलाने में बहुत ज़्यादा समय लगा
      Python version conflicts से बचने के लिए काफ़ी जूझना पड़ा, Docker भी आज़माया, लेकिन आख़िर में manual setup करना पड़ा
      किसी तरह चल तो गया, लेकिन मुझे Python सच में पसंद नहीं है
  • लगता है कि अभी सिर्फ American voices ही supported हैं
    व्यक्तिगत रूप से मुझे सिर्फ Irish, British, और Welsh accents में दिलचस्पी है। American style पसंद नहीं

  • on-device TTS सच में accessibility tool के रूप में शानदार है
    ज़्यादातर devices online services पर निर्भर करते हैं, लेकिन ऐसा local approach कहीं बेहतर है

    • feedback के लिए धन्यवाद। जल्द ही अलग-अलग उपयोगों के लिए और small models जारी किए जाएँगे
  • पुराने models की तुलना में improvement बहुत साफ़ महसूस होती है
    यह सच में प्रभावशाली है। साझा करने के लिए धन्यवाद

    • धन्यवाद। इस बार के models पहले से बहुत बेहतर हैं
      अभी 15M model, पुराने 80M model से बेहतर है, और ऐसी improvement speed बनाए रखने का इरादा है
  • आगे Japanese-only model भी देखना चाहूँगा
    Qwen3-tts Japanese support करता है, लेकिन कभी-कभी उसमें Chinese मिल जाती है, इसलिए उपयोग करना मुश्किल हो जाता है

    • preprocessing stage में hiragana conversion आज़माया जा सकता है
      हालाँकि ऐसा करने पर pitch information (जैसे: 飴 vs 雨) खो सकती है
    • अगला model (लगभग 3 हफ़्तों बाद expected) Japanese support करेगा
      अगर आप use case बताएँ, तो quality improvements में उसे शामिल करना चाहेंगे
  • model के size की तुलना में performance प्रभावशाली थी
    लेकिन number pronunciation में समस्या थी
    मैंने “Startup finished in 135 ms.” आज़माया, और संख्या noise जैसी सुनाई दी
    “one hundred and thirty five seconds” में बदलने पर कुछ बेहतर लगा

    • इस समस्या को model level पर भी ठीक किया जा रहा है
      तब तक text preprocessing जोड़कर इसे हल किया जा सकता है
      ज़्यादातर TTS models numbers और units को strings में बदलकर handle करते हैं
    • feedback के लिए धन्यवाद। custom preprocessing से 95% cases हल किए जा सकते हैं
      अगली release में इसे model स्तर पर भी ठीक किया जाएगा
    • संदर्भ के लिए, सही शब्द “pronounce” या “pronouncing” है। “pronounciating” typo है
  • अच्छा होगा अगर चारों models की तुलना करने वाला sample audio साथ में दिखे
    अगर हर model से वही sentence पढ़वाया गया example हो, तो समझना आसान होगा

    • अच्छा सुझाव है। इसे तुरंत जोड़ता हूँ
      तब तक आप Hugging Face डेमो में models खुद आज़मा सकते हैं
  • क्या यह open source है, या open weights model है?

    • हाँ, open source है
      इस weekend तक MIT license वाला phonemizer भी जोड़ने का plan है, ताकि इसे स्वतंत्र रूप से इस्तेमाल किया जा सके