• ONNX-आधारित State-of-the-art हल्का text-to-speech (TTS) लाइब्रेरी, जो केवल CPU पर high-quality speech synthesis करता है
  • मॉडल का आकार 15M~80M parameters (25~80MB) की रेंज में है, इसलिए GPU के बिना भी इसे कुशलता से चलाया जा सकता है
  • 8 built-in voices, speed control, text preprocessing pipeline, और 24kHz audio output फीचर उपलब्ध
  • Hugging Face पर तुरंत उपयोग किया जा सकता है, और Python API के साथ आसानी से integrate किया जा सकता है
  • edge device deployment और commercial integration support को ध्यान में रखकर बनाया गया open source TTS solution

Kitten TTS अवलोकन

  • Kitten TTS एक ONNX-आधारित open source TTS लाइब्रेरी है, जो GPU के बिना CPU पर high-quality speech synthesis करता है
    • मॉडल आकार 15M~80M parameters है, और disk पर 25~80MB
    • version 0.8 में 15M, 40M, 80M मॉडल उपलब्ध हैं
  • यह अभी developer preview stage में है, इसलिए API भविष्य में बदल सकती है
  • commercial support (integration support, custom voice, enterprise license) उपलब्ध है

मुख्य फीचर्स

  • अत्यंत हल्की संरचना: int8 के आधार पर 25MB से शुरू, edge environment deployment के लिए उपयुक्त
  • CPU optimization: GPU के बिना भी कुशल ONNX inference
  • 8 built-in voices: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
  • speed control फीचर: speed parameter से बोलने की गति नियंत्रित
  • text preprocessing pipeline: numbers, currency, units आदि का स्वतः प्रसंस्करण
  • 24kHz output: standard sample rate पर high-quality audio generation

उपलब्ध मॉडल

  • चार मॉडल उपलब्ध हैं
    • kitten-tts-mini (80M, 80MB)
    • kitten-tts-micro (40M, 41MB)
    • kitten-tts-nano (15M, 56MB)
    • kitten-tts-nano (int8, 15M, 25MB)
  • कुछ users ने kitten-tts-nano-0.8-int8 मॉडल में समस्याएँ report की हैं, और issue दर्ज करने की सिफारिश की गई है

डेमो और उपयोग

  • Hugging Face Spaces में browser से सीधे आज़माया जा सकता है
  • सिर्फ Python 3.8 या उससे ऊपर और pip के साथ install किया जा सकता है
  • basic usage example:
    • from kittentts import KittenTTS
    • model = KittenTTS("KittenML/kitten-tts-mini-0.8")
    • audio = model.generate("tekseuteu", voice="Jasper")
  • advanced फीचर्स: speed control (speed), file save (generate_to_file), available voices list lookup

API संरचना

  • KittenTTS(model_name, cache_dir=None)
    • Hugging Face Hub से मॉडल load करता है
  • model.generate(text, voice, speed, clean_text)
    • text को 24kHz audio में बदलता है
  • model.generate_to_file(text, output_path, voice, speed, sample_rate, clean_text)
    • synthesized voice को सीधे file में save करता है
  • model.available_voices
    • उपलब्ध voices की list लौटाता है

system requirements

  • operating system: Linux, macOS, Windows
  • Python: 3.8 या उससे ऊपर
  • hardware: केवल CPU आवश्यक, GPU की जरूरत नहीं
  • disk space: मॉडल के अनुसार 25~80MB
  • virtual environment (venv, conda आदि) का उपयोग recommended

रोडमैप

  • inference engine optimization, mobile SDK, high-quality model, multilingual TTS, KittenASR आने वाले हैं
  • Apache License 2.0

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.