- ONNX-आधारित
State-of-the-art हल्का text-to-speech (TTS) लाइब्रेरी, जो केवल CPU पर high-quality speech synthesis करता है
- मॉडल का आकार 15M~80M parameters (25~80MB) की रेंज में है, इसलिए GPU के बिना भी इसे कुशलता से चलाया जा सकता है
- 8 built-in voices, speed control, text preprocessing pipeline, और 24kHz audio output फीचर उपलब्ध
- Hugging Face पर तुरंत उपयोग किया जा सकता है, और Python API के साथ आसानी से integrate किया जा सकता है
- edge device deployment और commercial integration support को ध्यान में रखकर बनाया गया open source TTS solution
Kitten TTS अवलोकन
- Kitten TTS एक ONNX-आधारित open source TTS लाइब्रेरी है, जो GPU के बिना CPU पर high-quality speech synthesis करता है
- मॉडल आकार 15M~80M parameters है, और disk पर 25~80MB
- version 0.8 में 15M, 40M, 80M मॉडल उपलब्ध हैं
- यह अभी developer preview stage में है, इसलिए API भविष्य में बदल सकती है
- commercial support (integration support, custom voice, enterprise license) उपलब्ध है
मुख्य फीचर्स
- अत्यंत हल्की संरचना: int8 के आधार पर 25MB से शुरू, edge environment deployment के लिए उपयुक्त
- CPU optimization: GPU के बिना भी कुशल ONNX inference
- 8 built-in voices: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
- speed control फीचर:
speed parameter से बोलने की गति नियंत्रित
- text preprocessing pipeline: numbers, currency, units आदि का स्वतः प्रसंस्करण
- 24kHz output: standard sample rate पर high-quality audio generation
उपलब्ध मॉडल
- चार मॉडल उपलब्ध हैं
- kitten-tts-mini (80M, 80MB)
- kitten-tts-micro (40M, 41MB)
- kitten-tts-nano (15M, 56MB)
- kitten-tts-nano (int8, 15M, 25MB)
- कुछ users ने
kitten-tts-nano-0.8-int8 मॉडल में समस्याएँ report की हैं, और issue दर्ज करने की सिफारिश की गई है
डेमो और उपयोग
- Hugging Face Spaces में browser से सीधे आज़माया जा सकता है
- सिर्फ Python 3.8 या उससे ऊपर और pip के साथ install किया जा सकता है
- basic usage example:
from kittentts import KittenTTS
model = KittenTTS("KittenML/kitten-tts-mini-0.8")
audio = model.generate("tekseuteu", voice="Jasper")
- advanced फीचर्स: speed control (
speed), file save (generate_to_file), available voices list lookup
API संरचना
KittenTTS(model_name, cache_dir=None)
- Hugging Face Hub से मॉडल load करता है
model.generate(text, voice, speed, clean_text)
- text को 24kHz audio में बदलता है
model.generate_to_file(text, output_path, voice, speed, sample_rate, clean_text)
- synthesized voice को सीधे file में save करता है
model.available_voices
- उपलब्ध voices की list लौटाता है
system requirements
- operating system: Linux, macOS, Windows
- Python: 3.8 या उससे ऊपर
- hardware: केवल CPU आवश्यक, GPU की जरूरत नहीं
- disk space: मॉडल के अनुसार 25~80MB
- virtual environment (venv, conda आदि) का उपयोग recommended
रोडमैप
- inference engine optimization, mobile SDK, high-quality model, multilingual TTS, KittenASR आने वाले हैं
- Apache License 2.0
अभी कोई टिप्पणी नहीं है.