- कोरियाई सहित 30 भाषाओं का समर्थन, language tag दिए बिना सिर्फ टेक्स्ट डालते ही तुरंत synthesis संभव
- voice actor sample के बिना
(Young female voice, warm and gentle) जैसी natural language description (लिंग·उम्र·टोन·भावना·गति) को सिर्फ टेक्स्ट के आगे जोड़ने पर मनचाहा voice character तुरंत बनाया जा सकता है
- discrete tokenization से गुज़रे बिना continuous speech representation को सीधे generate करने वाला diffusion autoregressive आधारित TTS सिस्टम, 2B parameters मॉडल को 20 लाख घंटे से अधिक के बहुभाषी डेटा पर train किया गया है
- छोटे reference clip से voice timbre को clone करते हुए emotion·speed·style को अलग से नियंत्रित करने वाला Controllable Voice Cloning समर्थन
(slightly faster, cheerful tone)
- reference audio + transcript साथ में देने पर voice color·rhythm·emotion·style सब कुछ पुनःनिर्मित करने वाला Ultimate Cloning mode, अलग post-processing की ज़रूरत नहीं
- 16kHz reference input होने पर भी 48kHz studio-grade output को AudioVAE V2 asymmetric encode/decode से सीधे generate करता है. बाहरी upsampler या post-processing pipeline बनाने की आवश्यकता नहीं
- RTX 4090 पर RTF(Real-Time Factor) लगभग 0.3, Nano-vLLM acceleration के साथ लगभग 0.13 तक, इसलिए real-time streaming में इस्तेमाल संभव
- VRAM लगभग 8GB हो तो चल सकता है, इसलिए RTX 3070~4060 स्तर के GPU पर भी उपयोग संभव
- Seed-TTS-eval में open source मॉडलों के बीच speaker similarity (SIM) में शीर्ष स्तर, 30 भाषाओं के internal ASR benchmark में औसत error rate 1.68%
- 5~10 मिनट के audio से LoRA fine-tuning द्वारा किसी खास speaker·domain के लिए adaptation संभव,
lora_ft_webui.py के साथ WebUI आधारित training·inference भी समर्थित
- MiniCPM-4 backbone पर आधारित, LocEnc → TSLM → RALM → LocDiT की 4-चरण pipeline से निर्मित
- GGML/GGUF CPU inference (VoxCPM.cpp), ONNX conversion, Apple Neural Engine backend, Rust reimplementation, ComfyUI node आदि सहित GPU के बिना भी inference कर सकने वाले विकल्प कई उपलब्ध
- Apache-2.0 license के साथ commercial use पर कोई पाबंदी नहीं, Python implementation
अभी कोई टिप्पणी नहीं है.