- Qwen3-TTS एक बहुभाषी speech generation model series है, जो voice cloning, voice design, ultra-high-quality human-like speech generation, और natural language आधारित control को सपोर्ट करती है
- यह चीनी, अंग्रेज़ी, जापानी, कोरियाई सहित 10 प्रमुख भाषाओं और विभिन्न बोलियों को सपोर्ट करती है, और 1.7B तथा 0.6B दो model sizes में उपलब्ध है
- स्वयं विकसित Qwen3-TTS-Tokenizer-12Hz encoder के जरिए speech signals को कुशलतापूर्वक compress किया जाता है, और non-verbal information व acoustic environment को पूरी तरह सुरक्षित रखा जाता है
- Dual-Track streaming architecture के साथ 1 character input के बाद पहला audio packet तुरंत आउटपुट होता है, और 97ms latency के साथ real-time synthesis performance हासिल की गई है
- ओपन सोर्स रिलीज़ के कारण developers और enterprises सीधे high-quality speech generation technology का उपयोग कर सकते हैं
Qwen3-TTS परिचय
- Qwen3-TTS, Qwen द्वारा विकसित high-performance speech generation model series है, जो voice design, cloning, generation, और control फीचर्स को एकीकृत रूप में प्रदान करती है
- natural language commands से voice tone, emotion, intonation आदि को नियंत्रित किया जा सकता है
- Qwen API और GitHub के माध्यम से इसे एक्सेस किया जा सकता है
- Qwen3-TTS-Tokenizer-12Hz multi-codebook encoder पर आधारित होकर, यह high-speed और high-fidelity speech reconstruction तथा efficient compression को संभव बनाती है
- Dual-Track bidirectional streaming के जरिए character-level real-time speech output को सपोर्ट करती है
मॉडल संरचना
- पूरा मॉडल 1.7B और 0.6B दो sizes में उपलब्ध है
- 1.7B: सर्वोच्च performance और precise control capabilities प्रदान करता है
- 0.6B: performance और efficiency के बीच संतुलित विकल्प
- दोनों मॉडल चीनी, अंग्रेज़ी, जापानी, कोरियाई, जर्मन, फ़्रेंच, रूसी, पुर्तगाली, स्पेनिश, इतालवी को सपोर्ट करते हैं
- 3 सेकंड audio input से तेज़ voice clone संभव है, और fine-tuning (FT) में भी उपयोग किया जा सकता है
प्रमुख तकनीकी विशेषताएँ
- उच्च-प्रदर्शन speech expressiveness
- Qwen3-TTS-Tokenizer-12Hz के जरिए acoustic signals की high-dimensional semantic modeling और compression किया जाता है
- non-verbal information और ambient sound को सुरक्षित रखते हुए, lightweight non-DiT structure से तेज़ reconstruction को सपोर्ट किया जाता है
- end-to-end multi-codebook architecture
- पारंपरिक LM+DiT approach में information bottleneck और error accumulation की समस्या को हटाया गया है
- model generality, generation efficiency, और performance ceiling को बेहतर बनाया गया है
- ultra-low-latency streaming synthesis
- Dual-Track hybrid architecture के जरिए streaming और non-streaming दोनों को साथ में सपोर्ट किया जाता है
- 1 character input के बाद पहला audio output, 97ms latency हासिल
- intelligent text understanding और speech control
- natural language commands के आधार पर voice tone, emotion, prosody जैसी multi-dimensional properties को नियंत्रित किया जा सकता है
- text meaning के अनुसार tone और rhythm अपने आप समायोजित होते हैं
मॉडल performance evaluation
- voice design: InstructTTS-Eval benchmark में MiniMax-Voice-Design से बेहतर instruction-following और expressiveness हासिल की गई
- speech control: single-speaker multilingual generalization में WER 2.34% और style control score 75.4% दर्ज
- 10 मिनट लगातार synthesis में भी चीनी WER 2.36% और अंग्रेज़ी 2.81% बनाए रखा
- voice cloning: Seed-tts-eval में MiniMax, SeedTTS से अधिक स्थिर
- 10 भाषाओं के औसत में WER 1.835%, speaker similarity 0.789, और CosyVoice3 से बेहतर प्रदर्शन
Tokenizer performance
- LibriSpeech test-clean सेट पर SOTA हासिल
- PESQ: wideband 3.21, narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- speaker similarity 0.95 के साथ लगभग lossless स्तर का speaker information preservation
voice design और samples
- natural language descriptions के आधार पर custom voice tone generation संभव
- gender, age, emotion, intonation जैसी बारीक properties का control
- उदाहरण: command-style male voice, emotional female voice, age-based voice tones आदि
- Timbre Reuse फीचर के जरिए generated voice tones को save और reuse किया जा सकता है
- multi-speaker conversation या long-form narration में उपयोग संभव
CustomVoice और voice tone control
- speaker-specific fine-tuning के बाद भी target voice tone retention और multilingual speech संभव
- single-attribute और multi-attribute control दोनों सपोर्ट
- उदाहरण: sadness, anger, whisper, slow speaking style जैसी सूक्ष्म emotional adjustments
- 9 सार्वजनिक voice tone sets उपलब्ध
- चीनी, अंग्रेज़ी, जापानी, कोरियाई और बोलियाँ शामिल
- उदाहरण: Serena, Uncle Fu, Vivian, Ryan, Sohee आदि
Voice Clone और multilingual cloning
- 3 सेकंड audio input से high-speed voice cloning
- चीनी और अंग्रेज़ी cloning के अलावा cross-language cloning भी सपोर्ट
- उदाहरण: जापानी, कोरियाई जैसी बहुभाषी speech संभव
- text noise robustness सुनिश्चित
- complex symbols, pinyin, special characters वाले वाक्यों का भी सटीक उच्चारण
Tokenizer आधारित audio reconstruction
- बोलियाँ, गायन, non-verbal sounds, background audio जैसे विविध acoustic elements का reconstruction संभव
- मूल के मुकाबले high-fidelity reconstruction quality प्रमाणित
अभी कोई टिप्पणी नहीं है.