Qwen3-TTS परिवार ओपन सोर्स जारी: voice design, clone और generation फीचर उपलब्ध

(qwen.ai)

31 पॉइंट द्वारा GN⁺ 2026-01-23 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Qwen3-TTS एक बहुभाषी speech generation model series है, जो voice cloning, voice design, ultra-high-quality human-like speech generation, और natural language आधारित control को सपोर्ट करती है
यह चीनी, अंग्रेज़ी, जापानी, कोरियाई सहित 10 प्रमुख भाषाओं और विभिन्न बोलियों को सपोर्ट करती है, और 1.7B तथा 0.6B दो model sizes में उपलब्ध है
स्वयं विकसित Qwen3-TTS-Tokenizer-12Hz encoder के जरिए speech signals को कुशलतापूर्वक compress किया जाता है, और non-verbal information व acoustic environment को पूरी तरह सुरक्षित रखा जाता है
Dual-Track streaming architecture के साथ 1 character input के बाद पहला audio packet तुरंत आउटपुट होता है, और 97ms latency के साथ real-time synthesis performance हासिल की गई है
ओपन सोर्स रिलीज़ के कारण developers और enterprises सीधे high-quality speech generation technology का उपयोग कर सकते हैं

Qwen3-TTS परिचय

Qwen3-TTS, Qwen द्वारा विकसित high-performance speech generation model series है, जो voice design, cloning, generation, और control फीचर्स को एकीकृत रूप में प्रदान करती है
- natural language commands से voice tone, emotion, intonation आदि को नियंत्रित किया जा सकता है
- Qwen API और GitHub के माध्यम से इसे एक्सेस किया जा सकता है
Qwen3-TTS-Tokenizer-12Hz multi-codebook encoder पर आधारित होकर, यह high-speed और high-fidelity speech reconstruction तथा efficient compression को संभव बनाती है
Dual-Track bidirectional streaming के जरिए character-level real-time speech output को सपोर्ट करती है

मॉडल संरचना

पूरा मॉडल 1.7B और 0.6B दो sizes में उपलब्ध है
- 1.7B: सर्वोच्च performance और precise control capabilities प्रदान करता है
- 0.6B: performance और efficiency के बीच संतुलित विकल्प
दोनों मॉडल चीनी, अंग्रेज़ी, जापानी, कोरियाई, जर्मन, फ़्रेंच, रूसी, पुर्तगाली, स्पेनिश, इतालवी को सपोर्ट करते हैं
3 सेकंड audio input से तेज़ voice clone संभव है, और fine-tuning (FT) में भी उपयोग किया जा सकता है

प्रमुख तकनीकी विशेषताएँ

उच्च-प्रदर्शन speech expressiveness
- Qwen3-TTS-Tokenizer-12Hz के जरिए acoustic signals की high-dimensional semantic modeling और compression किया जाता है
- non-verbal information और ambient sound को सुरक्षित रखते हुए, lightweight non-DiT structure से तेज़ reconstruction को सपोर्ट किया जाता है
end-to-end multi-codebook architecture
- पारंपरिक LM+DiT approach में information bottleneck और error accumulation की समस्या को हटाया गया है
- model generality, generation efficiency, और performance ceiling को बेहतर बनाया गया है
ultra-low-latency streaming synthesis
- Dual-Track hybrid architecture के जरिए streaming और non-streaming दोनों को साथ में सपोर्ट किया जाता है
- 1 character input के बाद पहला audio output, 97ms latency हासिल
intelligent text understanding और speech control
- natural language commands के आधार पर voice tone, emotion, prosody जैसी multi-dimensional properties को नियंत्रित किया जा सकता है
- text meaning के अनुसार tone और rhythm अपने आप समायोजित होते हैं

मॉडल performance evaluation

voice design: InstructTTS-Eval benchmark में MiniMax-Voice-Design से बेहतर instruction-following और expressiveness हासिल की गई
speech control: single-speaker multilingual generalization में WER 2.34% और style control score 75.4% दर्ज
- 10 मिनट लगातार synthesis में भी चीनी WER 2.36% और अंग्रेज़ी 2.81% बनाए रखा
voice cloning: Seed-tts-eval में MiniMax, SeedTTS से अधिक स्थिर
- 10 भाषाओं के औसत में WER 1.835%, speaker similarity 0.789, और CosyVoice3 से बेहतर प्रदर्शन

Tokenizer performance

LibriSpeech test-clean सेट पर SOTA हासिल
- PESQ: wideband 3.21, narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- speaker similarity 0.95 के साथ लगभग lossless स्तर का speaker information preservation

voice design और samples

natural language descriptions के आधार पर custom voice tone generation संभव
- gender, age, emotion, intonation जैसी बारीक properties का control
- उदाहरण: command-style male voice, emotional female voice, age-based voice tones आदि
Timbre Reuse फीचर के जरिए generated voice tones को save और reuse किया जा सकता है
- multi-speaker conversation या long-form narration में उपयोग संभव

CustomVoice और voice tone control

speaker-specific fine-tuning के बाद भी target voice tone retention और multilingual speech संभव
single-attribute और multi-attribute control दोनों सपोर्ट
- उदाहरण: sadness, anger, whisper, slow speaking style जैसी सूक्ष्म emotional adjustments
9 सार्वजनिक voice tone sets उपलब्ध
- चीनी, अंग्रेज़ी, जापानी, कोरियाई और बोलियाँ शामिल
- उदाहरण: Serena, Uncle Fu, Vivian, Ryan, Sohee आदि

Voice Clone और multilingual cloning

3 सेकंड audio input से high-speed voice cloning
- चीनी और अंग्रेज़ी cloning के अलावा cross-language cloning भी सपोर्ट
- उदाहरण: जापानी, कोरियाई जैसी बहुभाषी speech संभव
text noise robustness सुनिश्चित
- complex symbols, pinyin, special characters वाले वाक्यों का भी सटीक उच्चारण

Tokenizer आधारित audio reconstruction

बोलियाँ, गायन, non-verbal sounds, background audio जैसे विविध acoustic elements का reconstruction संभव
मूल के मुकाबले high-fidelity reconstruction quality प्रमाणित

Qwen3-TTS परिवार ओपन सोर्स जारी: voice design, clone और generation फीचर उपलब्ध

Qwen3-TTS परिचय

मॉडल संरचना

प्रमुख तकनीकी विशेषताएँ

मॉडल performance evaluation

Tokenizer performance

voice design और samples

CustomVoice और voice tone control

Voice Clone और multilingual cloning

Tokenizer आधारित audio reconstruction

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.