• Qwen3-TTS एक बहुभाषी speech generation model series है, जो voice cloning, voice design, ultra-high-quality human-like speech generation, और natural language आधारित control को सपोर्ट करती है
  • यह चीनी, अंग्रेज़ी, जापानी, कोरियाई सहित 10 प्रमुख भाषाओं और विभिन्न बोलियों को सपोर्ट करती है, और 1.7B तथा 0.6B दो model sizes में उपलब्ध है
  • स्वयं विकसित Qwen3-TTS-Tokenizer-12Hz encoder के जरिए speech signals को कुशलतापूर्वक compress किया जाता है, और non-verbal information व acoustic environment को पूरी तरह सुरक्षित रखा जाता है
  • Dual-Track streaming architecture के साथ 1 character input के बाद पहला audio packet तुरंत आउटपुट होता है, और 97ms latency के साथ real-time synthesis performance हासिल की गई है
  • ओपन सोर्स रिलीज़ के कारण developers और enterprises सीधे high-quality speech generation technology का उपयोग कर सकते हैं

Qwen3-TTS परिचय

  • Qwen3-TTS, Qwen द्वारा विकसित high-performance speech generation model series है, जो voice design, cloning, generation, और control फीचर्स को एकीकृत रूप में प्रदान करती है
    • natural language commands से voice tone, emotion, intonation आदि को नियंत्रित किया जा सकता है
    • Qwen API और GitHub के माध्यम से इसे एक्सेस किया जा सकता है
  • Qwen3-TTS-Tokenizer-12Hz multi-codebook encoder पर आधारित होकर, यह high-speed और high-fidelity speech reconstruction तथा efficient compression को संभव बनाती है
  • Dual-Track bidirectional streaming के जरिए character-level real-time speech output को सपोर्ट करती है

मॉडल संरचना

  • पूरा मॉडल 1.7B और 0.6B दो sizes में उपलब्ध है
    • 1.7B: सर्वोच्च performance और precise control capabilities प्रदान करता है
    • 0.6B: performance और efficiency के बीच संतुलित विकल्प
  • दोनों मॉडल चीनी, अंग्रेज़ी, जापानी, कोरियाई, जर्मन, फ़्रेंच, रूसी, पुर्तगाली, स्पेनिश, इतालवी को सपोर्ट करते हैं
  • 3 सेकंड audio input से तेज़ voice clone संभव है, और fine-tuning (FT) में भी उपयोग किया जा सकता है

प्रमुख तकनीकी विशेषताएँ

  • उच्च-प्रदर्शन speech expressiveness
    • Qwen3-TTS-Tokenizer-12Hz के जरिए acoustic signals की high-dimensional semantic modeling और compression किया जाता है
    • non-verbal information और ambient sound को सुरक्षित रखते हुए, lightweight non-DiT structure से तेज़ reconstruction को सपोर्ट किया जाता है
  • end-to-end multi-codebook architecture
    • पारंपरिक LM+DiT approach में information bottleneck और error accumulation की समस्या को हटाया गया है
    • model generality, generation efficiency, और performance ceiling को बेहतर बनाया गया है
  • ultra-low-latency streaming synthesis
    • Dual-Track hybrid architecture के जरिए streaming और non-streaming दोनों को साथ में सपोर्ट किया जाता है
    • 1 character input के बाद पहला audio output, 97ms latency हासिल
  • intelligent text understanding और speech control
    • natural language commands के आधार पर voice tone, emotion, prosody जैसी multi-dimensional properties को नियंत्रित किया जा सकता है
    • text meaning के अनुसार tone और rhythm अपने आप समायोजित होते हैं

मॉडल performance evaluation

  • voice design: InstructTTS-Eval benchmark में MiniMax-Voice-Design से बेहतर instruction-following और expressiveness हासिल की गई
  • speech control: single-speaker multilingual generalization में WER 2.34% और style control score 75.4% दर्ज
    • 10 मिनट लगातार synthesis में भी चीनी WER 2.36% और अंग्रेज़ी 2.81% बनाए रखा
  • voice cloning: Seed-tts-eval में MiniMax, SeedTTS से अधिक स्थिर
    • 10 भाषाओं के औसत में WER 1.835%, speaker similarity 0.789, और CosyVoice3 से बेहतर प्रदर्शन

Tokenizer performance

  • LibriSpeech test-clean सेट पर SOTA हासिल
    • PESQ: wideband 3.21, narrowband 3.68
    • STOI: 0.96, UTMOS: 4.16
    • speaker similarity 0.95 के साथ लगभग lossless स्तर का speaker information preservation

voice design और samples

  • natural language descriptions के आधार पर custom voice tone generation संभव
    • gender, age, emotion, intonation जैसी बारीक properties का control
    • उदाहरण: command-style male voice, emotional female voice, age-based voice tones आदि
  • Timbre Reuse फीचर के जरिए generated voice tones को save और reuse किया जा सकता है
    • multi-speaker conversation या long-form narration में उपयोग संभव

CustomVoice और voice tone control

  • speaker-specific fine-tuning के बाद भी target voice tone retention और multilingual speech संभव
  • single-attribute और multi-attribute control दोनों सपोर्ट
    • उदाहरण: sadness, anger, whisper, slow speaking style जैसी सूक्ष्म emotional adjustments
  • 9 सार्वजनिक voice tone sets उपलब्ध
    • चीनी, अंग्रेज़ी, जापानी, कोरियाई और बोलियाँ शामिल
    • उदाहरण: Serena, Uncle Fu, Vivian, Ryan, Sohee आदि

Voice Clone और multilingual cloning

  • 3 सेकंड audio input से high-speed voice cloning
    • चीनी और अंग्रेज़ी cloning के अलावा cross-language cloning भी सपोर्ट
    • उदाहरण: जापानी, कोरियाई जैसी बहुभाषी speech संभव
  • text noise robustness सुनिश्चित
    • complex symbols, pinyin, special characters वाले वाक्यों का भी सटीक उच्चारण

Tokenizer आधारित audio reconstruction

  • बोलियाँ, गायन, non-verbal sounds, background audio जैसे विविध acoustic elements का reconstruction संभव
  • मूल के मुकाबले high-fidelity reconstruction quality प्रमाणित

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.