- Qwen3-TTS एक बहुभाषी speech generation model series है, जो voice cloning, voice design, ultra-high-quality human-like speech generation, और natural language आधारित control को सपोर्ट करती है
- यह चीनी, अंग्रेज़ी, जापानी, कोरियाई सहित 10 प्रमुख भाषाओं और विभिन्न बोलियों को सपोर्ट करती है, और 1.7B तथा 0.6B दो model sizes में उपलब्ध है
- स्वयं विकसित Qwen3-TTS-Tokenizer-12Hz encoder के जरिए speech signals को कुशलतापूर्वक compress किया जाता है, और non-verbal information व acoustic environment को पूरी तरह सुरक्षित रखा जाता है
- Dual-Track streaming architecture के साथ 1 character input के बाद पहला audio packet तुरंत आउटपुट होता है, और 97ms latency के साथ real-time synthesis performance हासिल की गई है
- ओपन सोर्स रिलीज़ के कारण developers और enterprises सीधे high-quality speech generation technology का उपयोग कर सकते हैं
Qwen3-TTS परिचय
- Qwen3-TTS, Qwen द्वारा विकसित high-performance speech generation model series है, जो voice design, cloning, generation, और control फीचर्स को एकीकृत रूप में प्रदान करती है
- natural language commands से voice tone, emotion, intonation आदि को नियंत्रित किया जा सकता है
- Qwen API और GitHub के माध्यम से इसे एक्सेस किया जा सकता है
- Qwen3-TTS-Tokenizer-12Hz multi-codebook encoder पर आधारित होकर, यह high-speed और high-fidelity speech reconstruction तथा efficient compression को संभव बनाती है
- Dual-Track bidirectional streaming के जरिए character-level real-time speech output को सपोर्ट करती है
मॉडल संरचना
- पूरा मॉडल 1.7B और 0.6B दो sizes में उपलब्ध है
- 1.7B: सर्वोच्च performance और precise control capabilities प्रदान करता है
- 0.6B: performance और efficiency के बीच संतुलित विकल्प
- दोनों मॉडल चीनी, अंग्रेज़ी, जापानी, कोरियाई, जर्मन, फ़्रेंच, रूसी, पुर्तगाली, स्पेनिश, इतालवी को सपोर्ट करते हैं
- 3 सेकंड audio input से तेज़ voice clone संभव है, और fine-tuning (FT) में भी उपयोग किया जा सकता है
प्रमुख तकनीकी विशेषताएँ
- उच्च-प्रदर्शन speech expressiveness
- Qwen3-TTS-Tokenizer-12Hz के जरिए acoustic signals की high-dimensional semantic modeling और compression किया जाता है
- non-verbal information और ambient sound को सुरक्षित रखते हुए, lightweight non-DiT structure से तेज़ reconstruction को सपोर्ट किया जाता है
- end-to-end multi-codebook architecture
- पारंपरिक LM+DiT approach में information bottleneck और error accumulation की समस्या को हटाया गया है
- model generality, generation efficiency, और performance ceiling को बेहतर बनाया गया है
- ultra-low-latency streaming synthesis
- Dual-Track hybrid architecture के जरिए streaming और non-streaming दोनों को साथ में सपोर्ट किया जाता है
- 1 character input के बाद पहला audio output, 97ms latency हासिल
- intelligent text understanding और speech control
- natural language commands के आधार पर voice tone, emotion, prosody जैसी multi-dimensional properties को नियंत्रित किया जा सकता है
- text meaning के अनुसार tone और rhythm अपने आप समायोजित होते हैं
मॉडल performance evaluation
- voice design: InstructTTS-Eval benchmark में MiniMax-Voice-Design से बेहतर instruction-following और expressiveness हासिल की गई
- speech control: single-speaker multilingual generalization में WER 2.34% और style control score 75.4% दर्ज
- 10 मिनट लगातार synthesis में भी चीनी WER 2.36% और अंग्रेज़ी 2.81% बनाए रखा
- voice cloning: Seed-tts-eval में MiniMax, SeedTTS से अधिक स्थिर
- 10 भाषाओं के औसत में WER 1.835%, speaker similarity 0.789, और CosyVoice3 से बेहतर प्रदर्शन
Tokenizer performance
- LibriSpeech test-clean सेट पर SOTA हासिल
- PESQ: wideband 3.21, narrowband 3.68
- STOI: 0.96, UTMOS: 4.16
- speaker similarity 0.95 के साथ लगभग lossless स्तर का speaker information preservation
voice design और samples
- natural language descriptions के आधार पर custom voice tone generation संभव
- gender, age, emotion, intonation जैसी बारीक properties का control
- उदाहरण: command-style male voice, emotional female voice, age-based voice tones आदि
- Timbre Reuse फीचर के जरिए generated voice tones को save और reuse किया जा सकता है
- multi-speaker conversation या long-form narration में उपयोग संभव
CustomVoice और voice tone control
- speaker-specific fine-tuning के बाद भी target voice tone retention और multilingual speech संभव
- single-attribute और multi-attribute control दोनों सपोर्ट
- उदाहरण: sadness, anger, whisper, slow speaking style जैसी सूक्ष्म emotional adjustments
- 9 सार्वजनिक voice tone sets उपलब्ध
- चीनी, अंग्रेज़ी, जापानी, कोरियाई और बोलियाँ शामिल
- उदाहरण: Serena, Uncle Fu, Vivian, Ryan, Sohee आदि
Voice Clone और multilingual cloning
- 3 सेकंड audio input से high-speed voice cloning
- चीनी और अंग्रेज़ी cloning के अलावा cross-language cloning भी सपोर्ट
- उदाहरण: जापानी, कोरियाई जैसी बहुभाषी speech संभव
- text noise robustness सुनिश्चित
- complex symbols, pinyin, special characters वाले वाक्यों का भी सटीक उच्चारण
Tokenizer आधारित audio reconstruction
- बोलियाँ, गायन, non-verbal sounds, background audio जैसे विविध acoustic elements का reconstruction संभव
- मूल के मुकाबले high-fidelity reconstruction quality प्रमाणित
3 टिप्पणियां
अरे, यह तो मेरे लैपटॉप पर भी चल रहा है
मैं भी आजकल लोकल में Qwen-आधारित मॉडल्स का सच में बहुत ज़्यादा इस्तेमाल कर रहा हूँ.
शुरुआत में लगा कि शायद यह Alibaba का मॉडल है इसलिए ऐसा होगा, लेकिन इसे लगातार बेहतर बनाते हुए विस्तार करना वाकई हैरान करने वाला है।
Hacker News की राय
मैंने macOS पर mlx-audio का इस्तेमाल करके इसे चलाकर देखा। यह Prince Canuma के ट्वीट की वजह से संभव हुआ
मैंने जो स्क्रिप्ट इस्तेमाल की, वह यहाँ है
uvसे चलाने पर यह शुरुआत में 4.5GB मॉडल डाउनलोड करता है। उदाहरण कमांड यह हैuv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wavअगर आप खुद voice cloning आज़माना चाहते हैं, तो यह Hugging Face डेमो में संभव है
"Voice Clone" टैब पर जाएँ, उदाहरण टेक्स्ट पेस्ट करें, माइक्रोफोन से अपनी आवाज़ रिकॉर्ड करें, फिर कोई दूसरा टेक्स्ट डालें और यह आपकी आवाज़ में पढ़ा हुआ वर्ज़न बना देगा
मैंने जो ऑडियो सैंपल बनाए, वे यहाँ साझा किए हैं
दिलचस्प मॉडल है। मैंने 1080 GPU पर 0.6B मॉडल चलाया, और 200 कैरेक्टर के बैच में यह OOM के बिना जनरेट कर पा रहा था। मैं ताओ ते चिंग ऑडियोबुक बनाने की कोशिश कर रहा था, लेकिन नतीजे हर बार अलग आते थे, जैसे कोई जादुई रूले हो। कुछ हिस्से साफ़ थे, जबकि कुछ में हँसी या कराह जैसी आवाज़ें थीं, यानी भावनाएँ बहुत अस्थिर थीं। Ryan स्पीकर सबसे स्थिर था, और Eric ऐसा लग रहा था जैसे बढ़ा-चढ़ाकर बोला गया चीनी लहजा हो। अगर भावनाएँ लगातार एक जैसी रहतीं, तो यह अब तक इस्तेमाल किए गए TTS में सबसे अच्छा होता
मैं Qwen टीम से कहना चाहूँगा — काश वे Opus 4.5 की coding capability से बेहतर मॉडल जारी करें। मुझे मॉडल पसंद हैं, लेकिन उस कंपनी की closed leadership और राजनीतिक रूप से विभाजनकारी प्रकृति पसंद नहीं
काफ़ी समय बाद कोई तकनीक रूह कंपा देने जितनी आगे बढ़ी लगी है। मैं 2018 से AI TTS इस्तेमाल कर रहा हूँ, लेकिन इस मॉडल ने पहली बार मुझे महसूस कराया कि पुराने रेडियो ड्रामा की बहाली संभव हो सकती है। उदाहरण के लिए, टेप खराब होने से जहाँ कुछ संवाद गायब हो गए हों, वहाँ संदर्भ के आधार पर उन्हें बहाल किया जा सकता है। Bob Bailey जैसे अभिनेताओं के दर्जनों घंटों के ऑडियो को फिर से जीवित किया जा सकता है
क्या किसी ने इसे Mac पर चलाकर देखा है? इंस्टॉलेशन गाइड NVIDIA GPU (CUDA, FlashAttention) को आधार मानकर लिखी गई है, इसलिए पता नहीं कि यह PyTorch Metal/MPS बैकएंड पर चलेगा या नहीं
--no-flash-attnऑप्शन के साथ चलाया जा सकता है। मैं Windows पर ऐसे ही चला रहा हूँआख़िरी Age Control उदाहरण को “अमेरिकन ऐक्सेंट” पर सेट किया गया था, लेकिन मेरे कानों को वह ऐसा लगा जैसे कोई ऑस्ट्रेलियाई अमेरिकन ऐक्सेंट की नकल कर रहा हो
यह ऑडियोबुक बनाने के लिए वाकई बहुत उपयुक्त लगता है। मौजूदा AI TTS में अभी भी naturalness की कमी रही है
voice acting इंडस्ट्री अब धीरे-धीरे पक रही है। कुछ डेमो में इंडी voice actors से भी कहीं ज़्यादा पॉलिश्ड आवाज़ सुनाई दी
मुझे चिंता है कि कहीं कभी मेरी दादी इसके ज़रिए ठगी का शिकार न हो जाएँ