31 पॉइंट द्वारा GN⁺ 2026-01-23 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen3-TTS एक बहुभाषी speech generation model series है, जो voice cloning, voice design, ultra-high-quality human-like speech generation, और natural language आधारित control को सपोर्ट करती है
  • यह चीनी, अंग्रेज़ी, जापानी, कोरियाई सहित 10 प्रमुख भाषाओं और विभिन्न बोलियों को सपोर्ट करती है, और 1.7B तथा 0.6B दो model sizes में उपलब्ध है
  • स्वयं विकसित Qwen3-TTS-Tokenizer-12Hz encoder के जरिए speech signals को कुशलतापूर्वक compress किया जाता है, और non-verbal information व acoustic environment को पूरी तरह सुरक्षित रखा जाता है
  • Dual-Track streaming architecture के साथ 1 character input के बाद पहला audio packet तुरंत आउटपुट होता है, और 97ms latency के साथ real-time synthesis performance हासिल की गई है
  • ओपन सोर्स रिलीज़ के कारण developers और enterprises सीधे high-quality speech generation technology का उपयोग कर सकते हैं

Qwen3-TTS परिचय

  • Qwen3-TTS, Qwen द्वारा विकसित high-performance speech generation model series है, जो voice design, cloning, generation, और control फीचर्स को एकीकृत रूप में प्रदान करती है
    • natural language commands से voice tone, emotion, intonation आदि को नियंत्रित किया जा सकता है
    • Qwen API और GitHub के माध्यम से इसे एक्सेस किया जा सकता है
  • Qwen3-TTS-Tokenizer-12Hz multi-codebook encoder पर आधारित होकर, यह high-speed और high-fidelity speech reconstruction तथा efficient compression को संभव बनाती है
  • Dual-Track bidirectional streaming के जरिए character-level real-time speech output को सपोर्ट करती है

मॉडल संरचना

  • पूरा मॉडल 1.7B और 0.6B दो sizes में उपलब्ध है
    • 1.7B: सर्वोच्च performance और precise control capabilities प्रदान करता है
    • 0.6B: performance और efficiency के बीच संतुलित विकल्प
  • दोनों मॉडल चीनी, अंग्रेज़ी, जापानी, कोरियाई, जर्मन, फ़्रेंच, रूसी, पुर्तगाली, स्पेनिश, इतालवी को सपोर्ट करते हैं
  • 3 सेकंड audio input से तेज़ voice clone संभव है, और fine-tuning (FT) में भी उपयोग किया जा सकता है

प्रमुख तकनीकी विशेषताएँ

  • उच्च-प्रदर्शन speech expressiveness
    • Qwen3-TTS-Tokenizer-12Hz के जरिए acoustic signals की high-dimensional semantic modeling और compression किया जाता है
    • non-verbal information और ambient sound को सुरक्षित रखते हुए, lightweight non-DiT structure से तेज़ reconstruction को सपोर्ट किया जाता है
  • end-to-end multi-codebook architecture
    • पारंपरिक LM+DiT approach में information bottleneck और error accumulation की समस्या को हटाया गया है
    • model generality, generation efficiency, और performance ceiling को बेहतर बनाया गया है
  • ultra-low-latency streaming synthesis
    • Dual-Track hybrid architecture के जरिए streaming और non-streaming दोनों को साथ में सपोर्ट किया जाता है
    • 1 character input के बाद पहला audio output, 97ms latency हासिल
  • intelligent text understanding और speech control
    • natural language commands के आधार पर voice tone, emotion, prosody जैसी multi-dimensional properties को नियंत्रित किया जा सकता है
    • text meaning के अनुसार tone और rhythm अपने आप समायोजित होते हैं

मॉडल performance evaluation

  • voice design: InstructTTS-Eval benchmark में MiniMax-Voice-Design से बेहतर instruction-following और expressiveness हासिल की गई
  • speech control: single-speaker multilingual generalization में WER 2.34% और style control score 75.4% दर्ज
    • 10 मिनट लगातार synthesis में भी चीनी WER 2.36% और अंग्रेज़ी 2.81% बनाए रखा
  • voice cloning: Seed-tts-eval में MiniMax, SeedTTS से अधिक स्थिर
    • 10 भाषाओं के औसत में WER 1.835%, speaker similarity 0.789, और CosyVoice3 से बेहतर प्रदर्शन

Tokenizer performance

  • LibriSpeech test-clean सेट पर SOTA हासिल
    • PESQ: wideband 3.21, narrowband 3.68
    • STOI: 0.96, UTMOS: 4.16
    • speaker similarity 0.95 के साथ लगभग lossless स्तर का speaker information preservation

voice design और samples

  • natural language descriptions के आधार पर custom voice tone generation संभव
    • gender, age, emotion, intonation जैसी बारीक properties का control
    • उदाहरण: command-style male voice, emotional female voice, age-based voice tones आदि
  • Timbre Reuse फीचर के जरिए generated voice tones को save और reuse किया जा सकता है
    • multi-speaker conversation या long-form narration में उपयोग संभव

CustomVoice और voice tone control

  • speaker-specific fine-tuning के बाद भी target voice tone retention और multilingual speech संभव
  • single-attribute और multi-attribute control दोनों सपोर्ट
    • उदाहरण: sadness, anger, whisper, slow speaking style जैसी सूक्ष्म emotional adjustments
  • 9 सार्वजनिक voice tone sets उपलब्ध
    • चीनी, अंग्रेज़ी, जापानी, कोरियाई और बोलियाँ शामिल
    • उदाहरण: Serena, Uncle Fu, Vivian, Ryan, Sohee आदि

Voice Clone और multilingual cloning

  • 3 सेकंड audio input से high-speed voice cloning
    • चीनी और अंग्रेज़ी cloning के अलावा cross-language cloning भी सपोर्ट
    • उदाहरण: जापानी, कोरियाई जैसी बहुभाषी speech संभव
  • text noise robustness सुनिश्चित
    • complex symbols, pinyin, special characters वाले वाक्यों का भी सटीक उच्चारण

Tokenizer आधारित audio reconstruction

  • बोलियाँ, गायन, non-verbal sounds, background audio जैसे विविध acoustic elements का reconstruction संभव
  • मूल के मुकाबले high-fidelity reconstruction quality प्रमाणित

3 टिप्पणियां

 
sudosudo 2026-01-24

अरे, यह तो मेरे लैपटॉप पर भी चल रहा है

 
xguru 2026-01-23

मैं भी आजकल लोकल में Qwen-आधारित मॉडल्स का सच में बहुत ज़्यादा इस्तेमाल कर रहा हूँ.
शुरुआत में लगा कि शायद यह Alibaba का मॉडल है इसलिए ऐसा होगा, लेकिन इसे लगातार बेहतर बनाते हुए विस्तार करना वाकई हैरान करने वाला है।

 
GN⁺ 2026-01-23
Hacker News की राय
  • मैंने macOS पर mlx-audio का इस्तेमाल करके इसे चलाकर देखा। यह Prince Canuma के ट्वीट की वजह से संभव हुआ
    मैंने जो स्क्रिप्ट इस्तेमाल की, वह यहाँ है
    uv से चलाने पर यह शुरुआत में 4.5GB मॉडल डाउनलोड करता है। उदाहरण कमांड यह है
    uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav

    • वाकई कमाल है। uv की एक और जीत
  • अगर आप खुद voice cloning आज़माना चाहते हैं, तो यह Hugging Face डेमो में संभव है
    "Voice Clone" टैब पर जाएँ, उदाहरण टेक्स्ट पेस्ट करें, माइक्रोफोन से अपनी आवाज़ रिकॉर्ड करें, फिर कोई दूसरा टेक्स्ट डालें और यह आपकी आवाज़ में पढ़ा हुआ वर्ज़न बना देगा
    मैंने जो ऑडियो सैंपल बनाए, वे यहाँ साझा किए हैं

    • सच कहूँ तो यह थोड़ा डरावना लगा। z-image-turbo के साथ मिलाकर देखें, तो अब मान लेना चाहिए कि स्क्रीन पर दिखने वाली हर चीज़ नकली हो सकती है। हम ऐसे दौर में पहुँच गए हैं जहाँ cryptographic verification के बिना भरोसा नहीं किया जा सकता
    • HF डेमो ओवरलोड था, लेकिन लोकल पर यह अच्छी तरह चला। 1.7B मॉडल स्पीकर का tone अच्छी तरह पकड़ता है, लेकिन intonation variation कम है, इसलिए थोड़ा सपाट सुनाई देता है। शायद इसलिए क्योंकि डेमो में expressiveness control फीचर एक्सपोज़ नहीं किया गया। फिर भी, 0.6B की तुलना में noise handling काफी बेहतर थी। FlashAttention के बिना 5090 GPU पर यह लगभग 0.3x स्पीड से धीमा था, लेकिन क्वालिटी प्रभावशाली थी
    • हैरान कर देने वाली टेक्नोलॉजी है। मेरी क्लोन की गई आवाज़ सचमुच मेरी जैसी लगी। इसके अच्छे और बुरे दोनों तरह के उपयोग हो सकते हैं — जैसे दिवंगत दादी का अपने पोते-पोतियों को कहानी की किताब पढ़ना, या फिर धोखाधड़ी और ऑटोमेटेड पॉडकास्ट बनाना
    • सिर्फ पोस्ट की गई रिकॉर्डिंग से क्लोनिंग परफॉर्मेंस का आकलन करना मुश्किल है। मूल आवाज़ का सैंपल भी साथ होना चाहिए
    • मैंने मज़े के लिए इसे आज़माया। अगर मैं अपनी आवाज़ के कुछ मिनट रिकॉर्ड करके रख दूँ, तो शायद किसी दिन मेरे द्वारा मुझे ही किताब पढ़कर सुनाने वाली ऑडियोबुक बना सकूँ
  • दिलचस्प मॉडल है। मैंने 1080 GPU पर 0.6B मॉडल चलाया, और 200 कैरेक्टर के बैच में यह OOM के बिना जनरेट कर पा रहा था। मैं ताओ ते चिंग ऑडियोबुक बनाने की कोशिश कर रहा था, लेकिन नतीजे हर बार अलग आते थे, जैसे कोई जादुई रूले हो। कुछ हिस्से साफ़ थे, जबकि कुछ में हँसी या कराह जैसी आवाज़ें थीं, यानी भावनाएँ बहुत अस्थिर थीं। Ryan स्पीकर सबसे स्थिर था, और Eric ऐसा लग रहा था जैसे बढ़ा-चढ़ाकर बोला गया चीनी लहजा हो। अगर भावनाएँ लगातार एक जैसी रहतीं, तो यह अब तक इस्तेमाल किए गए TTS में सबसे अच्छा होता

    • क्या आपने भावनाएँ सीधे सेट करके देखीं? अगर खाली छोड़ें, तो शायद यह random emotion (rng) पर सेट हो जाता हो
    • मैं 1080 पर RTF (real-time factor) जानना चाहता हूँ। मैं देख रहा हूँ कि 0.6B मॉडल edge device पर real-time inference कर सकता है या नहीं
  • मैं Qwen टीम से कहना चाहूँगा — काश वे Opus 4.5 की coding capability से बेहतर मॉडल जारी करें। मुझे मॉडल पसंद हैं, लेकिन उस कंपनी की closed leadership और राजनीतिक रूप से विभाजनकारी प्रकृति पसंद नहीं

    • शायद यही वह टिप्पणी है जिसका वे इंतज़ार कर रहे थे
    • मुझे भी वही समस्या है (मैं डेनमार्क का हूँ)। मैंने Open Code और Minimax m2.1 ($10/माह) के साथ टेस्ट किया, और वे काफी अच्छे निकले। GLM 4.7 भी शानदार है। विस्तार से तुलना इस लेख में है। जिस कंपनी को आप नापसंद करते हैं, उसे पैसे भेजने की कोई ज़रूरत नहीं
    • मैं जानना चाहूँगा कि “राजनीतिक रूप से विभाजनकारी” से आपका क्या मतलब है
    • मुझे GLM 4.7 के साथ अच्छे नतीजे मिल रहे हैं। मैं दो max अकाउंट 24/7 चला रहा हूँ, और code review का कुछ हिस्सा Claude से करवा रहा हूँ। अगर लागत मुद्दा है, तो GLM 4.7 अच्छा विकल्प है
    • मैं पूछना चाहता था कि क्या आपने नया GLM 4.7 आज़माया है
  • काफ़ी समय बाद कोई तकनीक रूह कंपा देने जितनी आगे बढ़ी लगी है। मैं 2018 से AI TTS इस्तेमाल कर रहा हूँ, लेकिन इस मॉडल ने पहली बार मुझे महसूस कराया कि पुराने रेडियो ड्रामा की बहाली संभव हो सकती है। उदाहरण के लिए, टेप खराब होने से जहाँ कुछ संवाद गायब हो गए हों, वहाँ संदर्भ के आधार पर उन्हें बहाल किया जा सकता है। Bob Bailey जैसे अभिनेताओं के दर्जनों घंटों के ऑडियो को फिर से जीवित किया जा सकता है

    • जो सैंपल मैंने सुने, वे मियाज़ाकी-स्टाइल एनीमे डबिंग जैसे लगे। सोच रहा हूँ कि क्या इसे ऐसे डेटा पर ट्रेन किया गया है
    • मैं भी “Have Gun - Will Travel” रेडियो एपिसोड बहाल करने की एक परियोजना की योजना बना रहा हूँ। अगर टेप डैमेज या साउंड इफेक्ट्स के हस्तक्षेप की वजह से समझ में न आने वाले हिस्से बहाल किए जा सकें, तो वह सचमुच कमाल होगा। हालाँकि दुरुपयोग की संभावना भी बहुत है
  • क्या किसी ने इसे Mac पर चलाकर देखा है? इंस्टॉलेशन गाइड NVIDIA GPU (CUDA, FlashAttention) को आधार मानकर लिखी गई है, इसलिए पता नहीं कि यह PyTorch Metal/MPS बैकएंड पर चलेगा या नहीं

    • इसे FlashAttention के बिना --no-flash-attn ऑप्शन के साथ चलाया जा सकता है। मैं Windows पर ऐसे ही चला रहा हूँ
    • मैं सुझाव दूँगा कि modal का इस्तेमाल करके Metal environment किराए पर लें
    • FlashAttention dependency की वजह से अभी के लिए यह संभव नहीं है। उम्मीद है कोई Metal के लिए पोर्ट कर दे
  • आख़िरी Age Control उदाहरण को “अमेरिकन ऐक्सेंट” पर सेट किया गया था, लेकिन मेरे कानों को वह ऐसा लगा जैसे कोई ऑस्ट्रेलियाई अमेरिकन ऐक्सेंट की नकल कर रहा हो

  • यह ऑडियोबुक बनाने के लिए वाकई बहुत उपयुक्त लगता है। मौजूदा AI TTS में अभी भी naturalness की कमी रही है

  • voice acting इंडस्ट्री अब धीरे-धीरे पक रही है। कुछ डेमो में इंडी voice actors से भी कहीं ज़्यादा पॉलिश्ड आवाज़ सुनाई दी

  • मुझे चिंता है कि कहीं कभी मेरी दादी इसके ज़रिए ठगी का शिकार न हो जाएँ

    • अब तक तो यही इसका मुख्य use case लगता है
    • लेकिन आजकल की दादियाँ QVC और phone psychics वाली पीढ़ी से हैं, इसलिए शायद अब वे ऐसी चीज़ों में आसानी से न फँसें