- टेक्स्ट से लंबी अवधि की स्वाभाविक multi-speaker conversational speech जनरेट करने के लिए डिज़ाइन किया गया नया TTS speech synthesis मॉडल
- इसे मौजूदा सिस्टम की सीमाओं जैसे scalability, speaker consistency, और natural turn transition की समस्याओं को हल करने के लिए बनाया गया है
- यह एक साथ अधिकतम 90 मिनट लंबी ऑडियो और अधिकतम 4 speakers synthesize कर सकता है, जिससे यह मौजूदा 1–2 speaker सीमा वाले मॉडलों से आगे निकलता है
- इसकी मुख्य तकनीक 7.5Hz ultra-low frame-rate continuous speech tokenizer (Acoustic/Semantic) है, जो लंबी audio sequences को कुशलता से प्रोसेस करते हुए audio quality बनाए रखती है
- यह Next-Token Diffusion तरीके का उपयोग करके continuous data को कुशलता से मॉडल करता है, और इसके लिए Encodec की तुलना में 80 गुना अधिक compression ratio देने वाला नया continuous speech tokenizer पेश करता है
परिचय
- हाल के TTS तकनीकी विकास ने single-speaker की छोटी utterances को high quality में synthesize करने में सफलता पाई है, लेकिन लंबी अवधि की multi-speaker dialogue synthesis अब भी एक चुनौती है
- मौजूदा तरीके utterances को साधारण रूप से जोड़ते हैं, जिससे transitions अस्वाभाविक हो जाते हैं
- natural turn-taking और context-aware generation हासिल करना कठिन है
- लक्ष्य: podcast जैसी long-form multi-speaker conversational speech synthesis को सपोर्ट करना
- VibeVoice इसे हल करने के लिए ultra-low frame-rate (7.5Hz) speech tokenizer और LLM-आधारित Diffusion architecture को जोड़ता है
- परिणामस्वरूप, यह अधिकतम 90 मिनट लंबी multi-speaker audio को स्थिर रूप से synthesize कर सकता है
तकनीकी नवाचार
- Continuous speech tokenizer (7.5Hz):
- Acoustic + Semantic tokenizer का समानांतर उपयोग
- लंबी sequence processing की efficiency सुनिश्चित करते हुए audio fidelity बनाए रखना
- Next-token diffusion framework:
- LLM text context और conversation flow को समझता है
- Diffusion head high-resolution acoustic details जनरेट करता है
- परिणाम: पहले की तुलना में कहीं अधिक स्वाभाविक और मानव-जैसी speech synthesis
प्रदर्शन
- अधिकतम 90 मिनट लंबी speech synthesis संभव
- अधिकतम 4 speakers का समर्थन (मौजूदा मॉडलों की 1–2 speaker सीमा से आगे)
- अलग-अलग संवाद स्थितियों में अभिव्यंजक और सुसंगत speech प्रदान करता है
प्रयोग परिणाम
लंबी अवधि की dialogue synthesis (Podcast)
- 1 घंटे के conversation dataset पर मूल्यांकन
- WER (word error rate), SIM (speaker similarity), और subjective evaluation (MOS) मापे गए
- VIBEVOICE-7B ने Realism 3.71, Richness 3.81, Preference 3.75 के साथ सर्वश्रेष्ठ प्रदर्शन दर्ज किया
- Gemini 2.5 Pro, ElevenLabs v3 जैसे नवीनतम मॉडलों से बेहतर
निष्कर्ष और सीमाएँ
- VibeVoice अधिकतम 90 मिनट और 4 speakers की स्वाभाविक संवाद synthesis को सपोर्ट करने वाला अगली पीढ़ी का TTS framework है
- मौजूदा open source और commercial मॉडलों की तुलना में subjective और objective quality दोनों में बेहतर
- सीमाएँ:
- अंग्रेज़ी और चीनी के अलावा अन्य भाषाओं में अप्रत्याशित परिणाम संभव
- non-speech audio (background sound, music) का समर्थन नहीं
- overlapping speech का समर्थन नहीं
- deepfake और misinformation के दुरुपयोग का जोखिम मौजूद
- इसलिए फिलहाल यह केवल research और development उद्देश्यों के लिए है, commercial उपयोग की सिफारिश नहीं की जाती
अभी कोई टिप्पणी नहीं है.