- यह TTS और ASR दोनों को शामिल करने वाला वॉइस AI मॉडल परिवार है, जो लंबी अवधि की वॉइस जनरेशन और लंबी अवधि की वॉइस रिकग्निशन दोनों को कवर करता है
- इसकी मुख्य संरचना 7.5 Hz अल्ट्रा-लो-फ्रेम continuous speech tokenizer और next-token diffusion के संयोजन पर आधारित है, जिसका लक्ष्य लंबे sequence संभालते हुए ऑडियो क्वालिटी और computational efficiency दोनों पाना है
- टेक्स्ट संदर्भ और संवाद प्रवाह को समझने के लिए LLM का उपयोग किया गया है, और उच्च-निष्ठा ध्वनिक विवरण जनरेट करने के लिए diffusion head जोड़ा गया है
- VibeVoice-ASR अधिकतम 60 मिनट के ऑडियो को single pass में प्रोसेस करता है और speaker information, timestamp, तथा utterance content सहित structured transcription बनाता है
- ASR मॉडल 50 से अधिक भाषाओं को सपोर्ट करता है, और user-defined hotword या context information लेकर domain-specific recognition accuracy बेहतर कर सकता है
- ASR पक्ष में finetuning code और vLLM inference support उपलब्ध कराए गए हैं, और इसे Hugging Face Transformers लाइब्रेरी में भी सीधे इस्तेमाल किया जा सकता है
- VibeVoice-TTS अधिकतम 90 मिनट लंबी वॉइस को single pass में synthesize करता है, और एक संवाद में अधिकतम 4 speakers को सपोर्ट करता है
- TTS में अभिव्यक्तिपूर्ण conversational voice और speaker consistency पर जोर है, तथा यह अंग्रेज़ी, चीनी और अन्य भाषाओं को सपोर्ट करता है
- रिपॉज़िटरी नोटिस के अनुसार VibeVoice-TTS code हटा दिया गया है, और यह स्पष्ट किया गया है कि सार्वजनिक रिलीज़ के बाद stated intent से मेल न खाने वाला उपयोग पाए जाने पर इसे रिपॉज़िटरी से हटाया गया
- VibeVoice-Realtime-0.5B 0.5B आकार का real-time TTS मॉडल है, जो streaming text input, लगभग 300ms first audible latency, और लगभग 10 मिनट लंबी वॉइस जनरेशन को सपोर्ट करता है
- Realtime मॉडल में 9 भाषाओं के multilingual experimental speakers और 11 English style voices जोड़े गए हैं, और इसमें आगे और अधिक speaker types जोड़ने की योजना बताई गई है
- वितरण मार्ग मुख्य रूप से Hugging Face weights, Playground, और Colab के रूप में व्यवस्थित हैं, जिससे तेज़ी से परीक्षण संभव है
- इस रिपॉज़िटरी को केवल research और development purpose के लिए बताया गया है, और अतिरिक्त परीक्षण व विकास के बिना इसे commercial या production environment में उपयोग करने की सिफारिश नहीं की गई है
- मॉडल base model Qwen2.5 1.5b के bias और errors को विरासत में ले सकता है, और deepfake, impersonation, तथा misinformation फैलाने के जोखिम के कारण कानूनी और जिम्मेदार उपयोग तथा AI-generated सामग्री के खुलासे की सिफारिश की गई है
अभी कोई टिप्पणी नहीं है.