- Microsoft द्वारा जारी ओपन सोर्स वॉइस AI मॉडल फैमिली, जिसमें TTS(टेक्स्ट→स्पीच) और ASR(स्पीच→टेक्स्ट) दोनों शामिल हैं
- ASR, Open AI Whisper जैसा है, लेकिन speaker diarization फीचर मॉडल में ही बिल्ट-इन है
- मुख्य नवाचार 7.5Hz अल्ट्रा-लो फ्रेम रेट वाला continuous speech tokenizer है, जो ऑडियो क्वालिटी बनाए रखते हुए लंबी sequence की computational efficiency को काफी बेहतर बनाता है
- next-token diffusion फ्रेमवर्क अपनाया गया है - LLM टेक्स्ट संदर्भ को समझता है, और diffusion head उच्च-गुणवत्ता वाले acoustic details बनाता है
- VibeVoice-ASR (7B): अधिकतम 60 मिनट ऑडियो को single pass में प्रोसेस करता है, और speaker(Who)·timestamp(When)·content(What) को structured output के रूप में देता है
- यूज़र-कस्टम hotword फीचर से domain-specific टर्म्स की recognition accuracy बेहतर होती है
- 50 से अधिक भाषाओं को native रूप से सपोर्ट करने वाला multilingual मॉडल
- मार्च 2026 से Hugging Face Transformers में इंटीग्रेट किया जाएगा
- vLLM inference सपोर्ट के साथ तेज inference संभव, और fine-tuning code भी जारी
- VibeVoice-TTS (1.5B): अधिकतम 90 मिनट की conversational speech को single pass में जनरेट करता है, और एक बार में अधिकतम 4 speakers को सपोर्ट करता है
- भावनात्मक बारीकियों और conversational dynamics को पकड़ने वाली अभिव्यंजक और प्राकृतिक आवाज़ जनरेट करता है, साथ ही multilingual सपोर्ट भी देता है
- 25 अगस्त 2025 को जारी किया गया था, लेकिन बाद में इसके इच्छित उपयोग से अलग इस्तेमाल के मामले सामने आने पर 5 सितंबर 2025 को TTS code को repository से हटा दिया गया
- VibeVoice-Realtime (0.5B): अधिकतम 10 मिनट तक की real-time TTS, और पहली वॉइस आउटपुट तक लगभग 300 मिलीसेकंड लगते हैं
- 0.5B parameters वाला हल्का real-time text-to-speech मॉडल, जो deployment-friendly है
- streaming text input सपोर्ट
- 3 दिसंबर 2025 को जारी, और बाद में 16 दिसंबर को 9 भाषाओं(DE, FR, IT, JP, KR, NL, PL, PT, ES) की multilingual voices तथा 11 English style voices को experimental रूप से जोड़ा गया
- Apple Silicon(MPS) सपोर्ट Gradio ASR डेमो में जोड़ा गया, जिससे Mac पर usability बेहतर हुई
- बेस मॉडल(Qwen2.5 1.5B) पर आधारित होने के कारण यह bias और errors inherit कर सकता है, और deepfake के दुरुपयोग की संभावना पर सावधानी ज़रूरी है
- MIT लाइसेंस
1 टिप्पणियां
VibeVoice - Microsoft का अगली पीढ़ी का open source voice synthesis मॉडल
GeekNews पर यह शुरुआत में ही तुरंत सार्वजनिक कर दिया गया था, लेकिन किसी issue की वजह से VibeVoice-TTS कोड हटा दिया गया लगता है.
लगता है कि अभी TTS के लिए सिर्फ VibeVoice-Realtime ही इस्तेमाल किया जा सकता है.
पिछले कुछ दिनों में VibeVoice-ASR की वजह से यह फिर से लोकप्रिय हो रहा है, ऐसा जगह-जगह दिख रहा है.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ने इसे टेस्ट किया, और Mac पर
uvऔर mlx-audio का इस्तेमाल करके इसे एक single-line command से चलाया जा सकता है,और 1 घंटे की audio को 128GB M5 Max MacBook Pro पर लगभग 8 मिनट 45 सेकंड में प्रोसेस कर लिया.
इसे
speaker separation अच्छी तरह करने वाला Whisperसमझा जा सकता है.