VibeVoice - ओपन सोर्स फ्रंटियर वॉइस AI मॉडल
(github.com/microsoft)- Microsoft द्वारा जारी किया गया ओपन सोर्स वॉइस AI मॉडल फैमिली, जिसमें TTS (टेक्स्ट→वॉइस) और ASR (वॉइस→टेक्स्ट) दोनों शामिल हैं
- ASR, OpenAI Whisper जैसा है, लेकिन speaker diarization फीचर मॉडल में ही बिल्ट-इन है
- मुख्य इनोवेशन एक 7.5Hz ultra-low frame rate continuous speech tokenizer है, जो audio quality बनाए रखते हुए लंबे sequence की computational efficiency को काफी बढ़ाता है
- next-token diffusion framework अपनाया गया है - LLM टेक्स्ट context को समझता है, और diffusion head high-quality acoustic detail बनाता है
- VibeVoice-ASR (7B): अधिकतम 60 मिनट audio को single pass में प्रोसेस करता है, और speaker (Who)·timestamp (When)·content (What) को structured output में देता है
- user-custom hotword फीचर से domain-specific terms की recognition accuracy बेहतर होती है
- 50 से अधिक भाषाओं को native रूप से सपोर्ट करने वाला multilingual मॉडल
- मार्च 2026 से Hugging Face Transformers में इंटीग्रेट किया जाएगा
- vLLM inference सपोर्ट के साथ तेज inference संभव, और fine-tuning code भी जारी
- VibeVoice-TTS (1.5B): अधिकतम 90 मिनट की conversational speech को single pass में जनरेट करता है, और एक बार में अधिकतम 4 speakers को सपोर्ट करता है
- emotional nuance और conversational dynamics को कैप्चर करने वाली expressive, natural speech generation और multilingual सपोर्ट
- 25 अगस्त 2025 को जारी किया गया था, लेकिन बाद में इसके इरादे से अलग उपयोग के मामले सामने आने पर 5 सितंबर 2025 को TTS code repository से हटा दिया गया
- VibeVoice-Realtime (0.5B): अधिकतम 10 मिनट, और पहली वॉइस आउटपुट तक लगभग 300 मिलीसेकंड में सक्षम real-time TTS
- 0.5B parameters वाला lightweight real-time text-to-speech मॉडल, जो deployment-friendly है
- streaming text input सपोर्ट
- 3 दिसंबर 2025 को जारी, और बाद में 16 दिसंबर को 9 भाषाओं (DE, FR, IT, JP, KR, NL, PL, PT, ES) की multilingual voices और 11 English-style voices को experimental रूप से जोड़ा गया
- Apple Silicon (MPS) सपोर्ट Gradio ASR demo में जोड़ा गया, जिससे Mac पर usability बेहतर हुई
- बेस मॉडल (Qwen2.5 1.5B) पर आधारित होने के कारण bias और errors inherit हो सकते हैं, और deepfake दुरुपयोग की संभावना को लेकर सावधानी ज़रूरी है
- MIT लाइसेंस
1 टिप्पणियां
VibeVoice - Microsoft का अगली पीढ़ी का open source speech synthesis model
GeekNews पर यह शुरुआत में ही तुरंत सार्वजनिक हो गया था, लेकिन किसी issue की वजह से VibeVoice-TTS code हटा दिया गया लगता है।
लगता है कि अभी TTS के लिए सिर्फ VibeVoice-Realtime ही उपलब्ध है।
पिछले कुछ दिनों से VibeVoice-ASR की वजह से यह फिर से लोकप्रिय हो रहा है, ऐसा कई जगह देखने को मिल रहा है।
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ने ASR का टेस्ट किया, और Mac पर
uvऔर mlx-audio का उपयोग करके इसे एक single-line command से चलाया जा सकता है,और 1 घंटे की audio को 128GB M5 Max MacBook Pro पर लगभग 8 मिनट 45 सेकंड में प्रोसेस किया गया।
इसे
speaker separation अच्छी तरह करने वाला Whisperसमझा जा सकता है।