VibeVoice - ओपन सोर्स फ्रंटियर वॉइस AI मॉडल

xguru · 2026-04-28T13:09:54+09:00

Microsoft द्वारा जारी किया गया ओपन सोर्स वॉइस AI मॉडल फैमिली, जिसमें TTS (टेक्स्ट→वॉइस) और ASR (वॉइस→टेक्स्ट) दोनों शामिल हैं ASR, OpenAI Whisper जैसा है, लेकिन speaker diarization फीचर मॉडल में ही बिल्ट-इन है मुख्य इनोवेशन एक 7.5Hz ultra-low frame rate continuous speech tokenizer है, जो audio quality बनाए रखते हुए लंबे sequence की computational efficiency को काफी बढ़ाता है next-token diffusion framework अपनाया गया है - LLM टेक्स्ट context को समझता है, और diffusion head high-quality acoustic detail बनाता है VibeVoice-ASR (7B): अधिकतम 60 मिनट audio को single pass में प्रोसेस करता है, और speaker (Who)·timestamp (When)·content (What) को structured output में देता है user-custom hotword फीचर से domain-specific terms की recognition accuracy बेहतर होती है 50 से अधिक भाषाओं को native रूप से सपोर्ट करने वाला multilingual मॉडल मार्च 2026 से Hugging Face Transformers में इंटीग्रेट किया जाएगा vLLM inference सपोर्ट के साथ तेज inference संभव, और fine-tuning code भी जारी VibeVoice-TTS (1.5B): अधिकतम 90 मिनट की conversational speech को single pass में जनरेट करता है, और एक बार में अधिकतम 4 speakers को सपोर्ट करता है emotional nuance और conversational dynamics को कैप्चर करने वाली expressive, natural speech generation और multilingual सपोर्ट 25 अगस्त 2025 को जारी किया गया था, लेकिन बाद में इसके इरादे से अलग उपयोग के मामले सामने आने पर 5 सितंबर 2025 को TTS code repository से हटा दिया गया VibeVoice-Realtime (0.5B): अधिकतम 10 मिनट, और पहली वॉइस आउटपुट तक लगभग 300 मिलीसेकंड में सक्षम real-time TTS 0.5B parameters वाला lightweight real-time text-to-speech मॉडल, जो deployment-friendly है streaming text input सपोर्ट 3 दिसंबर 2025 को जारी, और बाद में 16 दिसंबर को 9 भाषाओं (DE, FR, IT, JP, KR, NL, PL, PT, ES) की multilingual voices और 11 English-style voices को experimental रूप से जोड़ा गया Apple Silicon (MPS) सपोर्ट Gradio ASR demo में जोड़ा गया, जिससे Mac पर usability बेहतर हुई बेस मॉडल (Qwen2.5 1.5B) पर आधारित होने के कारण bias और errors inherit हो सकते हैं, और deepfake दुरुपयोग की संभावना को लेकर सावधानी ज़रूरी है MIT लाइसेंस

Microsoft द्वारा जारी किया गया ओपन सोर्स वॉइस AI मॉडल फैमिली, जिसमें TTS (टेक्स्ट→वॉइस) और ASR (वॉइस→टेक्स्ट) दोनों शामिल हैं
ASR, OpenAI Whisper जैसा है, लेकिन speaker diarization फीचर मॉडल में ही बिल्ट-इन है
मुख्य इनोवेशन एक 7.5Hz ultra-low frame rate continuous speech tokenizer है, जो audio quality बनाए रखते हुए लंबे sequence की computational efficiency को काफी बढ़ाता है
next-token diffusion framework अपनाया गया है - LLM टेक्स्ट context को समझता है, और diffusion head high-quality acoustic detail बनाता है
VibeVoice-ASR (7B): अधिकतम 60 मिनट audio को single pass में प्रोसेस करता है, और speaker (Who)·timestamp (When)·content (What) को structured output में देता है
- user-custom hotword फीचर से domain-specific terms की recognition accuracy बेहतर होती है
- 50 से अधिक भाषाओं को native रूप से सपोर्ट करने वाला multilingual मॉडल
- मार्च 2026 से Hugging Face Transformers में इंटीग्रेट किया जाएगा
- vLLM inference सपोर्ट के साथ तेज inference संभव, और fine-tuning code भी जारी
VibeVoice-TTS (1.5B): अधिकतम 90 मिनट की conversational speech को single pass में जनरेट करता है, और एक बार में अधिकतम 4 speakers को सपोर्ट करता है
- emotional nuance और conversational dynamics को कैप्चर करने वाली expressive, natural speech generation और multilingual सपोर्ट
- 25 अगस्त 2025 को जारी किया गया था, लेकिन बाद में इसके इरादे से अलग उपयोग के मामले सामने आने पर 5 सितंबर 2025 को TTS code repository से हटा दिया गया
VibeVoice-Realtime (0.5B): अधिकतम 10 मिनट, और पहली वॉइस आउटपुट तक लगभग 300 मिलीसेकंड में सक्षम real-time TTS
- 0.5B parameters वाला lightweight real-time text-to-speech मॉडल, जो deployment-friendly है
- streaming text input सपोर्ट
- 3 दिसंबर 2025 को जारी, और बाद में 16 दिसंबर को 9 भाषाओं (DE, FR, IT, JP, KR, NL, PL, PT, ES) की multilingual voices और 11 English-style voices को experimental रूप से जोड़ा गया
- Apple Silicon (MPS) सपोर्ट Gradio ASR demo में जोड़ा गया, जिससे Mac पर usability बेहतर हुई
बेस मॉडल (Qwen2.5 1.5B) पर आधारित होने के कारण bias और errors inherit हो सकते हैं, और deepfake दुरुपयोग की संभावना को लेकर सावधानी ज़रूरी है
MIT लाइसेंस

VibeVoice - ओपन सोर्स फ्रंटियर वॉइस AI मॉडल

संबंधित पढ़ाई

1 टिप्पणियां