36 पॉइंट द्वारा xguru 2026-04-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Microsoft द्वारा जारी किया गया ओपन सोर्स वॉइस AI मॉडल फैमिली, जिसमें TTS (टेक्स्ट→वॉइस) और ASR (वॉइस→टेक्स्ट) दोनों शामिल हैं
  • ASR, OpenAI Whisper जैसा है, लेकिन speaker diarization फीचर मॉडल में ही बिल्ट-इन है
  • मुख्य इनोवेशन एक 7.5Hz ultra-low frame rate continuous speech tokenizer है, जो audio quality बनाए रखते हुए लंबे sequence की computational efficiency को काफी बढ़ाता है
  • next-token diffusion framework अपनाया गया है - LLM टेक्स्ट context को समझता है, और diffusion head high-quality acoustic detail बनाता है
  • VibeVoice-ASR (7B): अधिकतम 60 मिनट audio को single pass में प्रोसेस करता है, और speaker (Who)·timestamp (When)·content (What) को structured output में देता है
    • user-custom hotword फीचर से domain-specific terms की recognition accuracy बेहतर होती है
    • 50 से अधिक भाषाओं को native रूप से सपोर्ट करने वाला multilingual मॉडल
    • मार्च 2026 से Hugging Face Transformers में इंटीग्रेट किया जाएगा
    • vLLM inference सपोर्ट के साथ तेज inference संभव, और fine-tuning code भी जारी
  • VibeVoice-TTS (1.5B): अधिकतम 90 मिनट की conversational speech को single pass में जनरेट करता है, और एक बार में अधिकतम 4 speakers को सपोर्ट करता है
    • emotional nuance और conversational dynamics को कैप्चर करने वाली expressive, natural speech generation और multilingual सपोर्ट
    • 25 अगस्त 2025 को जारी किया गया था, लेकिन बाद में इसके इरादे से अलग उपयोग के मामले सामने आने पर 5 सितंबर 2025 को TTS code repository से हटा दिया गया
    विज्ञापन
  • VibeVoice-Realtime (0.5B): अधिकतम 10 मिनट, और पहली वॉइस आउटपुट तक लगभग 300 मिलीसेकंड में सक्षम real-time TTS
    • 0.5B parameters वाला lightweight real-time text-to-speech मॉडल, जो deployment-friendly है
    • streaming text input सपोर्ट
    • 3 दिसंबर 2025 को जारी, और बाद में 16 दिसंबर को 9 भाषाओं (DE, FR, IT, JP, KR, NL, PL, PT, ES) की multilingual voices और 11 English-style voices को experimental रूप से जोड़ा गया
    • Apple Silicon (MPS) सपोर्ट Gradio ASR demo में जोड़ा गया, जिससे Mac पर usability बेहतर हुई
  • बेस मॉडल (Qwen2.5 1.5B) पर आधारित होने के कारण bias और errors inherit हो सकते हैं, और deepfake दुरुपयोग की संभावना को लेकर सावधानी ज़रूरी है
  • MIT लाइसेंस

1 टिप्पणियां

 
xguru 2026-04-28

VibeVoice - Microsoft का अगली पीढ़ी का open source speech synthesis model
GeekNews पर यह शुरुआत में ही तुरंत सार्वजनिक हो गया था, लेकिन किसी issue की वजह से VibeVoice-TTS code हटा दिया गया लगता है।
लगता है कि अभी TTS के लिए सिर्फ VibeVoice-Realtime ही उपलब्ध है।
पिछले कुछ दिनों से VibeVoice-ASR की वजह से यह फिर से लोकप्रिय हो रहा है, ऐसा कई जगह देखने को मिल रहा है।

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ने ASR का टेस्ट किया, और Mac पर uv और mlx-audio का उपयोग करके इसे एक single-line command से चलाया जा सकता है,
और 1 घंटे की audio को 128GB M5 Max MacBook Pro पर लगभग 8 मिनट 45 सेकंड में प्रोसेस किया गया।
इसे speaker separation अच्छी तरह करने वाला Whisper समझा जा सकता है।