VibeVoice - ओपन सोर्स फ्रंटियर वॉइस AI
(github.com/microsoft)- यह TTS और ASR दोनों को शामिल करने वाला वॉइस AI मॉडल परिवार है, जो लंबी अवधि की वॉइस जनरेशन और लंबी अवधि की वॉइस रिकग्निशन दोनों को कवर करता है
- इसकी मुख्य संरचना 7.5 Hz अल्ट्रा-लो-फ्रेम continuous speech tokenizer और next-token diffusion के संयोजन पर आधारित है, जिसका लक्ष्य लंबे sequence संभालते हुए ऑडियो क्वालिटी और computational efficiency दोनों पाना है
- टेक्स्ट संदर्भ और संवाद प्रवाह को समझने के लिए LLM का उपयोग किया गया है, और उच्च-निष्ठा ध्वनिक विवरण जनरेट करने के लिए diffusion head जोड़ा गया है
- VibeVoice-ASR अधिकतम 60 मिनट के ऑडियो को single pass में प्रोसेस करता है और speaker information, timestamp, तथा utterance content सहित structured transcription बनाता है
- ASR मॉडल 50 से अधिक भाषाओं को सपोर्ट करता है, और user-defined hotword या context information लेकर domain-specific recognition accuracy बेहतर कर सकता है
- ASR पक्ष में finetuning code और vLLM inference support उपलब्ध कराए गए हैं, और इसे Hugging Face Transformers लाइब्रेरी में भी सीधे इस्तेमाल किया जा सकता है
- VibeVoice-TTS अधिकतम 90 मिनट लंबी वॉइस को single pass में synthesize करता है, और एक संवाद में अधिकतम 4 speakers को सपोर्ट करता है
- TTS में अभिव्यक्तिपूर्ण conversational voice और speaker consistency पर जोर है, तथा यह अंग्रेज़ी, चीनी और अन्य भाषाओं को सपोर्ट करता है
- रिपॉज़िटरी नोटिस के अनुसार VibeVoice-TTS code हटा दिया गया है, और यह स्पष्ट किया गया है कि सार्वजनिक रिलीज़ के बाद stated intent से मेल न खाने वाला उपयोग पाए जाने पर इसे रिपॉज़िटरी से हटाया गया
- VibeVoice-Realtime-0.5B 0.5B आकार का real-time TTS मॉडल है, जो streaming text input, लगभग 300ms first audible latency, और लगभग 10 मिनट लंबी वॉइस जनरेशन को सपोर्ट करता है
- Realtime मॉडल में 9 भाषाओं के multilingual experimental speakers और 11 English style voices जोड़े गए हैं, और इसमें आगे और अधिक speaker types जोड़ने की योजना बताई गई है
- वितरण मार्ग मुख्य रूप से Hugging Face weights, Playground, और Colab के रूप में व्यवस्थित हैं, जिससे तेज़ी से परीक्षण संभव है
- इस रिपॉज़िटरी को केवल research और development purpose के लिए बताया गया है, और अतिरिक्त परीक्षण व विकास के बिना इसे commercial या production environment में उपयोग करने की सिफारिश नहीं की गई है
- मॉडल base model Qwen2.5 1.5b के bias और errors को विरासत में ले सकता है, और deepfake, impersonation, तथा misinformation फैलाने के जोखिम के कारण कानूनी और जिम्मेदार उपयोग तथा AI-generated सामग्री के खुलासे की सिफारिश की गई है
1 टिप्पणियां
Hacker News की राय
यह नया मॉडल भी नहीं है, और STT के हिसाब से इसमें hallucination बहुत हैं, inference भी भारी और धीमा है, और multilingual performance भी खास नहीं है
बाकी features के बारे में नहीं कह सकता, यहाँ मैं सिर्फ speech to text की बात कर रहा हूँ
लेकिन कुल मिलाकर यह noisy data पर train किया गया महसूस होता है, memory ज़्यादा लेता है और speed भी तेज़ नहीं है
मैं उस 7B version vibevoice-community की बात कर रहा हूँ जो पहले थोड़ी देर के लिए public हुआ था और फिर जल्दी हटा दिया गया; अभी मैं chatterbox turbo और कभी-कभी qwen TTS ही इस्तेमाल करता हूँ
Twitter पर भी बस इसी की चर्चा है
मैंने कुछ दिन इसे इस्तेमाल किया; सबसे पहले 1.5B model docs ही नहीं हैं, और 0.5B realtime model बहुत खराब था
यह text को line-by-line convert करता था, बीच-बीच में random music डाल देता था, और
…जैसे special characters भी सही से handle नहीं कर पाता थासच कहूँ तो काफ़ी निराशाजनक है
repo star भी तुरंत हटा दिया, अब इसे छोड़ रहा हूँ
मुझे लगता है कि इस तरह के मॉडल को open source कहना अब बंद कर देना चाहिए
असल में यह सिर्फ open weight है, training code proprietary है और कभी public नहीं किया गया
https://github.com/microsoft/VibeVoice/issues/102
माफ़ कीजिए, Stallman
जब किसी project पर open source लिखा हो, तो मेरे लिए ज़्यादा अहम यह है कि मैं वास्तव में उसके साथ क्या कर सकता हूँ
open source vs open weight का फर्क अब शायद hacker/cracker या GIF के उच्चारण वाली बहस जैसा हो गया है
बस access नहीं है, license खुद MIT ही है
फिर भी Microsoft यहाँ openness को बढ़ा-चढ़ाकर दिखा रहा है, इस बात से मैं पूरी तरह सहमत हूँ, और यह कोई चौंकाने वाली बात भी नहीं है
private training data खटकता है, लेकिन मेरे लिए restrictive license उससे भी ज़्यादा खटकता है
इस category में Voxtral मुझे कहीं बेहतर लगता है
और यह इतना छोटा भी है कि webGPU पर चल सकता है
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
इस repo/product/author के बारे में Kevin Beaumont ने दिलचस्प बात पोस्ट की थी
https://cyberplace.social/@GossiTheDog/116454846703138243
क्या यह वही project नहीं है जिसे Microsoft ने release करके जल्दी ही security/safety कारणों से हटा दिया था?
उसके बाद क्या बदला, यह जानने की जिज्ञासा है
original TTS model इस repo से हट चुका है, हालांकि कहीं और अब भी मिल सकता है
उसकी जगह SST/ASR, long form TTS, और streaming TTS models नए हैं
क्योंकि यह project, जैसा अभी कहा गया, कई अलग-अलग क्षेत्रों को एक साथ कवर करता है
Microsoft जैसी कंपनी का vibe को AI product terminology के रूप में औपचारिक बनाना दिलचस्प है
मैंने बनाया हुआ speech-swift भी VibeVoice की तरह on-device speech processing पर focused है
फर्क बस इतना है कि इसे cloud dependency के बिना Apple Silicon की क्षमता का उपयोग करके ASR, TTS, VAD चलाने के लिए बनाया गया है
ASR 52 भाषाओं को support करता है और real-time factor 0.06 है
https://soniqo.audio/benchmarks
Simon की कल रात वाली पोस्ट अच्छी थी
https://simonwillison.net/2026/Apr/27/vibevoice/
यानी whisper जैसे क्षेत्र को, और इसके अलावा long-form TTS और streaming TTS models अलग से हैं
जानना है कि ऐसा क्यों है
मैंने कंप्यूटर की default voice के रूप में Microsoft Sam चुना है
Sususususususu
वाह, आख़िरकार Microsoft का ऐसा AI product आया जिसका नाम Copilot नहीं है