VibeVoice - Microsoft का अगली पीढ़ी का ओपन सोर्स speech synthesis मॉडल

(microsoft.github.io)

5 पॉइंट द्वारा GN⁺ 2025-09-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें

टेक्स्ट से लंबी अवधि की स्वाभाविक multi-speaker conversational speech जनरेट करने के लिए डिज़ाइन किया गया नया TTS speech synthesis मॉडल
इसे मौजूदा सिस्टम की सीमाओं जैसे scalability, speaker consistency, और natural turn transition की समस्याओं को हल करने के लिए बनाया गया है
यह एक साथ अधिकतम 90 मिनट लंबी ऑडियो और अधिकतम 4 speakers synthesize कर सकता है, जिससे यह मौजूदा 1–2 speaker सीमा वाले मॉडलों से आगे निकलता है
इसकी मुख्य तकनीक 7.5Hz ultra-low frame-rate continuous speech tokenizer (Acoustic/Semantic) है, जो लंबी audio sequences को कुशलता से प्रोसेस करते हुए audio quality बनाए रखती है
यह Next-Token Diffusion तरीके का उपयोग करके continuous data को कुशलता से मॉडल करता है, और इसके लिए Encodec की तुलना में 80 गुना अधिक compression ratio देने वाला नया continuous speech tokenizer पेश करता है

परिचय

हाल के TTS तकनीकी विकास ने single-speaker की छोटी utterances को high quality में synthesize करने में सफलता पाई है, लेकिन लंबी अवधि की multi-speaker dialogue synthesis अब भी एक चुनौती है
- मौजूदा तरीके utterances को साधारण रूप से जोड़ते हैं, जिससे transitions अस्वाभाविक हो जाते हैं
- natural turn-taking और context-aware generation हासिल करना कठिन है
लक्ष्य: podcast जैसी long-form multi-speaker conversational speech synthesis को सपोर्ट करना
VibeVoice इसे हल करने के लिए ultra-low frame-rate (7.5Hz) speech tokenizer और LLM-आधारित Diffusion architecture को जोड़ता है
परिणामस्वरूप, यह अधिकतम 90 मिनट लंबी multi-speaker audio को स्थिर रूप से synthesize कर सकता है

तकनीकी नवाचार

Continuous speech tokenizer (7.5Hz):
- Acoustic + Semantic tokenizer का समानांतर उपयोग
- लंबी sequence processing की efficiency सुनिश्चित करते हुए audio fidelity बनाए रखना
Next-token diffusion framework:
- LLM text context और conversation flow को समझता है
- Diffusion head high-resolution acoustic details जनरेट करता है
परिणाम: पहले की तुलना में कहीं अधिक स्वाभाविक और मानव-जैसी speech synthesis

प्रदर्शन

अधिकतम 90 मिनट लंबी speech synthesis संभव
अधिकतम 4 speakers का समर्थन (मौजूदा मॉडलों की 1–2 speaker सीमा से आगे)
अलग-अलग संवाद स्थितियों में अभिव्यंजक और सुसंगत speech प्रदान करता है

प्रयोग परिणाम

लंबी अवधि की dialogue synthesis (Podcast)

1 घंटे के conversation dataset पर मूल्यांकन
WER (word error rate), SIM (speaker similarity), और subjective evaluation (MOS) मापे गए
VIBEVOICE-7B ने Realism 3.71, Richness 3.81, Preference 3.75 के साथ सर्वश्रेष्ठ प्रदर्शन दर्ज किया
Gemini 2.5 Pro, ElevenLabs v3 जैसे नवीनतम मॉडलों से बेहतर

निष्कर्ष और सीमाएँ

VibeVoice अधिकतम 90 मिनट और 4 speakers की स्वाभाविक संवाद synthesis को सपोर्ट करने वाला अगली पीढ़ी का TTS framework है
मौजूदा open source और commercial मॉडलों की तुलना में subjective और objective quality दोनों में बेहतर
सीमाएँ:
- अंग्रेज़ी और चीनी के अलावा अन्य भाषाओं में अप्रत्याशित परिणाम संभव
- non-speech audio (background sound, music) का समर्थन नहीं
- overlapping speech का समर्थन नहीं
- deepfake और misinformation के दुरुपयोग का जोखिम मौजूद
इसलिए फिलहाल यह केवल research और development उद्देश्यों के लिए है, commercial उपयोग की सिफारिश नहीं की जाती

1 टिप्पणियां

GN⁺ 2025-09-04

Hacker News राय

कई टिप्पणियों में इस voice model को बहुत यथार्थवादी बताया गया था, इसलिए मैं काफी उम्मीद के साथ पेज पर गया, लेकिन वास्तव में सुनने पर मेरा प्रभाव बिल्कुल अलग था। ऑडियो क्वालिटी खुद ठीक थी, लेकिन ज़्यादातर वाक्यों में intonation अटपटा लगा और साफ़ तौर पर मशीन जैसा एहसास आया। कुछ साल पुराने TTS की तुलना में यह काफी प्रभावशाली है, लेकिन आजकल की AI voices के मुकाबले यह खास प्रभावित नहीं करता। खासकर YouTube Shorts में अक्सर सुनाई देने वाली AI voices भी इस साइट के ज़्यादातर samples जितनी अच्छी लगीं। सिर्फ एक चीज़ प्रभावशाली लगी: English और Chinese (शायद Mandarin) samples, जिनमें दोनों भाषाओं के बीच बहुत स्वाभाविक switching थी। लेकिन मुझे Chinese की अच्छी समझ नहीं है, इसलिए pronunciation का ठीक से आकलन नहीं कर सका, और यह भी हो सकता है कि Han characters और alphabet के बीच स्पष्ट अंतर होने से switching आसान रही हो। अगर दोनों भाषाएँ एक ही writing system इस्तेमाल करतीं, तो शायद यह इतनी स्वाभाविक न लगती। आखिर में, singing sample सुनना काफी मुश्किल था, और मुझे बहुत जिज्ञासा है कि ऐसा sample जोड़ा ही क्यों गया
- singing और background music को लेकर dev team की बात कुछ अजीब लगी। ऐसा लगा जैसे paper deadline तक वे background music हटाने का तरीका नहीं ढूँढ पाए, इसलिए उसे बस एक “feature” कह दिया। यह प्रभाव नहीं पड़ा कि उन्होंने इसे सचमुच किसी differentiator की तरह जोड़ा हो
- अगर इस model से बेहतर कोई TTS model हो तो मैं उसकी recommendation चाहूँगा। प्रगति को बढ़ा-चढ़ाकर बताने वाले भी हमेशा होते हैं, और उसे कमतर बताने वाले भी, लेकिन मुझे नहीं लगता कि इनमें से कोई भी पक्ष प्रगति में बाधा है। अब तक मैंने जितने models सुने हैं, उनमें यह सबसे अच्छा लगा, लेकिन हो सकता है कि कोई इससे बेहतर हो जिसके बारे में मुझे पता न हो
- यह model काफी अच्छा है, लेकिन free models में सबसे अच्छा नहीं है। Chatterbox ज़्यादा यथार्थवादी है, मशीन जैसा एहसास भी काफी कम है, और intonation भी ज़्यादा स्वाभाविक है (हालाँकि परफेक्ट नहीं)
- मुझे लगा कि female voices, male voices की तुलना में कहीं ज़्यादा स्वाभाविक और भरोसेमंद लगती हैं। इसके मुकाबले male voices का स्तर 10 साल पुराने TTS से बहुत बेहतर नहीं है
- इस model की असली ताकत voice cloning है। अपनी voice sample को voices folder में डालें तो यह सचमुच बहुत अच्छा काम करता है
मैं चाहता हूँ कि Microsoft अपने internal Open Source coding agent का नाम ज़रूर Microsoft VibeCode रखे। या फिर उसका नाम “Lo” रखे, ताकि उसे Phi के साथ इस्तेमाल किया जा सके। फिर “Lo Phi” के साथ vibe code किया जा सके। Microsoft के Phi 4 language model की जानकारी
- Microsoft के marketing इतिहास को देखते हुए, मुझे लगता है कि आखिरकार नाम या तो "Microsoft Copilot Code Generator for VSCode" जैसा सीधा-सादा होगा, या फिर अचानक से "Zunega" जैसा कुछ होगा
- यह जीनियस आइडिया है
VibeVoice-Large पहला local TTS है जो Finnish pronunciation को लगभग बिना accent के सचमुच बहुत स्वाभाविक तरीके से सपोर्ट करता है। मैंने इसे कल खुद आज़माया, और खास तौर पर इस बात से प्रभावित हुआ कि यह voice cloning और emotion तक कॉपी कर लेता है
तकनीकी रूप से यह काफी high-quality है, लेकिन खासकर male voices में पहली ही सुनाई पर लगता है कि यह AI-generated voice है। मुझे audio की इतनी समझ नहीं कि इसका कारण ठीक से बता सकूँ
- मैं भी audio engineer नहीं हूँ, लेकिन यह AI voice मुझे “saw-tooth” waveform जैसी सुनाई देती है। बुनियादी models या कमज़ोर तकनीक में sampling कम होती है, इसलिए एक तरह की audio pulse या vibration ज़्यादा रहती है और वही उभरी हुई मशीन जैसी आवाज़ देती है। बेहतर models में waveform ज़्यादा smooth बदलती है। waveform पर संदर्भ सामग्री
- मुझे ऐसा लगता है कि इसकी tone block की तरह कटी हुई है, और अगर sound को visualize करें तो waveform में sharpness नहीं बल्कि किसी metal box जैसी गूँज महसूस होती है
- खुद सुनने पर मुझे समझ आया कि आपका मतलब क्या है। कुछ हिस्सों में voice डगमगाती है, या बहुत ज़्यादा mp3 compression जैसा महसूस होता है
male voice, female voice की तुलना में बहुत ज़्यादा artificial लगती है, इसलिए लगभग robot जैसी सुनाई देती है। यह देखकर कि ज़्यादातर official samples female voice से शुरू होते हैं, लगता है dev team भी इस समस्या से वाकिफ है
- मुझे भी ऐसा ही लगा। male voices निश्चित रूप से ज़्यादा artificial लगती हैं
मैं सोच रहा हूँ कि open-weight TTS models की कोई ताज़ा popularity ranking या list है क्या। वास्तव में मेरी ज़्यादा रुचि STT (ASR) में है, लेकिन वहाँ options बहुत कम हैं
- huggingface TTS model list में देख सकते हैं। जो models trending में आते हैं, उसका मतलब है कि वे कम से कम आज़माने लायक हैं। evaluation criteria बहुत subjective हैं, इसलिए सबसे ज़रूरी बात है खुद सुनना। HF पर जो models trend में भी नहीं आते, उनके बहुत अच्छे होने की संभावना कम है
- सबसे अच्छे कहे जा सकने वाले TTS: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice, XTTS-2
- hamburger menu में leaderboard पर क्लिक करें, वहाँ ranking page खुलता है TTS-AGI/TTS-Arena-V2
- बेहतरीन
जिन users के पास कमज़ोर GPU performance है, उनके लिए इस model का इस्तेमाल करना मुश्किल है। पुराने 1080 GPU पर यह ठीक से नहीं चला, और CPU पर torch.float32 में चलाने पर 66 सेकंड लंबा audio बनाने में 832 सेकंड लगे। torch.bfloat16 पर बदलने के बाद audio में अजीब noise artifacts आने लगे। GPU की कमी वाली स्थिति में अब तक मेरे लिए सबसे उपयोगी TTS model Kokoro रहा है। और, जैसा कि इस thread में किसी ने कहा, text में अलग annotation जोड़कर TTS output को बारीकी से control करने की सुविधा अभी नहीं है। text में किसी intermediate processing step को जोड़कर annotation बनाना और उसे TTS में input देना, आगे model के विकास की एक दिशा हो सकती है। इससे user परिणाम को ज़्यादा सूक्ष्म रूप से control कर सकेगा
- मुझे लगता है यह बहुत बढ़ा-चढ़ाकर कही गई बात है। macOS तो बहुत पहले से ही तुरंत और काफी अच्छी quality वाला TTS सपोर्ट करता आया है, और उसके लिए ऐसे भारी models की ज़रूरत नहीं थी। latency भी लगभग नहीं है। यह पूरा “AI” craze मुझे सचमुच हद से ज़्यादा लगता है
अगर यह open source है, तो training data सार्वजनिक क्यों नहीं है, यह जानने की जिज्ञासा है
- ज़्यादातर crawled data में copyright, terms of use, privacy protection जैसी कई कानूनी जोखिम होते हैं, इसलिए commercial companies के लिए पूरी तरह “open” करना समझदारी नहीं है
Spontaneous Emotion sample dialogue ऐसी voice लगती है जैसे dev team ने LLM से emotion निकलवाया हो। singing sample को छोड़ दिया जाता तो बेहतर होता। model अभी singing के लिए बिल्कुल उपयुक्त नहीं है
- इस गाने की वजह से मैं फिर से जाकर इसे सुन आया। भावनाएँ जगाने में यह सचमुच शानदार गीत है। robots को गाना अभी बहुत दूर की बात है
अभी के समय में सबसे अच्छे माने जाने वाले TTS models दो हैं: HiggsAudio और VibeVoice। व्यक्तिगत रूप से मुझे speed और sound quality, दोनों में Higgs, Vibe से कहीं बेहतर लगा। expressiveness तक की बात मैं पक्के तौर पर नहीं कह सकता, लेकिन इसे मिस मत करें, ज़रूर आज़माएँ

VibeVoice - Microsoft का अगली पीढ़ी का ओपन सोर्स speech synthesis मॉडल

परिचय

तकनीकी नवाचार

प्रदर्शन

प्रयोग परिणाम

लंबी अवधि की dialogue synthesis (Podcast)

निष्कर्ष और सीमाएँ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय