1 पॉइंट द्वारा GN⁺ 2026-04-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • यह TTS और ASR दोनों को शामिल करने वाला वॉइस AI मॉडल परिवार है, जो लंबी अवधि की वॉइस जनरेशन और लंबी अवधि की वॉइस रिकग्निशन दोनों को कवर करता है
  • इसकी मुख्य संरचना 7.5 Hz अल्ट्रा-लो-फ्रेम continuous speech tokenizer और next-token diffusion के संयोजन पर आधारित है, जिसका लक्ष्य लंबे sequence संभालते हुए ऑडियो क्वालिटी और computational efficiency दोनों पाना है
  • टेक्स्ट संदर्भ और संवाद प्रवाह को समझने के लिए LLM का उपयोग किया गया है, और उच्च-निष्ठा ध्वनिक विवरण जनरेट करने के लिए diffusion head जोड़ा गया है
  • VibeVoice-ASR अधिकतम 60 मिनट के ऑडियो को single pass में प्रोसेस करता है और speaker information, timestamp, तथा utterance content सहित structured transcription बनाता है
  • ASR मॉडल 50 से अधिक भाषाओं को सपोर्ट करता है, और user-defined hotword या context information लेकर domain-specific recognition accuracy बेहतर कर सकता है
  • ASR पक्ष में finetuning code और vLLM inference support उपलब्ध कराए गए हैं, और इसे Hugging Face Transformers लाइब्रेरी में भी सीधे इस्तेमाल किया जा सकता है
  • VibeVoice-TTS अधिकतम 90 मिनट लंबी वॉइस को single pass में synthesize करता है, और एक संवाद में अधिकतम 4 speakers को सपोर्ट करता है
  • TTS में अभिव्यक्तिपूर्ण conversational voice और speaker consistency पर जोर है, तथा यह अंग्रेज़ी, चीनी और अन्य भाषाओं को सपोर्ट करता है
  • रिपॉज़िटरी नोटिस के अनुसार VibeVoice-TTS code हटा दिया गया है, और यह स्पष्ट किया गया है कि सार्वजनिक रिलीज़ के बाद stated intent से मेल न खाने वाला उपयोग पाए जाने पर इसे रिपॉज़िटरी से हटाया गया
  • VibeVoice-Realtime-0.5B 0.5B आकार का real-time TTS मॉडल है, जो streaming text input, लगभग 300ms first audible latency, और लगभग 10 मिनट लंबी वॉइस जनरेशन को सपोर्ट करता है
  • Realtime मॉडल में 9 भाषाओं के multilingual experimental speakers और 11 English style voices जोड़े गए हैं, और इसमें आगे और अधिक speaker types जोड़ने की योजना बताई गई है
  • वितरण मार्ग मुख्य रूप से Hugging Face weights, Playground, और Colab के रूप में व्यवस्थित हैं, जिससे तेज़ी से परीक्षण संभव है
  • इस रिपॉज़िटरी को केवल research और development purpose के लिए बताया गया है, और अतिरिक्त परीक्षण व विकास के बिना इसे commercial या production environment में उपयोग करने की सिफारिश नहीं की गई है
  • मॉडल base model Qwen2.5 1.5b के bias और errors को विरासत में ले सकता है, और deepfake, impersonation, तथा misinformation फैलाने के जोखिम के कारण कानूनी और जिम्मेदार उपयोग तथा AI-generated सामग्री के खुलासे की सिफारिश की गई है

1 टिप्पणियां

 
GN⁺ 2026-04-29
Hacker News की राय
  • यह नया मॉडल भी नहीं है, और STT के हिसाब से इसमें hallucination बहुत हैं, inference भी भारी और धीमा है, और multilingual performance भी खास नहीं है
    बाकी features के बारे में नहीं कह सकता, यहाँ मैं सिर्फ speech to text की बात कर रहा हूँ

    • ऐसा भी नहीं कि इसमें कोई फायदा ही नहीं है, कुछ मामलों में इसकी expressiveness थोड़ी बेहतर लगती है
      लेकिन कुल मिलाकर यह noisy data पर train किया गया महसूस होता है, memory ज़्यादा लेता है और speed भी तेज़ नहीं है
      मैं उस 7B version vibevoice-community की बात कर रहा हूँ जो पहले थोड़ी देर के लिए public हुआ था और फिर जल्दी हटा दिया गया; अभी मैं chatterbox turbo और कभी-कभी qwen TTS ही इस्तेमाल करता हूँ
    • समझ नहीं आ रहा कि आज अचानक इस पर इतना ध्यान क्यों है
      Twitter पर भी बस इसी की चर्चा है
    • TTS भी अच्छा नहीं था
      मैंने कुछ दिन इसे इस्तेमाल किया; सबसे पहले 1.5B model docs ही नहीं हैं, और 0.5B realtime model बहुत खराब था
      यह text को line-by-line convert करता था, बीच-बीच में random music डाल देता था, और जैसे special characters भी सही से handle नहीं कर पाता था
      सच कहूँ तो काफ़ी निराशाजनक है
    • इस समय SOTA इससे बहुत आगे है
    • यह सुनकर मेरा काफी समय बच गया
      repo star भी तुरंत हटा दिया, अब इसे छोड़ रहा हूँ
  • मुझे लगता है कि इस तरह के मॉडल को open source कहना अब बंद कर देना चाहिए
    असल में यह सिर्फ open weight है, training code proprietary है और कभी public नहीं किया गया
    https://github.com/microsoft/VibeVoice/issues/102

    • अब हम ऐसे दौर में जी रहे हैं जहाँ freeware को भी open source कहा जा रहा है
      माफ़ कीजिए, Stallman
    • मैं यह शिकायत खास तौर पर उन models के लिए बचाकर रखता हूँ जिन्हें non-open-source license के साथ distribute किया जाता है, फिर भी open source कहा जाता है
      जब किसी project पर open source लिखा हो, तो मेरे लिए ज़्यादा अहम यह है कि मैं वास्तव में उसके साथ क्या कर सकता हूँ
    • यह जहाज़ तो पहले ही निकल चुका है
      open source vs open weight का फर्क अब शायद hacker/cracker या GIF के उच्चारण वाली बहस जैसा हो गया है
    • उल्टा सोचें तो, अगर मैं MIT code का सिर्फ binary दूँ और source कभी न भेजूँ, तब भी वह code open source हो सकता है
      बस access नहीं है, license खुद MIT ही है
      फिर भी Microsoft यहाँ openness को बढ़ा-चढ़ाकर दिखा रहा है, इस बात से मैं पूरी तरह सहमत हूँ, और यह कोई चौंकाने वाली बात भी नहीं है
    • कम से कम यह MIT license पर है, यह अच्छी बात है
      private training data खटकता है, लेकिन मेरे लिए restrictive license उससे भी ज़्यादा खटकता है
  • इस category में Voxtral मुझे कहीं बेहतर लगता है
    और यह इतना छोटा भी है कि webGPU पर चल सकता है
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • इस repo/product/author के बारे में Kevin Beaumont ने दिलचस्प बात पोस्ट की थी
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • लिंक छिपाने की कोशिश काफ़ी प्रभावशाली है
  • क्या यह वही project नहीं है जिसे Microsoft ने release करके जल्दी ही security/safety कारणों से हटा दिया था?
    उसके बाद क्या बदला, यह जानने की जिज्ञासा है

    • readme के News section को देखें
      original TTS model इस repo से हट चुका है, हालांकि कहीं और अब भी मिल सकता है
      उसकी जगह SST/ASR, long form TTS, और streaming TTS models नए हैं
    • कम से कम मुझे तो यह काफी उलझाऊ लगता है
      क्योंकि यह project, जैसा अभी कहा गया, कई अलग-अलग क्षेत्रों को एक साथ कवर करता है
  • Microsoft जैसी कंपनी का vibe को AI product terminology के रूप में औपचारिक बनाना दिलचस्प है

    • खासकर इसलिए कि vibe coded में बिना समझे जल्दी-जल्दी जोड़-तोड़ कर बनाने वाला नकारात्मक अर्थ भी हो सकता है
    • कभी-कभी लगता है शायद यह 90s के IBM के बदनाम STT Via Voice पर कोई pun है
    • बल्कि इससे भी ज़्यादा हैरानी की बात यह है कि उन्होंने इसे Copilot नहीं कहा
  • मैंने बनाया हुआ speech-swift भी VibeVoice की तरह on-device speech processing पर focused है
    फर्क बस इतना है कि इसे cloud dependency के बिना Apple Silicon की क्षमता का उपयोग करके ASR, TTS, VAD चलाने के लिए बनाया गया है
    ASR 52 भाषाओं को support करता है और real-time factor 0.06 है
    https://soniqo.audio/benchmarks

  • Simon की कल रात वाली पोस्ट अच्छी थी
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • जानकारी के लिए, वह पोस्ट सिर्फ Speech-to-Text / Speech-Recognition वाले हिस्से को cover करती है
      यानी whisper जैसे क्षेत्र को, और इसके अलावा long-form TTS और streaming TTS models अलग से हैं
    • कहा जा रहा है कि VibeVoice एक बार में अधिकतम 1 घंटे का audio ही process कर सकता है
      जानना है कि ऐसा क्यों है
  • मैंने कंप्यूटर की default voice के रूप में Microsoft Sam चुना है

    • दोस्तों के साथ computer lab में Microsoft Sam में लंबी strings डालकर मज़ेदार sound effects बनाने की याद अब भी है
      Sususususususu
  • वाह, आख़िरकार Microsoft का ऐसा AI product आया जिसका नाम Copilot नहीं है

    • अगर इसका नाम Vopilot रखा होता तो और सटीक होता