10 पॉइंट द्वारा GN⁺ 2024-01-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

WhisperSpeech का अवलोकन

  • WhisperSpeech, Whisper को उल्टा बनाकर तैयार किया गया एक ओपन सोर्स text-to-speech सिस्टम है।
  • इस मॉडल को शक्तिशाली होने के साथ-साथ आसानी से customize किया जा सके, इस तरह डिज़ाइन किया गया है, और इसे commercial उपयोग के लिए सुरक्षित रूप से इस्तेमाल किया जा सकता है।
  • मौजूदा मॉडल को अंग्रेज़ी LibreLight dataset पर train किया गया है, और अगली release में कई भाषाओं के support की योजना है।

प्रगति अपडेट [2024-01-18]

  • पिछले एक हफ्ते के दौरान inference performance optimization पर ध्यान केंद्रित किया गया।
  • torch.compile integration, kv-caching जोड़ने और कुछ layers में बदलाव के जरिए consumer 4090 पर real-time से 12 गुना तेज़ गति हासिल की जा रही है।
  • एक ही sentence में कई भाषाओं को मिलाने की सुविधा जोड़ी गई।
  • voice cloning को आसानी से test करने का तरीका भी जोड़ा गया।

प्रगति अपडेट [2024-01-10]

  • तेज़ होने के साथ high-quality speech generate करने वाला नया SD S2A मॉडल जारी किया गया।
  • reference audio file के आधार पर voice cloning example भी जोड़ा गया।

प्रगति अपडेट [2023-12-10]

  • अंग्रेज़ी और पोलिश को support करने वाले 3 नए मॉडल जोड़े गए।
  • नए sample voices उपलब्ध कराए गए हैं, और इन्हें Colab में सीधे आज़माया जा सकता है।

डाउनलोड

  • शुरुआत के लिए Google Colab लिंक का उपयोग करने या दिए गए notebook को local में चलाने की सिफारिश की जाती है।
  • यदि आप manual download करना चाहते हैं या मॉडल को शुरू से train करना चाहते हैं, तो HuggingFace पर WhisperSpeech के pre-trained models और converted datasets उपलब्ध हैं।

रोडमैप

  • बड़ा emotional speech dataset इकट्ठा करना
  • emotion और intonation के अनुसार generation को नियंत्रित करने का तरीका खोजना
  • कई भाषाओं में स्वतंत्र रूप से उपयोग योग्य voices इकट्ठा करने के लिए community effort तैयार करना
  • अंतिम multilingual मॉडल को train करना

आर्किटेक्चर

  • इसका सामान्य architecture AudioLM, SPEAR TTS और MusicGen जैसा है।
  • यह शक्तिशाली open source models पर आधारित है: semantic token generation और transcription के लिए OpenAI का Whisper, acoustic modeling के लिए Meta का EnCodec, और high-quality vocoder के रूप में Charactr Inc का Vocos।

आभार

  • यह काम Collabora, LAION, Jülich Supercomputing Centre के समर्थन और व्यक्तिगत contributors की मदद से संभव हुआ।

कंसल्टिंग

  • open source और proprietary AI projects के लिए सहायता प्रदान की जा सकती है।

उद्धरण

  • यह कई उत्कृष्ट open source projects और research papers पर निर्भर करता है।

GN⁺ की राय

  • WhisperSpeech speech synthesis क्षेत्र का एक अभिनव open source प्रोजेक्ट है, जो कई भाषाओं के support के साथ commercial उपयोग के लिए सुरक्षित और शक्तिशाली text-to-speech मॉडल प्रदान करता है।
  • यह आधुनिक तकनीकों का उपयोग करके real-time से कहीं तेज़ performance हासिल करता है और voice cloning जैसी advanced features को आसानी से test करने योग्य accessibility देता है।
  • यह प्रोजेक्ट community-आधारित तरीके से विकसित हो रहा है और कई भाषाओं में विस्तार तथा emotional elements सहित speech generation को लक्ष्य बना रहा है, इसलिए speech technology के भविष्य में इसकी महत्वपूर्ण भूमिका होने की उम्मीद है।

1 टिप्पणियां

 
GN⁺ 2024-01-19
Hacker News की राय
  • Whisper बहुभाषी ASR मॉडल प्रोजेक्ट

    • Whisper बहुभाषी ASR मॉडल को विशाल डेटा पर प्रशिक्षित किया गया है, इसलिए इसका encoder output भाषण की अर्थ-संबंधी सामग्री को अच्छी तरह दर्शाता है.
    • इस encoder का उपयोग SPEAR-TTS/VALL-E जैसे मॉडल आर्किटेक्चर में semantic encoder के open source विकल्प के रूप में किया जा सकता है.
    • अनुमानित acoustic tokens को Vocos vocoder द्वारा upsampling/denoising/enhancement किया जाता है.
    • फिलहाल सबसे बड़ा bottleneck उपयुक्त dataset जुटाने और उसे साफ़-सुथरा करने के लिए आवश्यक मानव संसाधन की कमी है.
  • WhisperSpeech डेवलपर की राय

    • मॉडल को बेहतर बनाने के लिए कई महीनों तक कड़ी मेहनत की गई, लेकिन अभी भी सुधार की काफी गुंजाइश है.
    • Collabora के समर्थन से यह एक सच्चा open source प्रोजेक्ट है, और जो लोग इसमें सुधार या integration करना चाहते हैं उन्हें मदद देना उद्देश्य है.
    • यदि आप इसे व्यावसायिक उपयोग के लिए लेना चाहते हैं, तो engineering support खरीदा जा सकता है.
  • चीनी speech synthesis में रुचि

    • चीनी speech synthesis, खासकर intonation और भावनात्मक अभिव्यक्ति के प्रदर्शन में रुचि है.
    • EmotiVoice अब तक देखा गया सबसे उच्च-गुणवत्ता वाला open source मॉडल है, और flashcard के लिए audio generation में उपयोग करने हेतु इसका CLI wrapper बनाया गया है.
    • EmotiVoice का उपयोग करके GPU पर अपनी आवाज़ clone की जा सकती है, हालांकि अभी इसका परीक्षण नहीं किया गया है.
  • Mycroft के Mimic 3 का उल्लेख

    • Mycroft का Mimic 3 नवीनतम तकनीक का उपयोग नहीं करता, लेकिन फिर भी प्रभावशाली है और इतना छोटा है कि Raspberry Pi पर real-time में speech generate कर सकता है.
    • इसकी कुछ आवाज़ें दूसरों से बेहतर हैं, और WhisperSpeech के उदाहरणों के बराबर स्तर की हैं.
  • International Phonetic Alphabet (IPA) आधारित मॉडल पर प्रश्न

    • IPA आधारित मॉडल के विकास/प्रगति की स्थिति के बारे में प्रश्न.
    • यह तरीका आवाज़ को अलग accent में बदलने या बहुभाषी समर्थन देने में उपयोगी हो सकता है.
    • MBROLA voice जैसे मॉडलों में इसे सीमित रूप से इस तरह किया जा सकता है कि एक भाषा के phoneme को दूसरी भाषा के phoneme से map किया जाए.
    • IPA approach speech quality और timbre में बदलाव को बेहतर तरीके से सीखने में मदद कर सकती है.
  • Piper का उपयोग कर custom voice training पर अवलोकन

    • Piper का उपयोग करके custom voice train करने वाला एक वीडियो देखा गया, और पता चला कि dataset के लिए आवश्यक metadata source audio file के text से संबंधित होता है.
    • Collabora की training method इस प्रक्रिया को automate करती है और training के लिए केवल audio files की आवश्यकता होती है.
  • पोलिश sample का मूल्यांकन

    • पोलिश sample बहुत अच्छा है, और audiobook recording जैसा सुनाई देता है.
  • voice controllability पर प्रश्न

    • TTS को chat system में लागू करने के संदर्भ में voice controllability में रुचि है.
    • हर उपयोगकर्ता के लिए अलग आवाज़ देने हेतु जितनी संभव हो उतनी विविध आवाज़ों की आवश्यकता है.
  • Winston Churchill की low-quality clips पर प्रशिक्षित demo को लेकर सवाल

    • low-quality audio clips पर प्रशिक्षित demo के बारे में 'garbage in, garbage out' जैसी शंका उठाई गई.
  • TTS के लिए सकारात्मक मूल्यांकन

    • यह अब तक सुना गया सबसे बेहतरीन TTS है, और आवाज़ इंसान की तरह modulation करती है.