WhisperSpeech का अवलोकन
- WhisperSpeech, Whisper को उल्टा बनाकर तैयार किया गया एक ओपन सोर्स text-to-speech सिस्टम है।
- इस मॉडल को शक्तिशाली होने के साथ-साथ आसानी से customize किया जा सके, इस तरह डिज़ाइन किया गया है, और इसे commercial उपयोग के लिए सुरक्षित रूप से इस्तेमाल किया जा सकता है।
- मौजूदा मॉडल को अंग्रेज़ी LibreLight dataset पर train किया गया है, और अगली release में कई भाषाओं के support की योजना है।
प्रगति अपडेट [2024-01-18]
- पिछले एक हफ्ते के दौरान inference performance optimization पर ध्यान केंद्रित किया गया।
torch.compile integration, kv-caching जोड़ने और कुछ layers में बदलाव के जरिए consumer 4090 पर real-time से 12 गुना तेज़ गति हासिल की जा रही है।
- एक ही sentence में कई भाषाओं को मिलाने की सुविधा जोड़ी गई।
- voice cloning को आसानी से test करने का तरीका भी जोड़ा गया।
प्रगति अपडेट [2024-01-10]
- तेज़ होने के साथ high-quality speech generate करने वाला नया SD S2A मॉडल जारी किया गया।
- reference audio file के आधार पर voice cloning example भी जोड़ा गया।
प्रगति अपडेट [2023-12-10]
- अंग्रेज़ी और पोलिश को support करने वाले 3 नए मॉडल जोड़े गए।
- नए sample voices उपलब्ध कराए गए हैं, और इन्हें Colab में सीधे आज़माया जा सकता है।
डाउनलोड
- शुरुआत के लिए Google Colab लिंक का उपयोग करने या दिए गए notebook को local में चलाने की सिफारिश की जाती है।
- यदि आप manual download करना चाहते हैं या मॉडल को शुरू से train करना चाहते हैं, तो HuggingFace पर WhisperSpeech के pre-trained models और converted datasets उपलब्ध हैं।
रोडमैप
- बड़ा emotional speech dataset इकट्ठा करना
- emotion और intonation के अनुसार generation को नियंत्रित करने का तरीका खोजना
- कई भाषाओं में स्वतंत्र रूप से उपयोग योग्य voices इकट्ठा करने के लिए community effort तैयार करना
- अंतिम multilingual मॉडल को train करना
आर्किटेक्चर
- इसका सामान्य architecture AudioLM, SPEAR TTS और MusicGen जैसा है।
- यह शक्तिशाली open source models पर आधारित है: semantic token generation और transcription के लिए OpenAI का Whisper, acoustic modeling के लिए Meta का EnCodec, और high-quality vocoder के रूप में Charactr Inc का Vocos।
आभार
- यह काम Collabora, LAION, Jülich Supercomputing Centre के समर्थन और व्यक्तिगत contributors की मदद से संभव हुआ।
कंसल्टिंग
- open source और proprietary AI projects के लिए सहायता प्रदान की जा सकती है।
उद्धरण
- यह कई उत्कृष्ट open source projects और research papers पर निर्भर करता है।
GN⁺ की राय
- WhisperSpeech speech synthesis क्षेत्र का एक अभिनव open source प्रोजेक्ट है, जो कई भाषाओं के support के साथ commercial उपयोग के लिए सुरक्षित और शक्तिशाली text-to-speech मॉडल प्रदान करता है।
- यह आधुनिक तकनीकों का उपयोग करके real-time से कहीं तेज़ performance हासिल करता है और voice cloning जैसी advanced features को आसानी से test करने योग्य accessibility देता है।
- यह प्रोजेक्ट community-आधारित तरीके से विकसित हो रहा है और कई भाषाओं में विस्तार तथा emotional elements सहित speech generation को लक्ष्य बना रहा है, इसलिए speech technology के भविष्य में इसकी महत्वपूर्ण भूमिका होने की उम्मीद है।
1 टिप्पणियां
Hacker News की राय
Whisper बहुभाषी ASR मॉडल प्रोजेक्ट
WhisperSpeech डेवलपर की राय
चीनी speech synthesis में रुचि
Mycroft के Mimic 3 का उल्लेख
International Phonetic Alphabet (IPA) आधारित मॉडल पर प्रश्न
Piper का उपयोग कर custom voice training पर अवलोकन
पोलिश sample का मूल्यांकन
voice controllability पर प्रश्न
Winston Churchill की low-quality clips पर प्रशिक्षित demo को लेकर सवाल
TTS के लिए सकारात्मक मूल्यांकन