- केवल संदर्भ वक्ता की छोटी ऑडियो क्लिप के आधार पर उनकी आवाज़ क्लोन करके कई भाषाओं में वॉइस जनरेट करने की बहुउद्देश्यीय इंस्टेंट वॉइस क्लोनिंग विधि
- वॉइस स्टाइल पर सूक्ष्म नियंत्रण संभव है, और emotion, intonation, rhythm, pauses, prosody के साथ-साथ संदर्भ वक्ता का vocal timbre भी क्लोन किया जा सकता है
- बड़े speaker training set में शामिल न होने वाली भाषाओं के लिए भी zero-shot cross-lingual voice cloning संभव
- व्यावसायिक रूप से उपलब्ध API की तुलना में कई गुना कम computation cost पर उत्कृष्ट प्रदर्शन प्रदान करता है
- संदर्भ timbre को सटीक रूप से क्लोन कर सकता है और विभिन्न भाषाओं व accents में वॉइस जनरेट कर सकता है
- emotion और intonation के अलावा rhythm, pauses, prosody जैसे अन्य style parameters पर भी सूक्ष्म नियंत्रण सक्षम करता है
1 टिप्पणियां
Hacker News राय
एक Hacker News उपयोगकर्ता ने अपना अनुभव साझा करते हुए बताया कि OpenVoice का Gradio डेमो लोकल में कैसे चलाया जा सकता है। इस उपयोगकर्ता ने कहा कि RTX 3090 का उपयोग करके यह XTTS2 से तेज़ गति से आवाज़ जनरेट करता है, और लगभग 1.5GB VRAM का उपयोग करता है। डेमो को resource usage को ध्यान में रखते हुए 200 अक्षरों तक सीमित किया गया है, लेकिन यह real-time से 8 गुना तेज़ चलता है। साथ ही, डेमो में बदलाव करके लंबे टेक्स्ट पर टेस्ट करने पर, इसने लगभग 4 सेकंड में 1 मिनट की आवाज़ render की। आवाज़ की clarity XTTS2 से बेहतर है, लेकिन यह थोड़ा अटपटा और रोबोट जैसा महसूस होता है।
एक अन्य उपयोगकर्ता ने voice cloning तकनीक के नैतिक उपयोग मामलों पर सवाल उठाया। इस उपयोगकर्ता ने porn, identity theft, impersonation, voice actor replacement, voice actors की आवाज़ की चोरी, customer support में bot के उपयोग को छिपाने जैसे नकारात्मक उपयोग मामलों का ज़िक्र किया। हालांकि, अपनी आवाज़ खो चुके लोगों को उनकी वास्तविक आवाज़ वापस देने जैसे सकारात्मक उपयोग मामले हो सकते हैं, लेकिन उनका तर्क था कि ऐसा बाज़ार निवेश को सही ठहराने के लिए पर्याप्त नहीं है।
एक उपयोगकर्ता ने जानकारी साझा की कि OpenVoice, Huggingface TTS competition leaderboard में दूसरे सबसे निचले स्थान पर है। इस उपयोगकर्ता ने कहा कि styletts2 और xtts2 जैसे विकल्प OpenVoice से काफ़ी ऊपर रैंक करते हैं।
एक उपयोगकर्ता ने इस बात पर हैरानी जताई कि Elon Musk की आवाज़ की नकल को quality के प्रमाण के रूप में इस्तेमाल किया जा रहा है। उनका कहना था कि Musk की वास्तविक आवाज़ ही अक्सर अटपटी और टूटी-टूटी लगती है, इसलिए इससे बेहतर आवाज़ की नकल की जा सकती है।
एक उपयोगकर्ता ने खबर दी कि Voicecraft ने अपने model weights जारी कर दिए हैं।
एक उपयोगकर्ता ने कहा कि वह साइट पर दिए गए clips जैसी quality की voice cloning लोकल में हासिल नहीं कर पाए, और अनुमान लगाया कि शायद वे कुछ गलत कर रहे हों।
एक उपयोगकर्ता ने पुष्टि की कि इसे GitHub से लोकल में चलाया जा सकता है, और quality को अच्छा बताया।
एक उपयोगकर्ता ने आवाज़ को IPA जैसी representation में encode करने और फिर उसे target language में decode करने की प्रक्रिया समझाई। उन्होंने यह भी बताया कि 'timbre' को निकाला जाता है, IPA जैसी representation से हटाया जाता है, और फिर target layer में दोबारा जोड़ा जाता है। इससे, उपयोगकर्ता अपनी ही आवाज़ को दूसरी भाषा में मिलते-जुलते timbre के साथ बोलते हुए सुन सकता है। उपयोगकर्ता ने सोचा कि अगर वह Chinese में धाराप्रवाह हो जाए, तो परिणाम कितना मिलता-जुलता होगा, और क्या दूसरी भाषाओं में timbre को अनुवाद करने वाला कोई 'timbre translator' चाहिए।
एक उपयोगकर्ता ने पूछा कि क्या कोई ऐसे 'उल्टे' मॉडल के बारे में जानता है जो multi-recording से speaker identification करके speaker diarization कर सके।
एक उपयोगकर्ता ने कहा कि सभी voice cloning tools में 'vocal fry' जैसा एक गुण होता है, जो आवाज़ के सूक्ष्म हिस्सों को ठीक से match न कर पाने वाली 'uncanny valley' जैसा लगता है। इस उपयोगकर्ता ने समझाया कि ये tools अभी भी Microsoft Sam जैसी सांस लेने की आवाज़ से पूरी तरह बाहर नहीं निकल पाए हैं.