OpenVoice: तुरंत voice cloning तकनीक
(github.com/myshell-ai)- OpenVoice एक instant voice cloning project है, जो reference voice tone को clone करके कई भाषाओं और accents में आवाज़ generate करता है, और V1 तथा V2 features जारी कर चुका है
- V1 सटीक voice tone cloning, emotion·accent·rhythm·pause·intonation changes जैसे voice style control, और zero-shot cross-lingual voice cloning को support करता है
- OpenVoice V2 अप्रैल 2024 में जारी हुआ, और V1 के features को शामिल करते हुए अलग training strategy से बेहतर audio quality देता है
- V2 English, Spanish, French, Chinese, Japanese, Korean को native multilingual support देता है, और V1 व V2 दोनों MIT License के तहत commercial और research use के लिए मुफ्त उपलब्ध हैं
- OpenVoice मई 2023 से myshell.ai के instant voice cloning feature में इस्तेमाल हो रहा है, और नवंबर 2023 तक दुनिया भर के users ने इसे करोड़ों बार इस्तेमाल किया
OpenVoice द्वारा दी जाने वाली voice cloning क्षमता
- OpenVoice instant voice cloning के लिए एक project है
- संबंधित paper arXiv paper के रूप में उपलब्ध है
OpenVoice V1 के मुख्य features
-
सटीक voice tone cloning
- reference voice tone को सटीक रूप से clone किया जा सकता है
- कई भाषाओं और accents में आवाज़ generate की जा सकती है
-
लचीला voice style control
- emotions और accent को बारीकी से control किया जा सकता है
- rhythm, pauses, intonation changes जैसे style parameters भी control के दायरे में आते हैं
-
zero-shot cross-lingual voice cloning
- generated voice की भाषा और reference voice की भाषा का बड़े multi-speaker multilingual training dataset में शामिल होना ज़रूरी नहीं है
OpenVoice V2 में बदलाव
- OpenVoice V2 अप्रैल 2024 में जारी हुआ
- V2 में V1 के सभी features शामिल हैं
- अलग training strategy अपनाकर यह बेहतर audio quality देता है
- English, Spanish, French, Chinese, Japanese, Korean को native रूप से support करता है
- अप्रैल 2024 से V2 और V1 दोनों MIT License के तहत जारी हैं, इसलिए commercial use मुफ्त है
वास्तविक उपयोग और release scope
- OpenVoice मई 2023 से myshell.ai के instant voice cloning feature को चला रहा है
- नवंबर 2023 तक voice cloning model दुनिया भर के users द्वारा करोड़ों बार इस्तेमाल किया गया
- README में demo Video शामिल है
1 टिप्पणियां
Hacker News की राय
हाल ही के कुछ दिनों में भी ऐसा हुआ: पुलिस ने बताया कि एक athletic director ने principal को नस्लवादी टिप्पणी करने वाला दिखाने के लिए AI से fake voice clip बनाई
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
बेशक ज़्यादातर लोग फिर भी fact-check नहीं करेंगे
हम ऐसे दौर में प्रवेश कर चुके हैं जहां कानून और enforcement को बहुत तेज़ी से catch up करना होगा
fake historical evidence, fake leaks, fake endorsements, यहां तक कि fake ads भी संभव हो गए हैं
Facetok पर कोई भी text post verify करने की जहमत न उठाने वाले लोग थे, इसलिए आगे स्थिति कहीं ज़्यादा खराब होने वाली लगती है
मैं दोस्तों से कहता आया हूं कि 5–10 साल बाद हम शायद लगभग 100% सिर्फ उसी चीज़ पर भरोसा कर पाएंगे जो हमारी आंखों के सामने उसी वक्त हो रही हो
भरोसेमंद media organizations से verification करवाने का विकल्प तो होगा, लेकिन polarization के कारण दुनिया का बड़ा हिस्सा पहले से ही मान लेगा कि उन्हें धोखा दिया गया है और सब कुछ fake कहकर खारिज कर देगा
Sora या नए voice models को देखिए। कुछ दिन पहले भी एक high school athletic coach को principal की आवाज़ clone करके उससे भयानक बातें कहलवाने के आरोप में गिरफ्तार किया गया, और वह अपना email इस्तेमाल करने की वजह से पकड़ा गया
इसमें Microsoft के नए Phi-mini model की बात जोड़ें, जो 3.8 अरब parameters के साथ GPT-3.5 performance के करीब पहुंचता है, तो यह और डरावना है। GPT-3.5 में 175 अरब parameters थे, और इस technology optimization को अभी मुश्किल से करीब 5 साल हुए हैं
मैं Mr Bones की पागल ride से उतरना चाहता हूं
generative AI से trust नष्ट होने का जोखिम कैसे unfold होगा, इसका अनुमान नहीं लगाया जा सकता, लेकिन मैं आशावादी हूं कि आखिर में human creativity जीतेगी
practice से किसी और के बोलने के अंदाज़ की नकल करना भी मुश्किल नहीं, और amateurs व professional actors अक्सर ऐसा करते हैं
फर्क सिर्फ इतना है कि यह काम आसान हो गया है, और इससे उल्टा सभी को यह समझने में मदद मिलनी चाहिए कि ऐसा “evidence” कितना भरोसे लायक नहीं है
Android और iOS को real-time voice modulator को default जैसी support देनी चाहिए, dialer में इसे quickly off करने का button और known contacts के लिए इसे बंद रखने का option देना चाहिए
सच में disruption लाने वाले uses आएंगे, लेकिन technology ने जो नया संभव किया है और जो पहले भी संभव था, उसके बीच का फर्क लोगों के कहने से कहीं छोटा है
यह cloning नहीं, बल्कि timbre copy करने के ज्यादा करीब है। documentation में भी यही लिखा है, फिर भी इसे voice cloning कहा जा रहा है
मैंने खुद try किया तो यह मेरे सामान्य soft Lancashire accent जैसा नहीं, बल्कि American जैसा लगा, और मुझसे बिल्कुल अलग था
VoiceShopAi young voice को old voice में, male को female में, या किसी भी देश के accent में बदल सकता है
voice field में नए items track करने वाले https://github.com/metame-ai/awesome-audio-plaza पर यह मिला
इस technology के legitimate use cases क्या होंगे? दूसरों को धोखा देने के सौ तरीके तो सोच सकता हूं, लेकिन अपनी आवाज़ clone या recreate करना चाहूंगा ऐसी situations बहुत याद नहीं आतीं
कोई indie game developer बड़े language model से driven dialogue वाले, अपनी-अपनी unique voice रखने वाले जीवंत NPCs बना सकता है
film production में actor की consent लेकर कुछ lines adjust की जा सकती हैं
जिन लोगों की health issues के कारण आवाज़ धीरे-धीरे जा रही है लेकिन वे communicate करते रहना चाहते हैं, उनके लिए भी यह जरूरी है
इस technology के legitimate use cases साफ़ तौर पर हैं। निजी तौर पर मुझे लगता है कि illegitimate use, legitimate use पर भारी पड़ेंगे, लेकिन यह कहना fair नहीं होगा कि कोई legitimate application नहीं है
misuse को criminalize करके सख्ती से regulate करना चाहिए, पूरी तरह ban नहीं करना चाहिए। software और छोटे models के मामले में ban करना वैसे भी काफी मुश्किल है
audiobooks भी एक narrator द्वारा जबरन acting करने के बजाय character-specific voices में पढ़े जा सकते हैं
अगर आपको सर्दी है लेकिन बिना खांसी के speech देना चाहते हैं, तो यह भी संभव है
low-bandwidth audio transmission में सिर्फ text भेजकर local voice model से play कराया जा सकता है
इसका इस्तेमाल किसी दिवंगत प्रियजन से बातचीत करने के लिए भी हो सकता है
funny या comedy use भी संभव हैं
अगर मान लें कि perfect translation का malicious use नहीं होगा, तो यह हमेशा useful और बिल्कुल non-evil application लगता है
अगर पुराने speech recordings के आधार पर कम से कम कुछ हद तक उसकी “अपनी” आवाज़ वापस दी जा सके, तो उसे बहुत अच्छा लगेगा
अफसोस, मैंने अभी तक ऐसा कोई tool नहीं देखा जो उसके Android TTS या Windows में plug करने लायक voice model बना दे
इस क्षेत्र को लगातार फॉलो करना हो तो सबसे अच्छी जगह कौन-सी होगी? मैं ऐसे tools से क्रिएट करना चाहता/चाहती हूँ, लेकिन मेरी आवाज़ ऐसे उपयोग के लिए बहुत अच्छी नहीं है, इसलिए इसमें काफी रुचि है
इसे ज़्यादा नैचुरल बनाने के लिए टेक्स्ट-टू-स्पीच की तुलना में speech-to-speech conversion बेहतर लगती है। RVC जैसे tools थोड़ा इस्तेमाल किए हैं, लेकिन लगता है कि AI के शोर में कई शानदार workflows छूट रहे होंगे
खास तौर पर दिलचस्प workflows और AI से मज़ेदार चीज़ें बनाने वाले लोगों के बारे में और जानना चाहता/चाहती हूँ
यहाँ कयामत वाली बातें और बढ़ा-चढ़ाकर किया गया ड्रामा काफी है। लगभग 1 साल पहले से public रूप से इस्तेमाल हो सकने वाले मौजूदा voice cloning AI तरीकों की तुलना में, इस release के इतना ज़्यादा खराब होने की वजह क्या है?
voice cloning से लेखक की आवाज़ में पढ़ी गई audiobooks आने की मुझे सचमुच उम्मीद है
बेशक यह लेखक के खुद पढ़ने जितना अच्छा नहीं होगा, लेकिन लेखक की आवाज़ में कुछ ऐसा होता है जो voice actor नहीं दे सकता। voice actors का उच्चारण बहुत सामान्य और अतिनाटकीय होता है, इसलिए व्यक्तिगत रूप से मुझे connection कम महसूस होता है
AI यह नहीं कर पाएगा। यह कितना भी बेहतर हो जाए, लेखक का मन नहीं पढ़ सकता। नतीजा इंसानी narrator से भी ज़्यादा generic होगा
trained voice actor कहीं बेहतर करता है, और माहौल के हिसाब से आवाज़ भी बदल सकता है
autobiography हो तो ठीक है, लेकिन ऐसे मामलों में आम तौर पर लेखक पहले से ही खुद पढ़ता है
Descript जैसे tool में narration के बाद लेखक pronunciation adjust करे तो अलग बात है, लेकिन मुझे लेखक की आवाज़ नहीं चाहिए
Allyson Johnson की आवाज़ पर model train करके Honor Harrington किताबें narrate करवाने, और spin-off की उन 1–2 किताबों को फिर से record करने में दिलचस्पी है जिनमें कोई दूसरा narrator इस्तेमाल हुआ था। वह narrator बहुत खराब था
Wheel of Time series में वही दो narrators हैं, लेकिन हर किताब में कई नामों और शब्दों के pronunciation बदलने वाली बात को साफ़ करने में भी इसका इस्तेमाल हो सकता है। खासकर “Moghedien” बहुत noticeable है
कम से कम तीन तरीकों से pronounce किया गया है: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
साथ ही, अगर AI का इस्तेमाल न किया जाए तो हजारों-लाखों किताबें ऐसी हैं जो audio format में कभी आएँगी ही नहीं
संबंधित: https://github.com/topics/voice-clone
अब तक जब भी कोशिश की, यह न तो target यानी मेरी आवाज़ लगी, न original आवाज़, बल्कि बस कोई random नई आवाज़ जैसी सुनाई दी
कुछ Python notebooks दिख रहे हैं, लेकिन README में example code होता तो और बेहतर होता