OpenVoice: तुरंत voice cloning तकनीक

(github.com/myshell-ai)

5 पॉइंट द्वारा GN⁺ 2024-04-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenVoice एक instant voice cloning project है, जो reference voice tone को clone करके कई भाषाओं और accents में आवाज़ generate करता है, और V1 तथा V2 features जारी कर चुका है
V1 सटीक voice tone cloning, emotion·accent·rhythm·pause·intonation changes जैसे voice style control, और zero-shot cross-lingual voice cloning को support करता है
OpenVoice V2 अप्रैल 2024 में जारी हुआ, और V1 के features को शामिल करते हुए अलग training strategy से बेहतर audio quality देता है
V2 English, Spanish, French, Chinese, Japanese, Korean को native multilingual support देता है, और V1 व V2 दोनों MIT License के तहत commercial और research use के लिए मुफ्त उपलब्ध हैं
OpenVoice मई 2023 से myshell.ai के instant voice cloning feature में इस्तेमाल हो रहा है, और नवंबर 2023 तक दुनिया भर के users ने इसे करोड़ों बार इस्तेमाल किया

OpenVoice द्वारा दी जाने वाली voice cloning क्षमता

OpenVoice instant voice cloning के लिए एक project है
संबंधित paper arXiv paper के रूप में उपलब्ध है

OpenVoice V1 के मुख्य features

सटीक voice tone cloning
- reference voice tone को सटीक रूप से clone किया जा सकता है
- कई भाषाओं और accents में आवाज़ generate की जा सकती है
लचीला voice style control
- emotions और accent को बारीकी से control किया जा सकता है
- rhythm, pauses, intonation changes जैसे style parameters भी control के दायरे में आते हैं
zero-shot cross-lingual voice cloning
- generated voice की भाषा और reference voice की भाषा का बड़े multi-speaker multilingual training dataset में शामिल होना ज़रूरी नहीं है

OpenVoice V2 में बदलाव

OpenVoice V2 अप्रैल 2024 में जारी हुआ
V2 में V1 के सभी features शामिल हैं
अलग training strategy अपनाकर यह बेहतर audio quality देता है
English, Spanish, French, Chinese, Japanese, Korean को native रूप से support करता है
अप्रैल 2024 से V2 और V1 दोनों MIT License के तहत जारी हैं, इसलिए commercial use मुफ्त है

वास्तविक उपयोग और release scope

OpenVoice मई 2023 से myshell.ai के instant voice cloning feature को चला रहा है
नवंबर 2023 तक voice cloning model दुनिया भर के users द्वारा करोड़ों बार इस्तेमाल किया गया
README में demo Video शामिल है

उपयोग, license, और base projects

विस्तृत उपयोग विधि repository के usage document में बताई गई है
सामान्य सवाल-जवाब repository के QA document में कवर किए गए हैं
OpenVoice V1 और V2 MIT License के तहत हैं, और commercial use तथा research use दोनों मुफ्त हैं
implementation TTS, VITS, VITS2 पर आधारित है

1 टिप्पणियां

GN⁺ 2024-04-28

Hacker News की राय

हाल ही के कुछ दिनों में भी ऐसा हुआ: पुलिस ने बताया कि एक athletic director ने principal को नस्लवादी टिप्पणी करने वाला दिखाने के लिए AI से fake voice clip बनाई
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- इसलिए इस technology को व्यापक रूप से इस्तेमाल होने वाला और सबको पता होना चाहिए। लोगों को और सतर्क होना चाहिए, हर चीज़ पर भरोसा नहीं करना चाहिए, और source verify करना चाहिए
  बेशक ज़्यादातर लोग फिर भी fact-check नहीं करेंगे
हम ऐसे दौर में प्रवेश कर चुके हैं जहां कानून और enforcement को बहुत तेज़ी से catch up करना होगा
fake historical evidence, fake leaks, fake endorsements, यहां तक कि fake ads भी संभव हो गए हैं
Facetok पर कोई भी text post verify करने की जहमत न उठाने वाले लोग थे, इसलिए आगे स्थिति कहीं ज़्यादा खराब होने वाली लगती है
- यह hypernormalization से hyperreality की ओर जाने जैसा flow लगता है
  मैं दोस्तों से कहता आया हूं कि 5–10 साल बाद हम शायद लगभग 100% सिर्फ उसी चीज़ पर भरोसा कर पाएंगे जो हमारी आंखों के सामने उसी वक्त हो रही हो
  भरोसेमंद media organizations से verification करवाने का विकल्प तो होगा, लेकिन polarization के कारण दुनिया का बड़ा हिस्सा पहले से ही मान लेगा कि उन्हें धोखा दिया गया है और सब कुछ fake कहकर खारिज कर देगा
  Sora या नए voice models को देखिए। कुछ दिन पहले भी एक high school athletic coach को principal की आवाज़ clone करके उससे भयानक बातें कहलवाने के आरोप में गिरफ्तार किया गया, और वह अपना email इस्तेमाल करने की वजह से पकड़ा गया
  इसमें Microsoft के नए Phi-mini model की बात जोड़ें, जो 3.8 अरब parameters के साथ GPT-3.5 performance के करीब पहुंचता है, तो यह और डरावना है। GPT-3.5 में 175 अरब parameters थे, और इस technology optimization को अभी मुश्किल से करीब 5 साल हुए हैं
  मैं Mr Bones की पागल ride से उतरना चाहता हूं
- trust मानव अस्तित्व की dependency है। सिर्फ civilization ही नहीं, बहुत छोटे communities और ideas, goods, services के basic exchange के लिए भी यह जरूरी है
  generative AI से trust नष्ट होने का जोखिम कैसे unfold होगा, इसका अनुमान नहीं लगाया जा सकता, लेकिन मैं आशावादी हूं कि आखिर में human creativity जीतेगी
- digital audio file को किसी चीज़ का evidence मानना मुश्किल है। voice cloning न भी हो, तो audio को cut-paste और edit करके लगभग मनचाहा बनाया जा सकता है
  practice से किसी और के बोलने के अंदाज़ की नकल करना भी मुश्किल नहीं, और amateurs व professional actors अक्सर ऐसा करते हैं
  फर्क सिर्फ इतना है कि यह काम आसान हो गया है, और इससे उल्टा सभी को यह समझने में मदद मिलनी चाहिए कि ऐसा “evidence” कितना भरोसे लायक नहीं है
- यह भी बड़ा issue है, लेकिन इससे बड़ा issue वह situation है जहां spam call करीब 10 सेकंड मेरी आवाज़ capture करने के बाद मेरी आवाज़ में मेरे bank या family को call करे
  Android और iOS को real-time voice modulator को default जैसी support देनी चाहिए, dialer में इसे quickly off करने का button और known contacts के लिए इसे बंद रखने का option देना चाहिए
- AI के criminal और malicious use को लेकर hype मुझे दूसरे AI use cases की hype जैसी ही लगने लगी है
  सच में disruption लाने वाले uses आएंगे, लेकिन technology ने जो नया संभव किया है और जो पहले भी संभव था, उसके बीच का फर्क लोगों के कहने से कहीं छोटा है
यह cloning नहीं, बल्कि timbre copy करने के ज्यादा करीब है। documentation में भी यही लिखा है, फिर भी इसे voice cloning कहा जा रहा है
मैंने खुद try किया तो यह मेरे सामान्य soft Lancashire accent जैसा नहीं, बल्कि American जैसा लगा, और मुझसे बिल्कुल अलग था
- https://voiceshopai.github.io इस्तेमाल करें तो शायद original accent के ज्यादा करीब वापस लाया जा सकता है
  VoiceShopAi young voice को old voice में, male को female में, या किसी भी देश के accent में बदल सकता है
  voice field में नए items track करने वाले https://github.com/metame-ai/awesome-audio-plaza पर यह मिला
- मैंने भी अपनी आवाज़ से try किया, और शुक्र है कि यह बिल्कुल मेरी आवाज़ जैसा नहीं सुनाई दिया
- title या name बहुत अच्छा नहीं है। और meta level पर देखें तो कभी-कभी लगता है कि आजकल HN comments, original post या technology को देखने की बजाय Reddit-style title reactions जैसे होते जा रहे हैं
इस technology के legitimate use cases क्या होंगे? दूसरों को धोखा देने के सौ तरीके तो सोच सकता हूं, लेकिन अपनी आवाज़ clone या recreate करना चाहूंगा ऐसी situations बहुत याद नहीं आतीं
- podcast record करने के बाद अगर सिर्फ कुछ words सुधारने हों, तो दोबारा record करने की झंझट के बिना इसका इस्तेमाल हो सकता है
  कोई indie game developer बड़े language model से driven dialogue वाले, अपनी-अपनी unique voice रखने वाले जीवंत NPCs बना सकता है
  film production में actor की consent लेकर कुछ lines adjust की जा सकती हैं
  जिन लोगों की health issues के कारण आवाज़ धीरे-धीरे जा रही है लेकिन वे communicate करते रहना चाहते हैं, उनके लिए भी यह जरूरी है
  इस technology के legitimate use cases साफ़ तौर पर हैं। निजी तौर पर मुझे लगता है कि illegitimate use, legitimate use पर भारी पड़ेंगे, लेकिन यह कहना fair नहीं होगा कि कोई legitimate application नहीं है
  misuse को criminalize करके सख्ती से regulate करना चाहिए, पूरी तरह ban नहीं करना चाहिए। software और छोटे models के मामले में ban करना वैसे भी काफी मुश्किल है
- Alexa जैसे agents के बेहतर personalized voices इस्तेमाल करने लगने की बात बस समय की है
  audiobooks भी एक narrator द्वारा जबरन acting करने के बजाय character-specific voices में पढ़े जा सकते हैं
  अगर आपको सर्दी है लेकिन बिना खांसी के speech देना चाहते हैं, तो यह भी संभव है
  low-bandwidth audio transmission में सिर्फ text भेजकर local voice model से play कराया जा सकता है
  इसका इस्तेमाल किसी दिवंगत प्रियजन से बातचीत करने के लिए भी हो सकता है
  funny या comedy use भी संभव हैं
- लगता है आपने बहुत मेहनत से नहीं सोचा। सबसे पहले मेरे दिमाग में real-time translation के साथ अपनी आवाज़ clone करने का use आया
  अगर मान लें कि perfect translation का malicious use नहीं होगा, तो यह हमेशा useful और बिल्कुल non-evil application लगता है
- मेरा एक दोस्त है जिसका larynx paralyzed है, इसलिए communicate करने के लिए वह अक्सर phone या छोटे laptop पर type करता है
  अगर पुराने speech recordings के आधार पर कम से कम कुछ हद तक उसकी “अपनी” आवाज़ वापस दी जा सके, तो उसे बहुत अच्छा लगेगा
  अफसोस, मैंने अभी तक ऐसा कोई tool नहीं देखा जो उसके Android TTS या Windows में plug करने लायक voice model बना दे
- मैं Counter-Strike बहुत खेलता हूं, और जब लोग Joe Biden की आवाज़ में opposing team को गालियां देते हैं तो यह काफी funny लगता है
इस क्षेत्र को लगातार फॉलो करना हो तो सबसे अच्छी जगह कौन-सी होगी? मैं ऐसे tools से क्रिएट करना चाहता/चाहती हूँ, लेकिन मेरी आवाज़ ऐसे उपयोग के लिए बहुत अच्छी नहीं है, इसलिए इसमें काफी रुचि है
इसे ज़्यादा नैचुरल बनाने के लिए टेक्स्ट-टू-स्पीच की तुलना में speech-to-speech conversion बेहतर लगती है। RVC जैसे tools थोड़ा इस्तेमाल किए हैं, लेकिन लगता है कि AI के शोर में कई शानदार workflows छूट रहे होंगे
खास तौर पर दिलचस्प workflows और AI से मज़ेदार चीज़ें बनाने वाले लोगों के बारे में और जानना चाहता/चाहती हूँ
- निश्चित रूप से Twitter। सब कुछ वहीं announce और discuss होता है
यहाँ कयामत वाली बातें और बढ़ा-चढ़ाकर किया गया ड्रामा काफी है। लगभग 1 साल पहले से public रूप से इस्तेमाल हो सकने वाले मौजूदा voice cloning AI तरीकों की तुलना में, इस release के इतना ज़्यादा खराब होने की वजह क्या है?
voice cloning से लेखक की आवाज़ में पढ़ी गई audiobooks आने की मुझे सचमुच उम्मीद है
बेशक यह लेखक के खुद पढ़ने जितना अच्छा नहीं होगा, लेकिन लेखक की आवाज़ में कुछ ऐसा होता है जो voice actor नहीं दे सकता। voice actors का उच्चारण बहुत सामान्य और अतिनाटकीय होता है, इसलिए व्यक्तिगत रूप से मुझे connection कम महसूस होता है
- लेखक trained narrator न भी हो, तब भी जो चीज़ वह जोड़ता है, वह यह है कि किताब के वाक्य किस तरह बोले और समझे जाने के लिए लिखे गए हैं, उसके हिसाब से intonation बिल्कुल सही बैठता है
  AI यह नहीं कर पाएगा। यह कितना भी बेहतर हो जाए, लेखक का मन नहीं पढ़ सकता। नतीजा इंसानी narrator से भी ज़्यादा generic होगा
- बल्कि मुझे इसी बात की चिंता है। समझ नहीं आता कि किताब लेखक को ही क्यों पढ़नी चाहिए
  trained voice actor कहीं बेहतर करता है, और माहौल के हिसाब से आवाज़ भी बदल सकता है
  autobiography हो तो ठीक है, लेकिन ऐसे मामलों में आम तौर पर लेखक पहले से ही खुद पढ़ता है
- अगर आपको audiobook voice actor बहुत generic लगते हैं, तो लेखक की आवाज़ पर trained AI narration के बारे में और भी बुरी खबर है
- मेरी किताबें लेखक से पढ़वाने की इच्छा लगभग नहीं है। लेखक वह है जो अच्छा लिखता है, और audiobook सिर्फ पेज पर लिखे शब्दों को “पढ़ने” का काम नहीं है
  Descript जैसे tool में narration के बाद लेखक pronunciation adjust करे तो अलग बात है, लेकिन मुझे लेखक की आवाज़ नहीं चाहिए
  Allyson Johnson की आवाज़ पर model train करके Honor Harrington किताबें narrate करवाने, और spin-off की उन 1–2 किताबों को फिर से record करने में दिलचस्पी है जिनमें कोई दूसरा narrator इस्तेमाल हुआ था। वह narrator बहुत खराब था
  Wheel of Time series में वही दो narrators हैं, लेकिन हर किताब में कई नामों और शब्दों के pronunciation बदलने वाली बात को साफ़ करने में भी इसका इस्तेमाल हो सकता है। खासकर “Moghedien” बहुत noticeable है
  कम से कम तीन तरीकों से pronounce किया गया है: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
- अच्छा होगा अगर हर audiobook में narrator के विकल्प हों। कुछ पसंदीदा narrators होते हैं, और कुछ ऐसे भी जिन्हें बिल्कुल नहीं सुना जा सकता
  साथ ही, अगर AI का इस्तेमाल न किया जाए तो हजारों-लाखों किताबें ऐसी हैं जो audio format में कभी आएँगी ही नहीं
संबंधित: https://github.com/topics/voice-clone
- जानना चाहूँगा/चाहूँगी कि इनमें से कौन-सी चीज़ें सच में काम करती हैं
  अब तक जब भी कोशिश की, यह न तो target यानी मेरी आवाज़ लगी, न original आवाज़, बल्कि बस कोई random नई आवाज़ जैसी सुनाई दी
कुछ Python notebooks दिख रहे हैं, लेकिन README में example code होता तो और बेहतर होता

OpenVoice: तुरंत voice cloning तकनीक

OpenVoice द्वारा दी जाने वाली voice cloning क्षमता

OpenVoice V1 के मुख्य features

सटीक voice tone cloning

लचीला voice style control

zero-shot cross-lingual voice cloning

OpenVoice V2 में बदलाव

वास्तविक उपयोग और release scope

उपयोग, license, और base projects

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय