5 पॉइंट द्वारा GN⁺ 2024-04-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenVoice V1 परिचय

  • OpenVoice के फायदे इस प्रकार हैं:
    • सटीक voice tone cloning: OpenVoice रेफ़रेंस voice tone को सटीक रूप से clone कर सकता है और कई भाषाओं व accents में आवाज़ generate कर सकता है।
    • लचीला voice style control: OpenVoice emotion और accent जैसे voice style के साथ-साथ rhythm, pause, intonation जैसे अन्य style parameters को भी बारीकी से control कर सकता है.
    • Zero-shot बहुभाषी voice cloning: generated voice की भाषा और reference voice की भाषा, दोनों का बड़े speaker multilingual training dataset में मौजूद होना आवश्यक नहीं है.

OpenVoice V2 परिचय

  • अप्रैल 2024 में OpenVoice V2 जारी किया गया, जिसमें V1 की सभी सुविधाएँ शामिल हैं और इसके साथ निम्नलिखित फीचर जोड़े गए:
    • बेहतर audio quality: OpenVoice V2 बेहतर audio quality देने के लिए अलग training strategy अपनाता है.
    • मूल बहुभाषी support: English, Spanish, French, Chinese, Japanese और Korean को OpenVoice V2 में डिफ़ॉल्ट रूप से support किया जाता है।
    • मुफ़्त commercial use: अप्रैल 2024 से V2 और V1 को MIT license के तहत जारी किया गया है, और commercial use मुफ़्त है.

OpenVoice का उपयोग

  • OpenVoice मई 2023 से myshell.ai की instant voice cloning सुविधा प्रदान कर रहा है।
  • नवंबर 2023 तक, voice cloning model का दुनिया भर के उपयोगकर्ताओं द्वारा करोड़ों बार उपयोग किया गया, और प्लेटफ़ॉर्म ने उपयोगकर्ताओं की विस्फोटक वृद्धि देखी.

प्रमुख योगदानकर्ता

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

उपयोग विधि

  • विस्तृत उपयोग विधि के लिए usage देखें.

सामान्य issues

  • सामान्य प्रश्न और उत्तर के लिए QA देखें.
  • प्रश्न और उत्तरों की सूची नियमित रूप से अपडेट की जाएगी.

कम्युनिटी भागीदारी

  • Discord community में शामिल हों और जुड़ते समय 'Developer' role चुनें, तो आपको केवल developers के लिए बने channels तक विशेष access मिलेगा।
  • उपयोगी discussions और collaboration के अवसर न चूकें.

उद्धरण

  • यह implementation, TTS, VITS और VITS2 जैसे कुछ उत्कृष्ट projects पर आधारित है।
  • उनके शानदार काम के लिए धन्यवाद.

लाइसेंस

  • OpenVoice V1 और V2, MIT license के तहत हैं, और commercial use तथा research use दोनों मुफ़्त हैं.

GN⁺ की राय

  • OpenVoice एक शक्तिशाली tool है, जिससे विभिन्न भाषाओं और भावनाओं वाली आवाज़ें आसानी से generate की जा सकती हैं। यह फ़िल्म, animation, game आदि कई क्षेत्रों में उपयोगी हो सकता है।

  • हालांकि, आवाज़ को बहुत आसानी से clone किया जा सकता है, इसलिए इसके दुरुपयोग की आशंका भी है। उदाहरण के लिए, बिना अनुमति किसी प्रसिद्ध व्यक्ति की आवाज़ का उपयोग करके deepfake वीडियो बनाना जैसी समस्याएँ हो सकती हैं। इसके लिए उपयुक्त उपायों की ज़रूरत दिखती है.

  • OpenVoice जैसी सुविधाओं वाले commercial products में Lyrebird, Resemble.ai और Descript शामिल हैं। इनका उपयोग मुख्यतः customer support, call center और video dubbing में किया जा रहा है.

  • OpenVoice को अपनाते समय data security और copyright से जुड़े मुद्दों पर ध्यान देना चाहिए। साथ ही generated voice की naturalness और pronunciation की accuracy की भी अवश्य जाँच करनी चाहिए।

  • चूँकि इसे open source के रूप में जारी किया गया है, इसलिए विभिन्न developers की भागीदारी से इसके performance में लगातार सुधार की उम्मीद है। क्या यह commercial products के स्तर की audio quality और features दे पाएगा, इस पर नज़र रहेगी.

1 टिप्पणियां

 
GN⁺ 2024-04-28
Hacker News राय
  • हाल ही में एक घटना हुई जिसमें एक sports coach ने AI का इस्तेमाल करके principal के नस्लवादी बयान वाला फर्जी audio clip बनाकर उसे फंसाने की कोशिश की। यह दिखाता है कि कानून और law enforcement को AI तकनीक की प्रगति की रफ्तार के साथ कदम मिलाने की कोशिश करनी होगी।
  • फर्जी ऐतिहासिक सबूत, फर्जी लीक, फर्जी समर्थन, फर्जी विज्ञापन जैसी समस्याएँ और गंभीर होने की आशंका है। जब साधारण text articles की भी ठीक से पुष्टि नहीं होती, तब AI तकनीक से होने वाला नुकसान और बड़ा होगा।
  • यह तकनीक केवल आवाज़ के tone की नकल करती है, वास्तव में आवाज़ की cloning नहीं करती। दस्तावेज़ में यह स्पष्ट रूप से लिखा है, लेकिन फिर भी इसे 'voice cloning' कहा जा रहा है, जिससे भ्रम पैदा होता है।
  • इस तकनीक के वैध use case ढूँढना मुश्किल है। इसमें दूसरों को धोखा देने के लिए दुरुपयोग की काफी संभावना है।
  • जो लोग AI तकनीक का इस्तेमाल करके दिलचस्प चीज़ें बनाना चाहते हैं, उनके लिए ऐसी अच्छी जगह ढूँढना महत्वपूर्ण है जहाँ संबंधित जानकारी मिल सके। केवल AI तकनीक से ज़्यादा रुचि उन दिलचस्प workflows और लोगों में है जो इसका उपयोग कर रहे हैं।
  • पहले से सार्वजनिक voice cloning AI तकनीकों की तुलना में इस रिलीज़ में कोई खास बुरी बात नहीं दिखती। जरूरत से ज्यादा निराशावाद और बढ़ा-चढ़ाकर प्रतिक्रियाएँ दी जा रही हैं।
  • उम्मीद है कि voice cloning तकनीक की मदद से लेखक अपनी ही आवाज़ में audiobook बना सकेंगे। यह खुद पढ़ने जितना अच्छा नहीं होगा, लेकिन voice actor की तुलना में लेखक की अपनी आवाज़ ज़्यादा आकर्षक लगेगी।
  • अच्छा होगा अगर README में example code शामिल हो।
  • मैंने खुद अपनी आवाज़ को "clone" करके देखा, लेकिन नतीजा बिल्कुल भी मिलता-जुलता नहीं था। मुझे लगा था कि मैं अपनी ही आवाज़ को फ्रेंच में बोलते सुनूँगा, लेकिन ऐसा नहीं हुआ। "instant voice cloning" शीर्षक कुछ हद तक भ्रामक है.