OpenVoice: बहुमुखी त्वरित voice cloning तकनीक
- OpenVoice एक बहुमुखी voice cloning approach है, जो reference voice की सिर्फ एक छोटी audio clip से उस आवाज़ को clone कर सकती है और कई भाषाओं में speech generate कर सकती है।
- यह तकनीक voice style control में लचीलापन देती है, और reference voice की tone color को clone करने के साथ-साथ emotion, accent, rhythm, pause और intonation जैसे voice style तत्वों पर भी सूक्ष्म नियंत्रण संभव बनाती है।
- OpenVoice, बड़े speaker training dataset में शामिल न होने वाली भाषाओं के लिए भी zero-shot cross-lingual voice cloning हासिल करती है।
तकनीकी विवरण और शोध योगदान
- OpenVoice, commercially available API की तुलना में गणनात्मक लागत के मामले में कई दर्जन गुना अधिक efficient है, और इसका performance भी बेहतर है।
- शोध क्षेत्र में आगे की प्रगति के लिए source code और trained models को सार्वजनिक रूप से उपलब्ध कराया गया है।
- demo website पर qualitative results उपलब्ध हैं, और public release से पहले का internal version मई 2023 से अक्टूबर तक दुनिया भर के users द्वारा करोड़ों बार इस्तेमाल किया गया।
GN⁺ की राय
- OpenVoice, voice cloning तकनीक में एक महत्वपूर्ण प्रगति को दर्शाती है, और खासकर कई भाषाओं व styles में speech generate करने की इसकी क्षमता बेहद अभिनव है।
- इस तकनीक में education, entertainment और personalized voice services जैसे विभिन्न क्षेत्रों में उपयोग की बड़ी संभावनाएँ हैं।
- सार्वजनिक रूप से उपलब्ध source code और models से voice technology research को तेज़ी मिलने की उम्मीद है।
1 टिप्पणियां
Hacker News राय
एक उपयोगकर्ता उन लेखकों की सराहना करता है जिन्होंने इस प्रोजेक्ट को आज़माना आसान बनाया। हालांकि, सामान्य voice cloning के मामले में उसे संतोषजनक परिणाम नहीं मिले। उसने Wikipedia के किताबों वाले पेज का पहला पैराग्राफ पढ़वाकर अगला वाक्य जनरेट कराया, लेकिन आउटपुट कंप्यूटर-जनित जैसा लगा।
demo_part1.ipynbचलाया। नोटबुक में यह लगभग तुरंत चल गया।एक उपयोगकर्ता ने पूछा कि अगर वह अपने हार्डवेयर पर voice cloning करना चाहे, तो इस्तेमाल करने लायक कोई अच्छा open source प्रोजेक्ट कौन-सा है। वह open source voice cloning की मौजूदा स्थिति के बारे में जानना चाहता है।
एक उपयोगकर्ता ने पूछा कि क्या इस तकनीक (या Eleven Labs) का उपयोग करके ऐसा voice model बनाया जा सकता है जिसे Android फोन के TTS में plugin किया जा सके।
एक उपयोगकर्ता को यह paper पसंद आया। उसे इसमें "हमने जो किया, और हम चाहते हैं कि दूसरे भी इसे कर सकें" वाली भावना मिली। खास तौर पर उसने "Remark on Novelty" सेक्शन की सकारात्मक सराहना की: OpenVoice का योगदान model architecture के submodules का आविष्कार करना नहीं, बल्कि ऐसा disentangled framework देना है जो voice style और language control को timbre cloning से अलग करता है।
GitHub लिंक और checkpoint (zip file) लिंक दिए गए। एक उपयोगकर्ता ने कहा कि उसे Amazon पर hosted zip file के direct links से एलर्जी है, इसलिए उसने checkpoint लिंक को ठीक करके साझा किया।
दिए गए example links को प्रभावशाली बताया गया।
एक उपयोगकर्ता ने इच्छा जताई कि YouTube इस तकनीक के उपयोग पर रोक लगाए, या कम से कम ऐसे videos को filter करने की सुविधा दे।
एक उपयोगकर्ता ने अनुभव साझा किया कि जब उसने UK के एक बड़े bank को फोन किया, तब bank अब भी उसे "my voice is my password" प्रोग्राम में enroll होने के लिए प्रोत्साहित कर रहा था। AI की मौजूदा प्रगति को देखते हुए यह उसे बस लापरवाही जैसा लगा।
एक उपयोगकर्ता का पहला और स्थायी विचार यह है कि voice cloning के अनैतिक या आपराधिक उपयोग, वैध उपयोगों से कहीं अधिक हैं।
open source voice cloning क्षेत्र में मौजूदा leader RVC है, और वह देखना चाहता है कि इसकी तुलना में यह कैसे अलग है।