AI से चोरी हुई मेरी आवाज़
(jeffgeerling.com)- Jeff Geerling ने Elecrow के YouTube promotional tutorial में अपनी आवाज़ से बहुत मिलती-जुलती narration सुनी, लेकिन उन्होंने वे वाक्य कभी खुद नहीं बोले थे
- समस्या वाली आवाज़ ESP32 और RP2040 से जुड़ी कई video series में इस्तेमाल हुई लगती है, और Jeff को शक है कि उनके YouTube videos का इस्तेमाल AI voice cloning tool में किया गया हो सकता है
- Elecrow एक ऐसी कंपनी है जिसके CrowPi 2 का Jeff ने पहले review किया था और जो Raspberry Pi accessories और electronics बनाती है, इसलिए यह मामला किसी साधारण बाहरी vendor से विवाद की तुलना में रिश्ते के संदर्भ में अधिक जटिल है
- बिना अनुमति AI voice cloning को लेकर स्पष्ट कानूनी precedent साफ नहीं है, लेकिन commercial work में consent के बिना किसी और की आवाज़ इस्तेमाल करने का मुद्दा Midler vs. Ford मामले से जुड़ता है
- Jeff ने takedown request या legal action से पहले Elecrow को email करके स्पष्टीकरण और videos हटाने की मांग की, और उनका मानना है कि कंपनियों को voice actors hire करके या formal collaboration के जरिए ऐसे मामलों को हल करना चाहिए
Elecrow video में Jeff Geerling जैसी सुनाई दी आवाज़
- Jeff Geerling ने Elecrow की एक YouTube clip सुनी और पाया कि narration उनकी अपनी आवाज़ से काफी परिचित-सी लग रही थी
- यह video Jeff Geerling channel का नहीं, बल्कि Elecrow का है, और Jeff ने उसके वाक्य कभी नहीं बोले
- किसी ने Elecrow video का link email से भेजकर बताया कि sound अजीब लग रहा है, और Jeff को लगा कि उसी topic को cover करने वाले उनके channel की वजह से कुछ viewers ने सोचा होगा कि उन्होंने Elecrow video में voice appearance के लिए सहमति दी है
- Elecrow electronics और Raspberry Pi accessories बनाने वाली कंपनी है, और Jeff ने पहले Elecrow के CrowPi 2 का review किया था
- पहले Elecrow के साथ कोई खराब संबंध नहीं थे, इसलिए Jeff अभी 100% निश्चित नहीं हैं कि यह जानबूझकर किया गया था या नहीं
- इस लेख के video version में Elecrow clip और Jeff की natural voice की सीधे तुलना की जा सकती है
AI voice cloning का संदेह और प्रतिक्रिया
- Jeff यह मानते हुए कि इसे prove करना मुश्किल है, कहते हैं कि संभावना ज्यादा है कि Elecrow ने उनके YouTube videos को किसी AI voice cloning tool में डालकर उस आवाज़ से कई promotional tutorials narrate कराए
- उदाहरण के तौर पर वे ESP32 series और RP2040 series का जिक्र करते हैं
- OpenAI द्वारा Scarlett Johansson की आवाज़ को लगभग clone करने की घटना के बाद उम्मीद थी कि कंपनियां product demos या tutorials के लिए AI voice के इस्तेमाल में ज्यादा सावधान होंगी, लेकिन यह मामला उस उम्मीद के उलट है
- unauthorized AI voice cloning पर Jeff की जानकारी में कोई स्पष्ट legal precedent नहीं है, लेकिन commercial work में consent के बिना किसी और की आवाज़ इस्तेमाल नहीं की जानी चाहिए—इसके precedent के तौर पर वे Midler vs. Ford का उल्लेख करते हैं
- lawyers के जरिए जवाब देना महंगा पड़ता है, और यह भी निश्चित नहीं है कि non-consensual voice cloning YouTube Terms of Service का उल्लंघन है या नहीं
- Jeff की मांग स्पष्ट है
- किसी और की आवाज़ या likeness चुराकर products या videos में नहीं लगानी चाहिए
- brands को voice actors hire करने चाहिए या content creators को pay करके collaboration करना चाहिए
- Jeff ने Elecrow को email भेजकर अनुरोध किया कि उनकी आवाज़ जैसी AI voice वाली कम-से-कम 2 series हटाई जाएं
- उन्होंने पूछा कि क्या वह आवाज़ जानबूझकर उनकी आवाज़ जैसी बनाई गई थी
- उन्होंने यह भी पुष्टि मांगी कि क्या उनकी videos या audio content से voice को train किया गया था
- YouTube takedown request या legal action से पहले वे email से शुरुआत करना चाहते थे, और पहले कोई समस्या न रही होने के कारण honest mistake की संभावना भी खुली रखी
- हालांकि यह साफ है कि Elecrow Jeff के channel को जानता था
- 2020 से अब तक Elecrow के 5 marketing staff के साथ 43 से अधिक emails का आदान-प्रदान हुआ है
- उनमें से 22 emails इसी साल की हैं
- 2 अप्रैल 2024 को Elecrow के marketing staff ने paid partnership पर चर्चा करना चाहने का email भेजा था
- 23 सितंबर के update में Elecrow CEO ने जवाब दिया, और Jeff ने उस response और AI voice cloning पर अपने विचारों के साथ follow-up post प्रकाशित की
1 टिप्पणियां
Hacker News की राय
AI को लेकर डर सबके अलग-अलग हो सकते हैं, लेकिन खास तौर पर डरावना मामला यह है कि AI से किसी के ईशनिंदा करने जैसा फर्जी बयान गढ़ दिया जाए
मेरे देश में, अगर कुछ बहुत मामूली-सा अपमान भी लगता है—चाहे असली हो या कल्पित—तो ईशनिंदा पर lynch mob खड़ा हो जाता है। भीड़ आकर पीट-पीटकर मार देती है और शव जला देती है; फिर परिवार छिपकर वीडियो संदेश जारी करता है कि वे पीड़ित से संबंध नहीं रखते और भीड़ को माफ करते हैं, जबकि भीड़ मिठाइयाँ बाँटती है
यह AI के आसानी से उपलब्ध होने से पहले भी ऐसा ही था। आप इसे “पिछड़े देश की बात” कह सकते हैं, लेकिन यह वहीं रुकने वाला नहीं, फैलेगा। किसी शिशु के हाथ में चाकू देकर फिर उसे चाकू मारने का दोष नहीं दिया जा सकता
प्रतिष्ठा, सुरक्षा, कॉपीराइट से अलग, यह लोगों की जान ले सकता है, और इसे नियंत्रित करने का कोई औजार नहीं है
https://x.com/search?q=blasphemy
भविष्य से डर लगता है
अगर वे सीमित, regulated या पहुँच में मुश्किल बने रहते हैं, तो लोग वीडियो और recording को अब भी छेड़छाड़ से परे मानते रहेंगे। लेकिन अगर $1 वाले app से voice cloning आसान और मज़ेदार prank बन जाए, और teenagers prank calls करके देखें, तो जल्द ही यह बात आम लोगों की समझ में बैठ सकती है
पिछले हफ्ते मेरी 70 वर्षीय माँ ने पूछा कि क्या उन्हें अपना voicemail greeting मिटा देना चाहिए। उनका कहना था कि कोई उससे उनकी आवाज़ चुरा सकता है न; शायद Fox जैसे किसी चैनल पर सुना होगा, यह सुनकर मैं हैरान रह गया
कुछ साल कठिन होंगे, लेकिन उम्मीद है जल्दी निकल जाएँगे
अभी अगर किसी user के काफी comments हैं, तो correlation analysis से उसकी anonymity हटाना संभव होने की काफी संभावना है। 100% सही न भी हो, तो भी writing style चुराई जा सकती है। यह शायद जरूरत से ज्यादा सावधानी हो, लेकिन इसकी कोई गारंटी नहीं कि हम dark forest में नहीं जा रहे हैं, और यह मानने की वजहें भी हैं कि हम उसी दिशा में बढ़ रहे हैं
साथ ही मैं यह भी सोचता हूँ कि शायद छाया में पीछे न हटना ही हार न मानने वाला रवैया है
यह Reddit जैसे social media जैसा है, जहाँ कुछ वर्षों तक “culprit ढूँढना” या “doxxing” चलता रहा, फिर operators को समझ आया कि online mobs अक्सर गलत होती हैं और आम तौर पर इसे ban कर दिया गया
लेकिन कानून पारित होने तक, या जब तक यह common sense न बन जाए कि किसी वीडियो के fake होने की संभावना असली से ज्यादा है, बहुत-से लोग नुकसान झेलेंगे। इसमें 5 साल से ज्यादा भी लग सकते हैं, और समस्या यह भी है कि कानून आम तौर पर तभी बनते हैं जब किसी को नुकसान साबित हो चुका होता है
समझ नहीं आता कि AI इस्तेमाल करने से Midler vs. Ford precedent से बच निकलने की वजह कैसे मिलती है
उलटे, अगर किसी दूसरे voice actor से आवाज़ की नकल करवाने के बजाय AI से आवाज़ clone की गई हो, तो defence argument और कमजोर दिखता है
कई अन्य राज्यों में तथाकथित publicity rights से जुड़े कानून और precedents अलग-अलग बिखरे हुए हैं। ऐसे concept को मान्यता देनी चाहिए या नहीं, उसकी सीमाएँ कैसे तय हों—इन बातों पर राज्यों के बीच कोई universal consensus नहीं है
“...यह observation गायन, खासकर प्रसिद्ध singer के गायन पर लागू होता है। singer गीत में खुद को प्रकट करती है। उसकी आवाज़ का impersonation उसकी पहचान की piracy है...”
“हमें यह तय करने की जरूरत नहीं है, और हम यह तय नहीं करते, कि product advertising के लिए हर तरह की voice imitation मुकदमे योग्य है। हम सिर्फ यह मानते हैं कि जब widely known professional singer की distinctive voice को product बेचने के लिए जानबूझकर imitate किया जाता है, तो seller ने वह चीज़ अपने लिए ले ली है जो उसकी नहीं थी...”
precedent की ओर इशारा करने के लिए धन्यवाद, लेकिन precedent सिर्फ शुरुआत है; आखिरकार हमें precedent से आगे जाने वाले principles बनाने होंगे
जब technology अभूतपूर्व क्षमता लाती है, तो समाज को ऐसी boundaries खींचनी होंगी जिनसे सिस्टम लोगों के खिलाफ नहीं, उनके पक्ष में काम करे; वरना हम उस दुनिया के और करीब चले जाएँगे जहाँ ताकतवर जो चाहें करते हैं और कमजोर, या वे लोग जो बस किसी तरह Camry चला पाते हैं, उसका बोझ उठाते हैं
यह अभी House में development stage में है, लेकिन इसे bipartisan support मिल रहा है। अपने district representative से संपर्क करके उनसे co-sponsor बनने या पक्ष में vote देने को कह सकते हैं
https://www.cbsnews.com/losangeles/news/california-bills-pro...
https://salazar.house.gov/media/press-releases/salazar-intro...
https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
आपको ACLU जैसी कोई political nonprofit ढूँढनी होगी जो appeals के दौर-दर-दौर का खर्च उठाए, और इस बीच negative press coverage और attention झेलनी होगी
मैं पूरी तरह सहमत हूँ कि Camry class को advocates की जरूरत है, लेकिन modern practice का एक मुख्य principle यह है कि लोगों को अपने-अपने हिसाब से वह contribution level चुनने देना चाहिए जिसे वे संभाल सकते हैं। encourage करें, support करें, हौसला दें, लेकिन shame न करें
वैसे भी यह blog post भर काफी लगती है। किसी इंसान की आवाज़ चुराने के पक्ष में बहुत कम लोग खड़े होंगे, और NYT या deviantart archives को training data के लिए scrape करने के उलट, इसमें intuitively काफी बेचैनी महसूस होती है। public shaming से बड़ा damages award नहीं मिलेगा, लेकिन लगता भी नहीं कि वे यही चाहते थे
अगर बड़े भाषा मॉडल अंतिम remix machine हैं, तो क्या RAG (retrieval-augmented generation) वाला हर व्यक्ति digital DJ है?
डिजिटल जानकारी में अब यह समझना भी मुश्किल है कि चोरी असल में क्या है। कानूनी precedents कम हैं, इसलिए यह intellectual property और copyright law का Wild West जैसा लगता है।
अगर Scarlett Johansson जैसी superstar भी OpenAI द्वारा “Her” persona की नकल करने की कोशिश पर बस एक दर्द भरा पत्र लिख सकती हैं, तो तुलनात्मक रूप से साधारण niche geek क्या कर सकता है?
शायद Geerling की तरह उतना ही दुखी, गुस्से में और निराश होकर बस इतना कह सकता है कि “कृपया नेक नीयत से honor rules का पालन करें।”
ऐसे मामलों में उसी प्रतिष्ठा का इस्तेमाल पलटवार के लिए भी किया जा सकता है। उदाहरण के लिए, कल्पना करना मुश्किल है कि यह सब आखिरकार Elecrow की reputation के लिए अच्छा होगा। अगली बार जब इस कंपनी का नाम दिखेगा, तो याद आएगा, “अरे, वही कंपनी जो लोगों को धोखा देती है,” और यह उनके लिए अच्छा नहीं है।
ज़्यादा चिंता वाली बात यह है कि इसका इस्तेमाल किसी नापसंद व्यक्ति को हटाने के लिए किया जाए। मसलन, सोचिए कि कोई university lecturer ने कुछ गलत नहीं किया, लेकिन grades से नाराज़ कोई student voice cloning का इस्तेमाल करके ऐसा दिखा दे कि lecturer ने नौकरी से निकाले जाने लायक बात कही। अगर voice cloning बहुत बेहतर हो जाए, तो ऐसा व्यक्ति अपना बचाव कैसे करेगा? जब तक यह इतना आम न हो जाए कि recording खुद भरोसेमंद न मानी जाए, तब तक यह मुश्किल होगा।
चोरी के लिए यह शर्त जरूरी है कि पीड़ित चोरी हुई चीज़ के लाभ से वंचित हो। Copy-paste तो बस उस ताश के महल जैसे सिस्टम को उड़ा देता है, जो दावा किए गए meme का इस्तेमाल करने और पैसे न देने पर लोगों को जेल और गरीबी की धमकी देता है।
अगर मैं किसी copyright infringement मामले की jury में हुआ, जहां defendant कोई corporation नहीं बल्कि इंसान हो, तो मैं हर बार jury nullification कर दूंगा।
क्या Eric Schmidt ने हाल ही में यह नहीं कहा था कि अगर सफल हो जाओ तो बाद में lawyers को निपटाने दो, पहले चोरी कर लो?[0,1]
[0] https://x.com/alexeheath/status/1823873344133062680
[1] ठीक-ठीक कहें तो उनका मतलब कानूनी तरीके से चोरी करने से था, लेकिन इसका मतलब क्या है, मुझे नहीं पता।
अगर दुनिया लगातार नीचे से उछलकर और लात मारकर आपको गिराने की कोशिश कर रही है, तो शायद आप गलत जगह खड़े हैं।
जिन objects में
.copy()interface होता है, उनमें चोरी define नहीं होती। फिर भी ध्यान से देखें तो वह अब भी मौजूद है।लोगों को कानून नहीं, अपेक्षाएं adjust करनी चाहिए। Computer ने cashiers की जगह ली, और अब voice acting voice actors की जगह ले रही है। लोकप्रियता का वास्तव में ज्यादा मतलब नहीं है, और अगर सिर्फ लोकप्रिय लोग अपनी नौकरी बचा सकें, तो क्या वह भी अनुचित नहीं है?
AI वाले हिस्से को हटा भी दें, तो भी लगता है कि Jeff की राय को गंभीर रूप से तोड़ा-मरोड़ा गया है या उनकी image का बिना अनुमति इस्तेमाल हुआ है।
आवाज़ का इस्तेमाल करके product के लिए implicit और manipulated endorsement बनाया जा रहा है, जो बहुत गलत लगता है। AI आने से बहुत पहले से ऐसे मामलों से निपटने के लिए कानून रहे होंगे।
बहुत पहले से ऐसे लोग रहे हैं जो आवाज़ों की अच्छी नकल कर सकते हैं, और वे आम तौर पर उस क्षमता का इस्तेमाल comedy या satire के लिए करते थे, दूसरों की राय को गलत ढंग से पेश करने के लिए नहीं। मैं lawyer नहीं हूं, लेकिन यह काफी मजबूत कानूनी आधार पर लगता है, और किसी व्यक्ति को गलत तरीके से represent करना कानूनी रूप से अपेक्षाकृत आसानी से संभाला जा सकता है।
फर्क democratization का है। पहले ऐसी क्षमता वाले लोग बहुत कम थे, अब सिर्फ computer होने पर लगभग कोई भी वैसा कर सकता है। इसलिए enforcement बहुत कठिन हो जाती है, और अगर समाधान के लिए legal action चाहिए, तो Jeff Geerling जैसे व्यक्ति के लिए वह संभवतः वहन करना मुश्किल होगा।
शायद मैं ही अजीब हूं, लेकिन मुझे नहीं लगता कि वह आवाज़ उनसे इतनी ज्यादा मिलती है।
थोड़ी मिलती-जुलती है, लेकिन अलग है; pitch थोड़ा ऊंचा है, nasal quality ज्यादा है और accent भी थोड़ा अलग है।
https://www.youtube.com/watch?v=UMofZIT9FcQ
जिन accent और pitch के फर्क की बात की गई है, वे बस इसलिए हैं क्योंकि यह AI-generated voice है, इंसानी speech नहीं।
शायद उनका तर्क यह होगा कि उन्होंने सुनने में बेहतर आवाज़ों को मिलाकर पर्याप्त अलगपन बना दिया।
समस्या यह है कि likeness/voice misappropriation से बचने के लिए कितना अलग होना काफी है, यह कौन तय करेगा। “generic geek voice का राजा” अत्यधिक समानता का दावा करेगा, और जिस पक्ष पर शक है वह पूरी प्रक्रिया सार्वजनिक नहीं करेगा।
कान से AI voice tune करना भी जल्द संभव हो जाएगा, इसलिए किसी खास क्षेत्र की representative voice होने के कारण training से बाहर रखने की मांग करने से भी सुरक्षा नहीं मिलेगी। Voice authority जैसा विचार काफी dystopian लगता है।
एक छोटे tech YouTuber के रूप में Elecrow से मेरा भी संपर्क रहा है।
मेरी जानकारी में Elecrow ही नहीं, कई कंपनियों के employees को YouTuber के साथ long-term partnership या video collaboration कराने पर reward, promotion या commission मिलता है। शायद किसी ने सोचा हो कि इस क्षेत्र में Jeff का channel काफी मशहूर है, इसलिए Jeff की आवाज़ clone करना smart होगा।
अभी Elecrow के लिए यह निश्चित रूप से अच्छी publicity नहीं है, और मैं यह भी जानना चाहूंगा कि वे इसे जानबूझकर किया गया मानेंगे या नहीं।
यह सोच कि चुराई गई आवाज़ का टोन अहम होगा, AI निवेश के सबसे संकीर्ण-दृष्टि वाले हिस्सों में से है। यह Hollywood-स्टाइल की “कभी कुछ नया मत बनाओ” वाली सोच से चल रहा है
करीब 5 साल बाद AI आवाज़ें कस्टमाइज़्ड होंगी और असली इंसानों से भी सुनने में बेहतर लगेंगी। वे vocal cord fatigue से सीमित नहीं होंगी, मनचाहे तरीके से बदली जा सकेंगी, और user engagement को मापकर आसानी से सुधारी जा सकेंगी
आगे चलकर voice output को fine-tune करना और engagement देखना ही मुख्य तरीका बनेगा
उन्होंने खास तौर पर उसकी आवाज़ इसी वजह से चुनी
AI आवाज़ सौंदर्य के लिहाज़ से अलग न पहचानी जा सके या ज़्यादा पसंद की जाए, फिर भी उसमें प्रतिष्ठा या प्रामाणिकता नहीं हो सकती। वे स्वभाव से दुर्लभ हैं, इसलिए उनकी कीमत है। बल्कि generic, commoditized घटिया content के समुद्र में unique brand value वाले व्यक्ति की मांग घटने के बजाय बढ़ सकती है। आजकल विज्ञापनों में influencers के बड़ा पैसा कमाने की वजह भी यही है
“training” कह रहे हैं
अभी भी यह 30 सेकंड की voice input से शुरू होने वाली कई voice cloning techniques देता है। 30 सेकंड वाला clone target voice से कुछ हद तक मिलता-जुलता है, लेकिन बिल्कुल वैसा नहीं; कई घंटों की audio डालें तो असली इंसान जैसा सुनाई देता है। ऊपर से कुछ parameters से आवाज़ adjust की जा सकती है, या सिर्फ parameter definitions से नई आवाज़ भी बनाई जा सकती है
वीडियो की आवाज़ quality देखकर कुछ सेकंड की input से बनाई गई “instant clone” voice हो सकती है। ज़्यादा advanced clone के लिए अपनी ही आवाज़ होने का proof चाहिए
[1] https://elevenlabs.io
ऐसी स्थिति में companies उनकी आवाज़ें खरीदना चाह सकती हैं। बात सिर्फ सुनने में अच्छी लगने की नहीं, परिचितता की बड़ी value है। उदाहरण के लिए ElevenLabs ने दिवंगत लोगों के voice rights उनके परिवारों से खरीदे भी हैं
लेकिन ऐसी nostalgia वाली खास context को छोड़ दें, तो शुरू से synthetic voice न बनाने की कोई वजह मुझे समझ नहीं आती
जब तक कोई किसी दूसरे व्यक्ति के अपराध कबूल करने जैसा recording बना न दे और वह court में इस्तेमाल न हो जाए, तब तक सब इसे मज़ाक समझेंगे
AI में मुझे यही हिस्सा नापसंद है
लेकिन अगर video और audio evidence स्वीकार्य नहीं रहे, तो हम करें क्या
हालांकि दोनों ही मामलों में यह असली अदालत से ज़्यादा public opinion की अदालत में महत्वपूर्ण लगता है
नई उपयोगी technology का मूल्यांकन करते समय evidence formats को सुरक्षित रखना मुख्य चिंता हो, ऐसा मानना मुश्किल है
voice cloning tools सैकड़ों में हैं, इसलिए cloned voice content आना स्वाभाविक है
यह किसी की image बिना अनुमति इस्तेमाल करने जैसा है। platforms और operations teams के पास report कर हटाने की प्रक्रिया पहले से है। voice के लिए भी कुछ वैसा ही चाहिए लगता है