1 पॉइंट द्वारा GN⁺ 2024-09-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Jeff Geerling ने Elecrow के YouTube promotional tutorial में अपनी आवाज़ से बहुत मिलती-जुलती narration सुनी, लेकिन उन्होंने वे वाक्य कभी खुद नहीं बोले थे
  • समस्या वाली आवाज़ ESP32 और RP2040 से जुड़ी कई video series में इस्तेमाल हुई लगती है, और Jeff को शक है कि उनके YouTube videos का इस्तेमाल AI voice cloning tool में किया गया हो सकता है
  • Elecrow एक ऐसी कंपनी है जिसके CrowPi 2 का Jeff ने पहले review किया था और जो Raspberry Pi accessories और electronics बनाती है, इसलिए यह मामला किसी साधारण बाहरी vendor से विवाद की तुलना में रिश्ते के संदर्भ में अधिक जटिल है
  • बिना अनुमति AI voice cloning को लेकर स्पष्ट कानूनी precedent साफ नहीं है, लेकिन commercial work में consent के बिना किसी और की आवाज़ इस्तेमाल करने का मुद्दा Midler vs. Ford मामले से जुड़ता है
  • Jeff ने takedown request या legal action से पहले Elecrow को email करके स्पष्टीकरण और videos हटाने की मांग की, और उनका मानना है कि कंपनियों को voice actors hire करके या formal collaboration के जरिए ऐसे मामलों को हल करना चाहिए

Elecrow video में Jeff Geerling जैसी सुनाई दी आवाज़

  • Jeff Geerling ने Elecrow की एक YouTube clip सुनी और पाया कि narration उनकी अपनी आवाज़ से काफी परिचित-सी लग रही थी
  • यह video Jeff Geerling channel का नहीं, बल्कि Elecrow का है, और Jeff ने उसके वाक्य कभी नहीं बोले
  • किसी ने Elecrow video का link email से भेजकर बताया कि sound अजीब लग रहा है, और Jeff को लगा कि उसी topic को cover करने वाले उनके channel की वजह से कुछ viewers ने सोचा होगा कि उन्होंने Elecrow video में voice appearance के लिए सहमति दी है
  • Elecrow electronics और Raspberry Pi accessories बनाने वाली कंपनी है, और Jeff ने पहले Elecrow के CrowPi 2 का review किया था
  • पहले Elecrow के साथ कोई खराब संबंध नहीं थे, इसलिए Jeff अभी 100% निश्चित नहीं हैं कि यह जानबूझकर किया गया था या नहीं
  • इस लेख के video version में Elecrow clip और Jeff की natural voice की सीधे तुलना की जा सकती है

AI voice cloning का संदेह और प्रतिक्रिया

  • Jeff यह मानते हुए कि इसे prove करना मुश्किल है, कहते हैं कि संभावना ज्यादा है कि Elecrow ने उनके YouTube videos को किसी AI voice cloning tool में डालकर उस आवाज़ से कई promotional tutorials narrate कराए
    • उदाहरण के तौर पर वे ESP32 series और RP2040 series का जिक्र करते हैं
  • OpenAI द्वारा Scarlett Johansson की आवाज़ को लगभग clone करने की घटना के बाद उम्मीद थी कि कंपनियां product demos या tutorials के लिए AI voice के इस्तेमाल में ज्यादा सावधान होंगी, लेकिन यह मामला उस उम्मीद के उलट है
  • unauthorized AI voice cloning पर Jeff की जानकारी में कोई स्पष्ट legal precedent नहीं है, लेकिन commercial work में consent के बिना किसी और की आवाज़ इस्तेमाल नहीं की जानी चाहिए—इसके precedent के तौर पर वे Midler vs. Ford का उल्लेख करते हैं
  • lawyers के जरिए जवाब देना महंगा पड़ता है, और यह भी निश्चित नहीं है कि non-consensual voice cloning YouTube Terms of Service का उल्लंघन है या नहीं
  • Jeff की मांग स्पष्ट है
    • किसी और की आवाज़ या likeness चुराकर products या videos में नहीं लगानी चाहिए
    • brands को voice actors hire करने चाहिए या content creators को pay करके collaboration करना चाहिए
  • Jeff ने Elecrow को email भेजकर अनुरोध किया कि उनकी आवाज़ जैसी AI voice वाली कम-से-कम 2 series हटाई जाएं
    • उन्होंने पूछा कि क्या वह आवाज़ जानबूझकर उनकी आवाज़ जैसी बनाई गई थी
    • उन्होंने यह भी पुष्टि मांगी कि क्या उनकी videos या audio content से voice को train किया गया था
  • YouTube takedown request या legal action से पहले वे email से शुरुआत करना चाहते थे, और पहले कोई समस्या न रही होने के कारण honest mistake की संभावना भी खुली रखी
  • हालांकि यह साफ है कि Elecrow Jeff के channel को जानता था
    • 2020 से अब तक Elecrow के 5 marketing staff के साथ 43 से अधिक emails का आदान-प्रदान हुआ है
    • उनमें से 22 emails इसी साल की हैं
    • 2 अप्रैल 2024 को Elecrow के marketing staff ने paid partnership पर चर्चा करना चाहने का email भेजा था
  • 23 सितंबर के update में Elecrow CEO ने जवाब दिया, और Jeff ने उस response और AI voice cloning पर अपने विचारों के साथ follow-up post प्रकाशित की

1 टिप्पणियां

 
GN⁺ 2024-09-23
Hacker News की राय
  • AI को लेकर डर सबके अलग-अलग हो सकते हैं, लेकिन खास तौर पर डरावना मामला यह है कि AI से किसी के ईशनिंदा करने जैसा फर्जी बयान गढ़ दिया जाए
    मेरे देश में, अगर कुछ बहुत मामूली-सा अपमान भी लगता है—चाहे असली हो या कल्पित—तो ईशनिंदा पर lynch mob खड़ा हो जाता है। भीड़ आकर पीट-पीटकर मार देती है और शव जला देती है; फिर परिवार छिपकर वीडियो संदेश जारी करता है कि वे पीड़ित से संबंध नहीं रखते और भीड़ को माफ करते हैं, जबकि भीड़ मिठाइयाँ बाँटती है
    यह AI के आसानी से उपलब्ध होने से पहले भी ऐसा ही था। आप इसे “पिछड़े देश की बात” कह सकते हैं, लेकिन यह वहीं रुकने वाला नहीं, फैलेगा। किसी शिशु के हाथ में चाकू देकर फिर उसे चाकू मारने का दोष नहीं दिया जा सकता
    प्रतिष्ठा, सुरक्षा, कॉपीराइट से अलग, यह लोगों की जान ले सकता है, और इसे नियंत्रित करने का कोई औजार नहीं है
    https://x.com/search?q=blasphemy
    भविष्य से डर लगता है

    • सहज सोच के उलट, मुझे लगता है जवाब यह है कि ऐसे AI टूल्स को और खुला और सुलभ बनाया जाए
      अगर वे सीमित, regulated या पहुँच में मुश्किल बने रहते हैं, तो लोग वीडियो और recording को अब भी छेड़छाड़ से परे मानते रहेंगे। लेकिन अगर $1 वाले app से voice cloning आसान और मज़ेदार prank बन जाए, और teenagers prank calls करके देखें, तो जल्द ही यह बात आम लोगों की समझ में बैठ सकती है
      पिछले हफ्ते मेरी 70 वर्षीय माँ ने पूछा कि क्या उन्हें अपना voicemail greeting मिटा देना चाहिए। उनका कहना था कि कोई उससे उनकी आवाज़ चुरा सकता है न; शायद Fox जैसे किसी चैनल पर सुना होगा, यह सुनकर मैं हैरान रह गया
      कुछ साल कठिन होंगे, लेकिन उम्मीद है जल्दी निकल जाएँगे
    • उस स्थिति में समस्या AI नहीं, वह देश है
    • “अगर AI से किसी को ईशनिंदा करते हुए दिखा दिया जाए तो?”—इस विचार की वजह से मैं Dang को खुला पत्र लिखकर अपना account delete करने के लिए कहने पर विचार कर रहा था
      अभी अगर किसी user के काफी comments हैं, तो correlation analysis से उसकी anonymity हटाना संभव होने की काफी संभावना है। 100% सही न भी हो, तो भी writing style चुराई जा सकती है। यह शायद जरूरत से ज्यादा सावधानी हो, लेकिन इसकी कोई गारंटी नहीं कि हम dark forest में नहीं जा रहे हैं, और यह मानने की वजहें भी हैं कि हम उसी दिशा में बढ़ रहे हैं
      साथ ही मैं यह भी सोचता हूँ कि शायद छाया में पीछे न हटना ही हार न मानने वाला रवैया है
    • निजी तौर पर सबसे अच्छा यही लगता है कि पहले लगभग 5 साल ऐसे मामलों से बचा जाए; उसके बाद यह इतना व्यापक और आसान हो जाएगा कि हर कोई देखे गए वीडियो पर शक करने लगेगा
      यह Reddit जैसे social media जैसा है, जहाँ कुछ वर्षों तक “culprit ढूँढना” या “doxxing” चलता रहा, फिर operators को समझ आया कि online mobs अक्सर गलत होती हैं और आम तौर पर इसे ban कर दिया गया
      लेकिन कानून पारित होने तक, या जब तक यह common sense न बन जाए कि किसी वीडियो के fake होने की संभावना असली से ज्यादा है, बहुत-से लोग नुकसान झेलेंगे। इसमें 5 साल से ज्यादा भी लग सकते हैं, और समस्या यह भी है कि कानून आम तौर पर तभी बनते हैं जब किसी को नुकसान साबित हो चुका होता है
    • तो फिर शायद AI से lynch mob के पूरे leadership का ईशनिंदा करते हुए वीडियो बनाना पड़े, ताकि वे इसे अंदर ही अंदर सुलझा लें
  • समझ नहीं आता कि AI इस्तेमाल करने से Midler vs. Ford precedent से बच निकलने की वजह कैसे मिलती है
    उलटे, अगर किसी दूसरे voice actor से आवाज़ की नकल करवाने के बजाय AI से आवाज़ clone की गई हो, तो defence argument और कमजोर दिखता है

    • वह precedent सिर्फ Ninth Circuit Court of Appeals के jurisdiction वाले राज्यों पर लागू होता है
      कई अन्य राज्यों में तथाकथित publicity rights से जुड़े कानून और precedents अलग-अलग बिखरे हुए हैं। ऐसे concept को मान्यता देनी चाहिए या नहीं, उसकी सीमाएँ कैसे तय हों—इन बातों पर राज्यों के बीच कोई universal consensus नहीं है
    • उस मामले में court ने अपना फैसला स्पष्ट रूप से professional singer की आवाज़ तक सीमित किया था
      “...यह observation गायन, खासकर प्रसिद्ध singer के गायन पर लागू होता है। singer गीत में खुद को प्रकट करती है। उसकी आवाज़ का impersonation उसकी पहचान की piracy है...”
      “हमें यह तय करने की जरूरत नहीं है, और हम यह तय नहीं करते, कि product advertising के लिए हर तरह की voice imitation मुकदमे योग्य है। हम सिर्फ यह मानते हैं कि जब widely known professional singer की distinctive voice को product बेचने के लिए जानबूझकर imitate किया जाता है, तो seller ने वह चीज़ अपने लिए ले ली है जो उसकी नहीं थी...”
    • असली समाधान यह है कि शुरुआत से ही voice actor को दोबारा इस्तेमाल किए बिना बाहर कर दिया जाए
  • precedent की ओर इशारा करने के लिए धन्यवाद, लेकिन precedent सिर्फ शुरुआत है; आखिरकार हमें precedent से आगे जाने वाले principles बनाने होंगे
    जब technology अभूतपूर्व क्षमता लाती है, तो समाज को ऐसी boundaries खींचनी होंगी जिनसे सिस्टम लोगों के खिलाफ नहीं, उनके पक्ष में काम करे; वरना हम उस दुनिया के और करीब चले जाएँगे जहाँ ताकतवर जो चाहें करते हैं और कमजोर, या वे लोग जो बस किसी तरह Camry चला पाते हैं, उसका बोझ उठाते हैं

    • California ने हाल ही में संबंधित bill लागू किया है, और यह एक शुरुआत है। Congress भी “No Artificial Intelligence Fake Replicas And Unauthorized Duplications Act” पर काम कर रही है
      यह अभी House में development stage में है, लेकिन इसे bipartisan support मिल रहा है। अपने district representative से संपर्क करके उनसे co-sponsor बनने या पक्ष में vote देने को कह सकते हैं
      https://www.cbsnews.com/losangeles/news/california-bills-pro...
      https://salazar.house.gov/media/press-releases/salazar-intro...
      https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
    • precedent-setting lawsuit का पक्षकार बनना न मज़ेदार होगा, न आसान
      आपको ACLU जैसी कोई political nonprofit ढूँढनी होगी जो appeals के दौर-दर-दौर का खर्च उठाए, और इस बीच negative press coverage और attention झेलनी होगी
      मैं पूरी तरह सहमत हूँ कि Camry class को advocates की जरूरत है, लेकिन modern practice का एक मुख्य principle यह है कि लोगों को अपने-अपने हिसाब से वह contribution level चुनने देना चाहिए जिसे वे संभाल सकते हैं। encourage करें, support करें, हौसला दें, लेकिन shame न करें
      वैसे भी यह blog post भर काफी लगती है। किसी इंसान की आवाज़ चुराने के पक्ष में बहुत कम लोग खड़े होंगे, और NYT या deviantart archives को training data के लिए scrape करने के उलट, इसमें intuitively काफी बेचैनी महसूस होती है। public shaming से बड़ा damages award नहीं मिलेगा, लेकिन लगता भी नहीं कि वे यही चाहते थे
  • अगर बड़े भाषा मॉडल अंतिम remix machine हैं, तो क्या RAG (retrieval-augmented generation) वाला हर व्यक्ति digital DJ है?
    डिजिटल जानकारी में अब यह समझना भी मुश्किल है कि चोरी असल में क्या है। कानूनी precedents कम हैं, इसलिए यह intellectual property और copyright law का Wild West जैसा लगता है।
    अगर Scarlett Johansson जैसी superstar भी OpenAI द्वारा “Her” persona की नकल करने की कोशिश पर बस एक दर्द भरा पत्र लिख सकती हैं, तो तुलनात्मक रूप से साधारण niche geek क्या कर सकता है?
    शायद Geerling की तरह उतना ही दुखी, गुस्से में और निराश होकर बस इतना कह सकता है कि “कृपया नेक नीयत से honor rules का पालन करें।”

    • ऐसा दुरुपयोग तभी दिलचस्प बनता है जब चुराने लायक प्रतिष्ठा हो।
      ऐसे मामलों में उसी प्रतिष्ठा का इस्तेमाल पलटवार के लिए भी किया जा सकता है। उदाहरण के लिए, कल्पना करना मुश्किल है कि यह सब आखिरकार Elecrow की reputation के लिए अच्छा होगा। अगली बार जब इस कंपनी का नाम दिखेगा, तो याद आएगा, “अरे, वही कंपनी जो लोगों को धोखा देती है,” और यह उनके लिए अच्छा नहीं है।
      ज़्यादा चिंता वाली बात यह है कि इसका इस्तेमाल किसी नापसंद व्यक्ति को हटाने के लिए किया जाए। मसलन, सोचिए कि कोई university lecturer ने कुछ गलत नहीं किया, लेकिन grades से नाराज़ कोई student voice cloning का इस्तेमाल करके ऐसा दिखा दे कि lecturer ने नौकरी से निकाले जाने लायक बात कही। अगर voice cloning बहुत बेहतर हो जाए, तो ऐसा व्यक्ति अपना बचाव कैसे करेगा? जब तक यह इतना आम न हो जाए कि recording खुद भरोसेमंद न मानी जाए, तब तक यह मुश्किल होगा।
    • चोरी जैसी कोई चीज़ नहीं है; बस letters of marque हैं, जो लोगों को उन लोगों को लूटने की अनुमति देते हैं जिन्होंने पहले दावा किए गए memes और meme complexes का इस्तेमाल किया लेकिन पैसे नहीं दिए।
      चोरी के लिए यह शर्त जरूरी है कि पीड़ित चोरी हुई चीज़ के लाभ से वंचित हो। Copy-paste तो बस उस ताश के महल जैसे सिस्टम को उड़ा देता है, जो दावा किए गए meme का इस्तेमाल करने और पैसे न देने पर लोगों को जेल और गरीबी की धमकी देता है।
      अगर मैं किसी copyright infringement मामले की jury में हुआ, जहां defendant कोई corporation नहीं बल्कि इंसान हो, तो मैं हर बार jury nullification कर दूंगा।
    • लगता है यह सिर्फ digital समस्या नहीं है।
      क्या Eric Schmidt ने हाल ही में यह नहीं कहा था कि अगर सफल हो जाओ तो बाद में lawyers को निपटाने दो, पहले चोरी कर लो?[0,1]
      [0] https://x.com/alexeheath/status/1823873344133062680
      [1] ठीक-ठीक कहें तो उनका मतलब कानूनी तरीके से चोरी करने से था, लेकिन इसका मतलब क्या है, मुझे नहीं पता।
    • Copyright में हमेशा किसी न किसी तरह का Wild West रहा है।
      अगर दुनिया लगातार नीचे से उछलकर और लात मारकर आपको गिराने की कोशिश कर रही है, तो शायद आप गलत जगह खड़े हैं।
    • “चोरी क्या है” वाली बात को कई चरणों से घसीटा गया है, लेकिन वह सिर्फ इच्छा का प्रक्षेपण है।
      जिन objects में .copy() interface होता है, उनमें चोरी define नहीं होती। फिर भी ध्यान से देखें तो वह अब भी मौजूद है।
      लोगों को कानून नहीं, अपेक्षाएं adjust करनी चाहिए। Computer ने cashiers की जगह ली, और अब voice acting voice actors की जगह ले रही है। लोकप्रियता का वास्तव में ज्यादा मतलब नहीं है, और अगर सिर्फ लोकप्रिय लोग अपनी नौकरी बचा सकें, तो क्या वह भी अनुचित नहीं है?
  • AI वाले हिस्से को हटा भी दें, तो भी लगता है कि Jeff की राय को गंभीर रूप से तोड़ा-मरोड़ा गया है या उनकी image का बिना अनुमति इस्तेमाल हुआ है।
    आवाज़ का इस्तेमाल करके product के लिए implicit और manipulated endorsement बनाया जा रहा है, जो बहुत गलत लगता है। AI आने से बहुत पहले से ऐसे मामलों से निपटने के लिए कानून रहे होंगे।

    • हाल में मेरे मन में भी ऐसे ही विचार आए हैं।
      बहुत पहले से ऐसे लोग रहे हैं जो आवाज़ों की अच्छी नकल कर सकते हैं, और वे आम तौर पर उस क्षमता का इस्तेमाल comedy या satire के लिए करते थे, दूसरों की राय को गलत ढंग से पेश करने के लिए नहीं। मैं lawyer नहीं हूं, लेकिन यह काफी मजबूत कानूनी आधार पर लगता है, और किसी व्यक्ति को गलत तरीके से represent करना कानूनी रूप से अपेक्षाकृत आसानी से संभाला जा सकता है।
      फर्क democratization का है। पहले ऐसी क्षमता वाले लोग बहुत कम थे, अब सिर्फ computer होने पर लगभग कोई भी वैसा कर सकता है। इसलिए enforcement बहुत कठिन हो जाती है, और अगर समाधान के लिए legal action चाहिए, तो Jeff Geerling जैसे व्यक्ति के लिए वह संभवतः वहन करना मुश्किल होगा।
  • शायद मैं ही अजीब हूं, लेकिन मुझे नहीं लगता कि वह आवाज़ उनसे इतनी ज्यादा मिलती है।
    थोड़ी मिलती-जुलती है, लेकिन अलग है; pitch थोड़ा ऊंचा है, nasal quality ज्यादा है और accent भी थोड़ा अलग है।

    • जिसने उन्हें पहले कभी नहीं सुना है, उसके नज़रिए से इस video के शुरुआती कुछ seconds ही काफी हैं कि यह अधूरी AI-cloned voice जैसी लगती है।
      https://www.youtube.com/watch?v=UMofZIT9FcQ
    • उनकी सारी videos और live streams देखने वाले के रूप में, मुझे लगता है कि यह सचमुच काफी मिलती-जुलती है।
    • यह साफ है कि इसे उनकी आवाज़ पर train किया गया है।
      जिन accent और pitch के फर्क की बात की गई है, वे बस इसलिए हैं क्योंकि यह AI-generated voice है, इंसानी speech नहीं।
    • मैंने उनकी सैकड़ों videos देखी हैं, और यह सचमुच उनसे बहुत ज्यादा मिलती-जुलती सुनाई देती है।
    • जिन tools को मैं जानता हूं, उनमें अगर आप कई तरह की voice clips जोड़ते हैं जिन्हें मिलाना चाहते हैं, तो वे उन्हें इस हद तक mix करते हैं कि उसके सभी elements को जानना या control करना संभव नहीं रहता, और system की randomness भी जुड़ जाती है।
      शायद उनका तर्क यह होगा कि उन्होंने सुनने में बेहतर आवाज़ों को मिलाकर पर्याप्त अलगपन बना दिया।
      समस्या यह है कि likeness/voice misappropriation से बचने के लिए कितना अलग होना काफी है, यह कौन तय करेगा। “generic geek voice का राजा” अत्यधिक समानता का दावा करेगा, और जिस पक्ष पर शक है वह पूरी प्रक्रिया सार्वजनिक नहीं करेगा।
      कान से AI voice tune करना भी जल्द संभव हो जाएगा, इसलिए किसी खास क्षेत्र की representative voice होने के कारण training से बाहर रखने की मांग करने से भी सुरक्षा नहीं मिलेगी। Voice authority जैसा विचार काफी dystopian लगता है।
  • एक छोटे tech YouTuber के रूप में Elecrow से मेरा भी संपर्क रहा है।
    मेरी जानकारी में Elecrow ही नहीं, कई कंपनियों के employees को YouTuber के साथ long-term partnership या video collaboration कराने पर reward, promotion या commission मिलता है। शायद किसी ने सोचा हो कि इस क्षेत्र में Jeff का channel काफी मशहूर है, इसलिए Jeff की आवाज़ clone करना smart होगा।
    अभी Elecrow के लिए यह निश्चित रूप से अच्छी publicity नहीं है, और मैं यह भी जानना चाहूंगा कि वे इसे जानबूझकर किया गया मानेंगे या नहीं।

  • यह सोच कि चुराई गई आवाज़ का टोन अहम होगा, AI निवेश के सबसे संकीर्ण-दृष्टि वाले हिस्सों में से है। यह Hollywood-स्टाइल की “कभी कुछ नया मत बनाओ” वाली सोच से चल रहा है
    करीब 5 साल बाद AI आवाज़ें कस्टमाइज़्ड होंगी और असली इंसानों से भी सुनने में बेहतर लगेंगी। वे vocal cord fatigue से सीमित नहीं होंगी, मनचाहे तरीके से बदली जा सकेंगी, और user engagement को मापकर आसानी से सुधारी जा सकेंगी
    आगे चलकर voice output को fine-tune करना और engagement देखना ही मुख्य तरीका बनेगा

    • यहाँ चोरी आवाज़ से ज़्यादा लेखक की समानता, YouTube टेक क्षेत्र में बनी उसकी प्रतिष्ठा और उन commercial products पर भरोसा है जिनकी वह पहले review कर चुका था
      उन्होंने खास तौर पर उसकी आवाज़ इसी वजह से चुनी
      AI आवाज़ सौंदर्य के लिहाज़ से अलग न पहचानी जा सके या ज़्यादा पसंद की जाए, फिर भी उसमें प्रतिष्ठा या प्रामाणिकता नहीं हो सकती। वे स्वभाव से दुर्लभ हैं, इसलिए उनकी कीमत है। बल्कि generic, commoditized घटिया content के समुद्र में unique brand value वाले व्यक्ति की मांग घटने के बजाय बढ़ सकती है। आजकल विज्ञापनों में influencers के बड़ा पैसा कमाने की वजह भी यही है
    • “quality assurance और training purposes के लिए यह call monitor या record की जा सकती है”
      “training” कह रहे हैं
    • पक्का नहीं कि 5 साल भी लगेंगे। क्या elevenlabs टेस्ट किया है?
      अभी भी यह 30 सेकंड की voice input से शुरू होने वाली कई voice cloning techniques देता है। 30 सेकंड वाला clone target voice से कुछ हद तक मिलता-जुलता है, लेकिन बिल्कुल वैसा नहीं; कई घंटों की audio डालें तो असली इंसान जैसा सुनाई देता है। ऊपर से कुछ parameters से आवाज़ adjust की जा सकती है, या सिर्फ parameter definitions से नई आवाज़ भी बनाई जा सकती है
      वीडियो की आवाज़ quality देखकर कुछ सेकंड की input से बनाई गई “instant clone” voice हो सकती है। ज़्यादा advanced clone के लिए अपनी ही आवाज़ होने का proof चाहिए
      [1] https://elevenlabs.io
    • मैं लंबे समय के लिए इंसानों पर bet कर रहा हूँ, और लगता है AI-generated content के हद से ज़्यादा फैलने की प्रतिक्रिया में बहुत से लोग अपूर्णता को पसंद करने लगेंगे
    • हमारे देश में dubbing बहुत है, और ऐसे dubbing actors हैं जिन्हें लाखों लोग animation वगैरह में सुनते हुए बड़े हुए हैं
      ऐसी स्थिति में companies उनकी आवाज़ें खरीदना चाह सकती हैं। बात सिर्फ सुनने में अच्छी लगने की नहीं, परिचितता की बड़ी value है। उदाहरण के लिए ElevenLabs ने दिवंगत लोगों के voice rights उनके परिवारों से खरीदे भी हैं
      लेकिन ऐसी nostalgia वाली खास context को छोड़ दें, तो शुरू से synthetic voice न बनाने की कोई वजह मुझे समझ नहीं आती
  • जब तक कोई किसी दूसरे व्यक्ति के अपराध कबूल करने जैसा recording बना न दे और वह court में इस्तेमाल न हो जाए, तब तक सब इसे मज़ाक समझेंगे
    AI में मुझे यही हिस्सा नापसंद है

    • कुछ साल खराब होंगे, लेकिन क्या कभी ऐसा नहीं होगा कि यह इतना आसानी से manipulate किया जा सकेगा कि court evidence के तौर पर स्वीकार्य नहीं रहेगा?
      लेकिन अगर video और audio evidence स्वीकार्य नहीं रहे, तो हम करें क्या
    • यह उससे भी बुरा है। लोग अपने खिलाफ असली voice recordings को भी fake बताना शुरू कर देंगे
      हालांकि दोनों ही मामलों में यह असली अदालत से ज़्यादा public opinion की अदालत में महत्वपूर्ण लगता है
    • अगर आप image editors से भी नफरत नहीं करते, तो यह तर्क मुझे ठीक से समझ नहीं आता
      नई उपयोगी technology का मूल्यांकन करते समय evidence formats को सुरक्षित रखना मुख्य चिंता हो, ऐसा मानना मुश्किल है
  • voice cloning tools सैकड़ों में हैं, इसलिए cloned voice content आना स्वाभाविक है
    यह किसी की image बिना अनुमति इस्तेमाल करने जैसा है। platforms और operations teams के पास report कर हटाने की प्रक्रिया पहले से है। voice के लिए भी कुछ वैसा ही चाहिए लगता है