Generative AI पर और बड़ा copyright दबाव आने वाला है

(garymarcus.substack.com)

2 पॉइंट द्वारा GN⁺ 2023-12-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें

New York Times की OpenAI के खिलाफ lawsuit के बाद, Generative AI को training और output चरणों में copyright infringement की जिम्मेदारी कितनी उठानी चाहिए यह और बड़ा मुद्दा बनकर उभरा है
lawsuit का मूल मुद्दा यह है कि chatbot text को लगभग जस का तस दोबारा बना सकता है, और Marcus तथा Reid Southen के experiment दिखाते हैं कि DALL-E भी images में वैसी ही repetition बना सकता है
proper nouns को block करने जैसे safeguards होने के बावजूद, user ऐसे prompts से जिनमें character या film के नाम सीधे नहीं लिखे गए हों, SpongeBob SquarePants, RoboCop और video game characters जैसे results पा सकते हैं
मौजूदा systems training sources और generated outputs की source information तथा infringement की संभावना users को नहीं बताते, इसलिए user अनजाने में infringing output बना सकता है
Marcus का मानना है कि जब तक source tracking वाली नई architecture नहीं आती, infringement विवाद जारी रहेंगे, और New York Times lawsuit और भी lawsuits की शुरुआत हो सकता है

New York Times lawsuit और image repetition experiment

New York Times द्वारा OpenAI के खिलाफ lawsuit दायर किए जाने के समय Gary Marcus और film industry concept artist Reid Southen ने मिलकर एक experiment किया
- Southen को Marvel, DC, Matrix Resurrections, Hunger Games आदि से जुड़ा experience रखने वाले व्यक्ति के रूप में पेश किया गया है
- पूरी report अगले हफ्ते जारी होने वाली है, और कहा गया है कि 3 जनवरी को IEEE Spectrum में इसे अतिरिक्त रूप से cover किया जाएगा
lawsuit का मुख्य मुद्दा यह है कि OpenAI chatbot text को लगभग original text जैसा का तैसा reproduce कर सकता है
Marcus और Southen के experiment में कहा गया कि Bing के जरिए OpenAI के image software का उपयोग करने पर भी images की original जैसी या बहुत करीबी repetition संभव थी

safeguards जिनसे similar generation नहीं रुकती

माना जाता है कि DALL-E में proper nouns और जानबूझकर किए गए infringement attempts को कुछ हद तक रोकने वाले safeguards हैं, लेकिन कहा गया है कि ये reliably काम नहीं करते
infringement की संभावना तब भी पैदा हो सकती है जब user सीधे infringement का इरादा न रखता हो या character/film names का उल्लेख न करे
- कहा गया है कि SpongeBob SquarePants का उल्लेख न करने वाले छोटे prompt से संबंधित result आ सकता है
- RoboCop का उल्लेख न होने वाली स्थिति, video game character, और trademark infringement की संभावना वाले results को भी examples के रूप में दिया गया
- कहा गया है कि X user Blanket_Man01 और A16Z की Justine Moore ने भी independently similar phenomenon पाया

source अज्ञात रहने वाला black-box problem

Marcus के अनुसार Generative AI की core problem training sources और generated outputs के sources users को दिखाई न देने वाली structure में है
- DALL-E और ChatGPT जैसे systems copyright material पर trained हैं
- OpenAI transparent तरीके से नहीं बताता कि training किस पर की गई
- Generative AI systems copyright infringe कर सकने वाली material बना सकते हैं
- ऐसे result आने पर system user को inform नहीं करता
- generated image की source information भी provide नहीं की जाती
- user को पता नहीं हो सकता कि उसने जो image बनाई है वह infringing है या नहीं
मौजूदा DALL-E और ChatGPT जैसे systems काफी हद तक black box जैसे हैं, और माना जाता है कि मौजूदा configuration में source material के लिए attribution देना मुश्किल है
- कुछ companies related research कर रही हैं, लेकिन Marcus ने कहा कि अभी कोई convincing solution ज्ञात नहीं है
- उनका मानना है कि generated text या images के sources को reliably track करने वाली नई architecture आने तक infringement जारी रह सकता है
- अच्छे system को users को source list देनी चाहिए, लेकिन कहा गया है कि मौजूदा systems ऐसा नहीं करते

lawsuits का विस्तार और Microsoft का risk

New York Times lawsuit कई lawsuits में पहला case होने की संभावना अधिक मानी जा रही है
- Marcus ने X पर जो poll चलाया, उसमें majority ने settlement की उम्मीद जताई
- settlement amount को लेकर कई responses ने 100 million dollars से अधिक का अनुमान लगाया, और 20% ने 1 billion dollars का अनुमान लगाया
- कहा गया है कि film studios, video game companies और अन्य newspapers तक मामला फैलने पर amount का scale बड़ा हो सकता है
चूंकि examples Bing में DALL-E के जरिए बने थे, इसलिए माना जा रहा है कि Microsoft भी liability risk में है

1 टिप्पणियां

GN⁺ 2023-12-31

Hacker News की राय

लोग इस कॉर्पोरेट नैरेटिव को बहुत आसानी से मान ले रहे हैं कि कोई वास्तव में ऐसी चीज़ों का मालिक हो सकता है
Snow White और Cinderella की कहानियों का सच में मालिक कौन है? ये कहानियाँ Disney से नहीं निकलीं, बल्कि पीढ़ियों से चली आ रही लोककथाओं का हिस्सा हैं, और Disney की सफलता भी कुछ हद तक उन मौजूदा कथाओं के रूपांतरण पर आधारित है जिन्हें समुदायों ने सदियों तक साझा और परिवर्तित किया है
यह चर्चा सिर्फ AI की तकनीकी बारीकियों या copyright के कानूनी तर्क की नहीं, बल्कि हमारी साझा संस्कृति की गहरी जड़ों को समझने की होनी चाहिए
संस्कृति मूल रूप से साझी संपत्ति है, और सामूहिक कहानियों व पुनर्व्याख्याओं के जरिए विकसित और बढ़ती है
generative AI और copyright infringement पर चर्चा संस्कृति के विकास के इस मूल तत्व को नजरअंदाज करती लगती है। algorithm नया हो सकता है, लेकिन कहानियों की फिर से कल्पना करना और उन्हें फिर से इस्तेमाल करना मानवता जितना ही पुराना है
Disney ने मौजूदा संस्कृति और पुरानी कहानियों के ऊपर “House of Mouse” खड़ा कर दिया, और अब पुराने व अजीब copyright के हिसाब से सांस्कृतिक अभिव्यक्ति के tools को सीमित करने की बात करे—यह मुझे सचमुच बेतुका लगता है
- यह तर्क देने के लिए आपको ऐसा उदाहरण चुनना होगा जो पहले से public domain में न हो। Disney सिर्फ अपनी व्याख्या का मालिक है, और शायद उन धुंधले derivative क्षेत्रों पर दावा कर सकता है जिन पर वह अदालत को मना सके, लेकिन Snow White और Cinderella की पूरी कहानियों का मालिक नहीं है
  article की image में काफी हाल की चीज़ें इस्तेमाल हुई हैं, और इसमें कोई शक भी नहीं कि वह Mario है या Coca Cola। अगर Nintendo और Coca Cola ने joint promotion किया होता, तो निकली हुई image को बिल्कुल वैसा ही मान लेने लायक होता
  अगर बात Mario जैसा दिखने वाले कपड़े पहने एक ठिगने plumber की पूरी concept पर दावा करने की हो, तो वह अलग मामला होगा, लेकिन वह तो बस Mario और Luigi हैं। वह Robocop है और C3PO है। इसमें बिल्कुल भी बारीकी वाली बात नहीं है। अगर ऐसे trademark को AI laundering से मिटाया जा सकता है, तो किसी भी चीज़ को AI laundering किया जा सकता है
- वास्तविकता में हम सब एक ऐसे कानूनी तंत्र के तहत रहते हैं जिसे हमने खुद design नहीं किया और जिसे अपूर्ण माना जाता है। आप reform की वकालत कर सकते हैं, लेकिन LLM बनाने वालों का आकलन वर्तमान में लागू मौजूदा कानूनों के आधार पर ही होगा
  नया पक्ष LLM और उसकी technology में है, copyright को किसी महान सांस्कृतिक openness की अवधारणा के तहत पूरी तरह से फिर से सोचने में नहीं
  इसलिए यह सिर्फ कोई corporate narrative नहीं, बल्कि वह कानून है जिससे—सही हो या गलत—यह narrative निकला है। कंपनियों ने कानून को आकार देने में बड़ी भूमिका निभाई हो सकती है, लेकिन copyright व्यक्तियों को भी लाभ देता है। यह सिर्फ propaganda या corporate narrative से साझा वास्तविकता में हेरफेर नहीं है; इसे judge मध्यस्थता करते हैं और बंदूक व जेल वाले लोग लागू करते हैं
  चूंकि यह कानूनी मुद्दा है, इसलिए कानून की तकनीकी बारीकियों से जरूर निपटना होगा। अगर इसे सिर्फ सामाजिक narrative पर चर्चा का मामला कहकर टाल दिया जाए, तो हम भौतिक परिणामों और वास्तविकता की जगह कल्पना रख देंगे। copyright और intellectual property के रचनात्मकता को दबाने वाले पहलू पर भी चर्चा होनी चाहिए, लेकिन साथ ही जो वास्तव में हो रहा है उसे नजरअंदाज नहीं किया जा सकता
- यह जवाब वास्तविकता से बहुत कटा हुआ है। copyright law बहुत स्पष्ट है। यहां उल्टा corporate narrative यह है कि “AI” कुछ नया और अलग है, इसलिए मौजूदा कानून लागू नहीं होता—और यह बात समझ से परे है
- public domain या साझा संपत्ति भी copyright का ही हिस्सा हैं, इसलिए उन्हें ऐसे नहीं पेश करना चाहिए जैसे वे discourse में वापस लाया जाने वाला कोई भूला हुआ concept हों
  हालांकि Georgism पर पर्याप्त विचार नहीं हो रहा है
  कानूनी implications ही मानवीय implications हैं, और बाकी चीज़ों की तरह संस्कृति का हिस्सा हैं। वे इस बात से जुड़ी हैं कि क्या fair है, और मेहनत के reward को कैसे मान्यता और वितरण मिलता है
  ऐसी formalization उन संस्कृतियों में कम महत्वपूर्ण हो सकती है जो market economy केंद्रित नहीं हैं, और “समृद्ध लोककथाओं की बुनावट” जैसे expressions उस दुनिया में लौटने का एहसास देते हैं, लेकिन AI से कैसे निपटना है यह सोचने वाला समाज वैसा समाज नहीं है
  यह विचार कि नई copying capabilities की वजह से copyright अमान्य या पुराना हो गया है, सचमुच उलटा सोचने जैसा है। copyright को नई copying capabilities की वजह से ही वैधता मिली थी
  उस समय की विशिष्ट capability industrialized printing थी, और सामान्य software विशेषज्ञों से कहीं अधिक समझदार दिखने वाले लोगों ने समझा था कि यह capability नई copying capability रखने वालों और उस मूल्य का आधार बनने वाले works बनाने वालों के बीच incentives को गलत तरीके से align करती है। copyright bargain का मूल उद्देश्य इन्हीं incentives को align करना है
  नई copying technology यह बदल सकती है कि क्या प्रतिबंधित, सीमित या अनुमत होगा, और कौन से standards, enforcement powers और limits रखे जाएंगे। लेकिन वह इस bargain की समझदारी को खुद नहीं बदलती। उसे बदलने के लिए समाज की productive capacity को organize और reward करने का बेहतर तरीका चाहिए
- copyright कभी भी moral stance पर आधारित नहीं रहा; यह हमेशा विभिन्न groups की lobbying power से तय होता आया है
  फिर भी generative AI कंपनियों को और पैसा कमाने देने के लिए copyright खत्म करने का विचार पूरी तरह अजीब लगता है
मेरे लिए यह सवाल ही गलत था
सभी जानते थे कि इन्हें copyrighted सामग्री पर train किया गया है, और ये डरावनी हद तक मिलते-जुलते output दे सकते हैं
लेकिन यह पहले ही बड़े पैमाने पर हो चुका है, और बड़ी कंपनियां पूरी ताकत से इसमें कूद चुकी हैं। निकले हुए toothpaste को वापस tube में डालने की कोई संभावना नहीं है
यह उस समय जैसा है जब बड़ी tech कंपनियों ने aggressive user data collection के ऊपर अपना business खड़ा किया था। यह सही है या नहीं, नैतिक है या नहीं, यहां तक कि legal है या नहीं—इस stage पर ये लगभग academic बहसें हैं। उन्होंने बस कर दिया, और society की ठीक-ठाक informed consent के बिना व्यवहार में इसे आगे बढ़ा दिया
यहां सही सवाल है, “अब क्या करना है?” Tracking technology के समय की तरह जवाब शायद “कुछ खास नहीं” के करीब होगा
- मैं “निकले हुए toothpaste को वापस tube में नहीं डाला जा सकता” से सहमत नहीं हूं। पहले भी ऐसी ही चीजें हुई हैं
  सस्ती music recording और manufacturing जैसी technologies के साथ भी यही था। आप किसी artist को एक बार record कर सकते हैं और records को mass-produce कर सकते हैं, लेकिन इसका मतलब यह नहीं कि Taylor Swift को एक बार record करने के बाद बिना पैसे दिए unlimited copies बना सकते हैं
  1942 musicians’ strike के बारे में पढ़ना अच्छा रहेगा: https://jacobin.com/2022/03/1940s-musicians-strike-american-...
- यह history न जानने वाली बात है
  यह Napster में, फिर Apple Music में, और अब streaming services में पहले ही हो चुका है
  आम जनता के बीच व्यापक file sharing बचे रहने के बजाय, हमारे पास ऐसे devices और streaming subscriptions हैं जिनके हम मालिक नहीं हैं
  Apple ने सारे music को iPod में copy करके नहीं बेचा; content rights पाने के लिए उसने 10 साल की contract negotiations और बहुत पैसा लगाया
  मैं यह नहीं कह रहा कि क्या सही है और क्या गलत, बल्कि यह कि ऐसी लड़ाइयों को लगभग समझे बिना बात की जा रही है
- आपने “यह पहले ही हो रहा है, इसलिए हार मान लो” को काफी fluently कह दिया। Problem solving और action के लिए यह बहुत कारगर होगा
- यह एक fait accompli कहने जैसा है। Tech क्षेत्र की कई innovations की तरह, बात यह है कि कानून बेवकूफ है, इसलिए कानून तोड़ो और market dominance हासिल करो
  Uber और AirBnB का वह समय याद आता है जब वे ज्यादातर बड़े शहरों में illegal थे, लेकिन आखिरकार market dominance हासिल कर गए
  मैं तो इसे उल्टा अच्छा मानता हूं। मैंने कभी “intellectual property rights” जैसी चीजों में विश्वास नहीं किया। Patents, copyright, और काल्पनिक “rights” के पूरे bundle को खत्म कर देना चाहिए
  दुनिया के आधे से ज्यादा हिस्से, यानी Global South, ऐसे rights को मानते ही नहीं, और अब कठोर legal over-enforcement और monopolistic centralization के बिना इन्हें enforce करना भी लगातार कठिन होता जा रहा है
- जिन copyrighted materials के लिए license नहीं है या अब भी नहीं मिल सकता, उनके बिना models को खत्म करने या फिर से train करने के लिए मजबूर किया जा सकता है
  ये अरबों-खरबों डॉलर की कंपनियां हैं। Shareholders और top management को यह कितना भी नापसंद हो, यहां इनके पास responsible members of society की तरह व्यवहार करने की गुंजाइश है
EU में यह समस्या नहीं होनी चाहिए। “Copyright in the Digital Single Market” directive के Articles 3 और 4 पहले ही इसे regulate करते हैं
Wolters Kluwer के summary के अनुसार, commercial machine-learning developers सहित बाकी सभी entities केवल उन legally accessible copyrighted works का उपयोग कर सकती हैं जिनके rights holders ने text और data mining के उपयोग को स्पष्ट रूप से reserve नहीं किया है
मेरी जानकारी में “training forbidden” दिखाने वाले robot.txt जैसी किसी चीज पर चर्चा चल रही है। शायद कुछ safeguards implement करने होंगे, और end users को generated works का उपयोग करते समय सावधान रहना होगा
Kluwer source: https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
EU law text: https://eur-lex.europa.eu/eli/dir/2019/790/oj
- यह अजीब लगता है कि EU web browser के Do Not Track flag को legally binding मानने पर सहमत नहीं हो पाया, लेकिन बड़े content businesses को websites पर legally binding flag बनाकर data scraping से बचने में सक्षम होना चाहिए
- वह एक अजीब, शायद उम्मीद-भरी interpretation लगती है। क्या Article 4 text और data mining purposes के लिए commercial machine-learning developers सहित सभी को exception नहीं देता?
  https://eur-lex.europa.eu/eli/dir/2019/790/oj
Copyright infringement न हो, यह सुनिश्चित करने की जिम्मेदारी उस व्यक्ति की है जो work को publish करता है
चाहे आपने खुद draw किया हो, बिना legal training वाले apprentice painter से कराया हो, photo खींचा हो, या artificial intelligence से image बनाई हो—इससे फर्क नहीं पड़ता
हम क्यों मान लें कि ChatGPT या कोई दूसरा tool मौजूदा copyrighted content नहीं बनाएगा?
“Generate” हुआ है, इसलिए original होगा—यह भोली assumption समझ में आती है। लेकिन जैसे ही “ChatGPT” को “junior artist” से बदलते हैं, वह assumption टूट जाती है
मान लीजिए आप उससे science fiction movie का droid draw करने को कहते हैं, और कुछ नहीं कहते। Copyright की बात भी नहीं करते, और यह भी नहीं कहते कि original होना चाहिए। तो आप क्या expect करेंगे कि वह क्या draw करेगा?
- OpenAI GPT models की access बेच रहा है, और वे models मेरे consume करने के लिए copyrighted material output कर रहे हैं। क्या यह भी वैसा ही infringement नहीं है?
- तब तो generative AI व्यवहार में इस्तेमाल के लायक नहीं रह जाएगी। Output plagiarism है या नहीं, यह पता नहीं चल सकता, इसलिए हमेशा शक करेंगे और कभी इस्तेमाल नहीं करेंगे
- यह argument समझ में नहीं आता
  वह hypothetical junior artist भी कम से कम उतनी ही, शायद उससे भी ज्यादा liability उठाएगा
इस लेख और NYT मुकदमे के मूल मुद्दे को बिल्कुल न समझने जैसे जवाब हैरान करने वाली संख्या में हैं। ChatGPT, NYT लेखों के बड़े हिस्से सैकड़ों से हजारों शब्दों की लंबाई में बिल्कुल मूल पाठ की तरह पुनः प्रस्तुत कर सार्वजनिक कर सकता था
यह derivative work नहीं है। यह उस चरण से बहुत आगे जा चुका है। NYT के पास बेहद मजबूत केस है, और जो लोग copyright के फायदे-नुकसान पर बहस कर रहे हैं वे असल मुद्दे से भटक रहे हैं
यह एक मुकदमा अकेले copyright को उलट नहीं देगा। OpenAI ज़्यादा से ज़्यादा यह कह सकता है कि “यह नया है, हमें कैसे पता होता कि ऐसा होगा।” अगर ऐसा है, तो मौजूदा trained models बहुत मुश्किल स्थिति में हैं
साथ ही लगता नहीं कि NYT settlement करेगा। इसके implications बहुत बड़े हैं, और अगर OpenAI से settlement होता है तो बाकी सभी models में भी ऐसे ही केस पैदा होंगे। digital content publish करने वाले बाकी सभी media outlets के पास भी ऐसे ही वैध केस होंगे
यह generative AI का turning point है, और यह हमारे शुरुआती अनुमान से कहीं ज्यादा महंगा या कहीं ज्यादा restricted होने की संभावना रखता है
side effect के रूप में मुझे लगता है कि pirate models बढ़ेंगे। ऐसे models जो legality को पूरी तरह नजरअंदाज करेंगे, distributed तरीके से train होंगे, और जिनके weights कंपनियों के बजाय groups द्वारा distribute किए जाएंगे, जैसे torrent models
इस बात की भी ठीक-ठाक संभावना है कि ऐसे models official “सभ्य” models से performance में आगे निकल जाएं। अगले कुछ सालों में यह दिलचस्प तरीके से विकसित होता दिखेगा
- OpenAI इस मामले में Google/YouTube की लगभग नकल करते हुए Content ID जैसा system दे सकता है
  तर्क यह होगा कि ChatGPT default रूप से copyrighted works को reproduce नहीं करता, बल्कि YouTube जिस तरह लोगों द्वारा upload किए गए videos उपलब्ध कराता है, उसी तरह third-party users के requests या actions की वजह से reproduce करता है
  OpenAI का इरादा copyright infringement का नहीं था, और वास्तव में कई या ज्यादातर researchers मानते थे कि model किसी भी random copyrighted work के बड़े हिस्से को reproduce कर सके, इतना overfit नहीं है
- NYT के पास क्या है, यह साफ समझ में आता है। यह बहुत मजबूत केस है। लेकिन मुझे लगता है कि इस केस को copyright law को हिला देना चाहिए। copyright बुरी तरह broken है और लंबे समय से ऐसा ही है
  मूल रूप से, किसी बड़ी कंपनी का समर्थन न हो तो copyright का कोई मतलब नहीं, और अगर कोई कंपनी पीछे हो तो original copyright में होने वाली limitations की परवाह किए बिना उसे हमेशा के लिए lock किया जा सकता है
  OpenAI अगर पुरानी news को मूल पाठ की तरह reproduce कर सकता है, तो इससे NYT कुछ नहीं खोता
  अगर NYT जीतता है तो हम बहुत कुछ खो देंगे। अब copyright को फिर से देखने का समय है। सच में ऐसा किया जा सकता है, और यह काफी पुराना हो चुका है इसलिए update की जरूरत है
- DALLE, Midjourney, Stable Diffusion में भी ऐसा हुआ था
  Stable Diffusion, Control Net और LoRA जैसी चीजों का पूरा इस्तेमाल करने पर दूसरे proprietary models को मात दे देता है
थोड़ा idealistic हो सकता है, लेकिन मैंने हमेशा माना है कि कला और publishing का मुख्य उद्देश्य केवल बड़ा पैसा कमाना नहीं, बल्कि culture और society पर असर डालना होना चाहिए
इसलिए original works को protection की जरूरत है, लेकिन creativity और inspiration को बढ़ावा देने के लिए उन्हें कहीं ज्यादा जल्दी public domain में आ जाना चाहिए। transition period को दशकों में नहीं, बल्कि कुछ वर्षों के हिसाब से सोचना चाहिए
- यह दावा कि कला का मुख्य उद्देश्य social impact है, आजकल media में आम दोहराई जाने वाली बात जैसा लगता है, लेकिन मैं इससे बिल्कुल सहमत नहीं हूं
  कला का मुख्य उद्देश्य व्यक्ति में emotion पैदा करना है। यह विचार कि कला को कोई lesson सिखाना चाहिए, शायद आजकल इतनी खुली “activist” fiction दिखने की वजह है
- तो कलाकार रात के खाने में क्या खाएं?
- सिर्फ कला पर ही यह नियम क्यों लागू हो और बाकी चीजों पर क्यों नहीं?
इन्हें ठीक करना इतना मुश्किल नहीं लगता। ज़्यादातर उदाहरण सामान्य descriptions नहीं, बल्कि जाने-पहचाने targets की short-hand expressions हैं
“वीडियो गेम प्लंबर” असल में “Mario” का पर्याय ही है, और जो भी उस character को थोड़ा भी जानता है, उसे यह पता है
इसी तरह, किसी description tool से Mario जैसी images का वर्णन करवाने के बाद [1], “वीडियो गेम प्लंबर” डालने वाले लोगों के लिए ऐसे results हटाना कितना मुश्किल होगा?
1. Midjourney का describe command images को describe कर सकता है। दूसरे AI tools में भी ऐसी ही functionality हो सकती है: https://docs.midjourney.com/docs/describe
- इसे ठीक करने का तरीका काफी dystopian लगता है। सोचिए Photoshop uploaded image को यह जांचने के लिए scan करे कि वह copyrighted material है या नहीं, और अगर उसे लगे कि उसमें copyrighted material या character शामिल है, तो काम करने से मना कर दे। भले ही वह आपने खुद बनाई fanart ही क्यों न हो
  यह मुझे internet के शुरुआती दिनों की याद दिलाता है, जब लोग copyright law के उल्लंघन के नाम पर मुफ्त fanfiction हटवाने की कोशिश कर रहे थे। जो चीज़ creator बेचने की कोशिश भी नहीं कर रहा, ऐसे personal use पर copyright law लागू करना मेरे नज़रिए से काफी भयावह है
  50 साल बाद की कल्पना करें। “रोबोट, क्या तुम मेरे school diorama के लिए बनाई इस drawing को काट दोगे?” “ज़रूर।” “यह भी कर दो।” “Error: इस image में copyrighted material शामिल होने की संभावना है, इसलिए इसे process नहीं किया जा सकता।”
- ऐसे examples सच में मामूली या extreme cases हैं। यहां दो बातें देखने लायक हैं
  generative AI systems में copyright-infringing material बनाने की पर्याप्त क्षमता है
  और जब वे ऐसा करते हैं, तो user को बताते नहीं
  इसलिए कोई भी output web के किसी obscure लेकिन फिर भी protected source material का उल्लंघन कर सकता है, और उस output का उपयोग करने वाला कोई भी व्यक्ति बिना किसी warning के मुकदमे के जोखिम में पड़ सकता है
  इसे ठीक करना बेहद मुश्किल है
- copyrighted और trademarked content generate करने में इस्तेमाल हो सकने वाली सभी “जाने-पहचाने targets की short-hand expressions” या prompts हटाना मुश्किल होगा
  अगर कोई जानबूझकर infringing content बनाने की कोशिश नहीं कर रहा, तो ऐसे results हटाए या discard किए जा सकते हैं, लेकिन समस्या उन लोगों की है जो AI को धोखा देकर ऐसा content बनवाना चाहते हैं। जब तक copyrighted/trademarked training material को पूरी तरह बाहर नहीं किया जाता, उन्हें रोकना असंभव होगा
  generative AI की एक और समस्या, जैसा article में भी कहा गया है, यह है कि “DALL-E और ChatGPT जैसे systems मूल रूप से black boxes” हैं
  जब किसी स्थिति में user या victim को यह ठीक-ठीक जानने का अधिकार हो कि AI ने ऐसा decision क्यों लिया, और AI decision-making में इस्तेमाल हो रहा हो, तो क्या होगा? Business और legal perspective से, मौजूदा AI solutions जोखिम भरे हैं और उनका इस्तेमाल बहुत सीमित रूप से होना चाहिए। क्योंकि इन्हें बनाने वाले लोग भी उन सटीक information pieces की ओर इशारा नहीं कर सकते जिनकी वजह से AI ने कोई खास choice की
- यह तरीका scale बढ़ने पर लगभग असंभव हो जाता है
- अगर पहले से पता ही नहीं है, तो कैसे जानेंगे कि आप कोई “जाना-पहचाना target” input कर रहे हैं?
  अगर मैंने “columbian coffee logo” input किया और पहले से मौजूद brand logos निकल आए, तो क्या यह verify करने के लिए पूरा internet reverse-engineer करना होगा कि वे logos पहले से मौजूद थे या नहीं?
  AI को sources of inspiration दिखाने चाहिए। कोई इंसान जब किसी चीज़ से प्रेरित होकर रचना करता है, तो उसे ठीक-ठीक पता होता है कि उसने क्या इस्तेमाल किया और वह plagiarism की सीमा पार कर रहा है या नहीं। लेकिन AI जिस तरह काम करता है, वह इसके लिए बहुत opaque है
  मेरे हिसाब से बस sources उजागर किए जाने चाहिए। हालांकि इसका मतलब होगा कि AI companies को datasets public करने होंगे, और इससे ऐसी जानकारी भी सामने आ सकती है जो उनके पास होनी ही नहीं चाहिए थी या जिसे public नहीं किया जाना चाहिए था
मेरी समझ के मुताबिक generative AI के लिए कानूनी मिसाल वैसी ही है जैसे Google को सार्वजनिक हित में search index बनाने के लिए websites scrape करने की अनुमति मिली
Google websites का cached version भी दिखा सकता है, और वह उस site का original content होता है। Google किसी दूसरी website का content ज्यों-का-त्यों दिखाए, तो कोई इसे copyright infringement नहीं कहेगा
इसलिए मुझे यह दलील कमजोर लगती है। अगर हर cultural reference और popular IP, यहां तक कि कम प्रसिद्ध चीजें भी हटानी पड़ें, तो AI बेकार हो जाएगा
निजी तौर पर मुझे लगता है कि generative AI को training data में मौजूद मिलते-जुलते original material के links दे पाने चाहिए। AI training में योगदान देने वालों को compensation देने का यह न्यूनतम तरीका है
अगर generative AI उन websites और artists, दोनों को खत्म करने की दिशा में जाता है जिन्होंने original material बनाया, तो मुझे नहीं लगता कि यह long term में sustainable है। sources transparency जोड़ते हैं, और users को यह समझने में भी मदद करते हैं कि चीज hallucination है या नहीं
लोगों को अपने content को training में इस्तेमाल होने से opt out करने की सुविधा होनी चाहिए, और यह भी verify कर सकना चाहिए कि उसे future versions से हटाया गया है या नहीं
सच कहें तो AI कंपनियां बस इसे secret रखकर lawsuits से बचना चाहती हैं। मुझे लगता है कि doomsday scenarios की तुलना में इस क्षेत्र में regulation मददगार हो सकता है
- “Google किसी दूसरी website का content ज्यों-का-त्यों दिखाए, तो कोई इसे copyright infringement नहीं कहेगा”, लेकिन अतीत में journalists और Getty Images ने ऐसा कहा था
  [1]: https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
  [2]: https://www.theguardian.com/technology/2016/apr/27/getty-ima...
- “अगर generative AI उन websites और artists, दोनों को खत्म करने की दिशा में जाता है जिन्होंने original material बनाया, तो long term में sustainable नहीं है” यही असल में कमरे में मौजूद हाथी है
  हर tech wave के पास creators को समय और पैसा लगाकर original material बनाने के लिए राजी करने का कोई तरीका था, और बाद में rules बदल गए
  Google ने content को reach और नए markets का वादा किया, और वह सचमुच काम किया। फिर उसने snippets, ads, और visitors को original site पर भेजने के बजाय अपनी ही highway पर रोके रखने वाले तरह-तरह के mechanisms पेश किए
  Reddit, Stack Overflow आदि ने scores और badges जैसी gamification और community के जरिए users को original content contribute करने के लिए प्रेरित किया
  अब AI इन approaches को हिला रहा है। हर step पर original material बनाने का incentive घटता हुआ लगता है, क्योंकि return लगातार कम होता जा रहा है
  अगर AI बिना किसी benefit के—यानी reach, gamification, community, recognition की संभावना के बिना—बस original content को दोहराता है, तो अब experts के लिए क्या incentive बचता है?
- “training data में मिलते-जुलते original material के links देने चाहिए” वाली बात आम तौर पर संभव नहीं है, क्योंकि ये databases नहीं हैं
  यह वैसा ही है जैसे तुम अपने comment लिखने में जिन original materials से प्रभावित हुए, उनके links नहीं दे सकते। उस जवाब को generate कराने वाले neurons के weights में कितनी training शामिल थी? italics इस्तेमाल करना और उसका words की interpretation पर असर कहां से सीखा? इस forum के लिए सही tone कहां से सीखी?
  अगर “लोगों को अपना content training में इस्तेमाल होने से opt out करने की सुविधा होनी चाहिए”, तो क्या जब मैं कोई किताब लिखूं, तुम्हें वह किताब पढ़ने से रोकने के लिए मुझे opt out करने की सुविधा होनी चाहिए? कौन मेरा काम पढ़ सकता है, इस पर क्या मुझे conditions लगाने की अनुमति होनी चाहिए? धर्म? त्वचा का रंग? जो लोग अच्छी तरह याद नहीं रख पाते?
  उम्मीद है कि कौन ज्ञान हासिल कर सकता है, इसे सीमित करने का विचार बेतुका लगेगा। तो फिर वही restriction “कौन” के बजाय “क्या” पर लगाई जाए, तो वह ठीक क्यों है?
  AI कंपनियों ने lawsuits से बचने के लिए secrecy रखी, जिससे research barriers पैदा हो गए। मैं और Joe एक ही dataset पर research और papers में collaborate कर सकते, इसके बजाय training data छिपाना पड़ता है। क्योंकि डर है कि Luddites मशीनें तोड़ने आ जाएंगे। मानो learning तभी ठीक है जब वह बहुत अच्छी न हो
- कानूनी precedent अभी तय नहीं हुआ है। जिस “precedent” का वर्णन किया गया है, वह AI कंपनियों द्वारा इस्तेमाल की गई दलील है—कि internet पर उपलब्ध information से models को train करना fair use माना जाना चाहिए
  लेकिन AI training सच में fair use के four-factor test को satisfy करती है या नहीं, यह अभी देखना बाकी है
- sources को references के रूप में provide कर पाने की क्षमता यहां मुख्य अंतर है
  मैं सहमत हूं कि generative AI में भी इसे implement किया जा सकना चाहिए, लेकिन उस information को बनाए रखने से training cost कहीं ज्यादा महंगी हो सकती है, और AI कंपनियों की इसमें बहुत कम दिलचस्पी है। वे शायद post-processing stage में possible copyright issues को heuristically evaluate करने की कोशिश करेंगी
  ज्यादा दिलचस्प सवाल यह है कि लगभग verbatim reproduction से आगे बढ़कर, क्या copyright holders यह दावा कर सकते हैं कि उनकी works ने collectively AI को ज्यादा general तरीके से प्रभावित किया, इसलिए यह unauthorized use है
हमें generative AI पर ही लागू होने वाला ज्यादा स्पष्ट कानून चाहिए। वास्तविक इंसानों से comparisons और analogies बहुत ज्यादा आ रही हैं
“अगर कोई trademarked material देखकर drawing सीखता है और गलती से उससे मिलती-जुलती चीज बना देता है तो क्या होगा” जैसी बातें आती हैं, लेकिन ये models इंसान नहीं हैं और एक अलग category में मौजूद हैं
मुझे लगता है कि ये models कुछ हद तक trademark infringement करते हैं, लेकिन साथ ही मुझे यह भी लगता है कि इसकी अनुमति होनी चाहिए। अंतिम जिम्मेदारी उस व्यक्ति पर होनी चाहिए जो image को general public द्वारा consume किए जाने वाले independent medium के रूप में इस्तेमाल करता है
- मेरा भी यही रुख है। Dall-E का C3PO output करना अपने-आप में पूरी तरह ठीक होना चाहिए। अगर मैं उस output से पैसा नहीं कमा रहा हूं, तो Disney को पीछे हटना चाहिए
ऐसी चर्चाओं में मॉडल मुख्य मुद्दे से ज़्यादा धुंधला पर्दा जैसे काम करते हैं, और लगता है चर्चा वहीं अटक जाती है
मॉडल “responsibility chain” में plausible deniability देते हैं। “LLM” हटाकर उसकी जगह “amusement park sideshow का जादुई बॉक्स” रख दें, तो यह दावा कि LLM में कुछ खास है इसलिए उसे अपवाद मिलना चाहिए, बहुत जल्दी गायब हो जाएगा
- पूरी तरह सहमत
  Betamax precedent कहता है कि जिस technology के पर्याप्त non-infringing uses हों, वह अपने-आप में infringement नहीं है
  पहले से precedent है कि AI-generated works को copyright protection नहीं मिलता, और उसी logic से AI की generation act में intent व्यक्त नहीं होता। इसलिए infringement का सवाल output इस्तेमाल करने वाले इंसान पर निर्भर होना चाहिए। क्योंकि black box में खुद कोई agency नहीं होती
- सहमत, और पहले मैं ठोस उदाहरण देखना चाहूंगा कि LLM industry में “disruptive” तरीके से productive और profitable ढंग से इस्तेमाल होकर लोगों की नौकरियां छीन रहे हैं वगैरह
  यह निष्कर्ष निकालने से पहले कि LLM, या और broadly generative techniques, somehow अगली बड़ी wave हैं, या यह दावा करने से पहले कि हम “general” intelligence की दहलीज़ पर हैं, पहले वह दरवाज़ा दिखाना होगा
  वह दरवाज़ा box में कुछ input डालकर दूसरी तरफ से निकलने वाली चीज़ देखने के मनोरंजनात्मक value से आगे, वास्तविक समस्याएं हल करने में industrial adoption का रूप हो सकता है। लेकिन अभी तक मेरी नज़र में कोई भी सच में ऐसा करता नहीं दिखता

Generative AI पर और बड़ा copyright दबाव आने वाला है

New York Times lawsuit और image repetition experiment

safeguards जिनसे similar generation नहीं रुकती

source अज्ञात रहने वाला black-box problem

lawsuits का विस्तार और Microsoft का risk

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय