Generative AI पर और बड़ा copyright दबाव आने वाला है
(garymarcus.substack.com)- New York Times की OpenAI के खिलाफ lawsuit के बाद, Generative AI को training और output चरणों में copyright infringement की जिम्मेदारी कितनी उठानी चाहिए यह और बड़ा मुद्दा बनकर उभरा है
- lawsuit का मूल मुद्दा यह है कि chatbot text को लगभग जस का तस दोबारा बना सकता है, और Marcus तथा Reid Southen के experiment दिखाते हैं कि DALL-E भी images में वैसी ही repetition बना सकता है
- proper nouns को block करने जैसे safeguards होने के बावजूद, user ऐसे prompts से जिनमें character या film के नाम सीधे नहीं लिखे गए हों, SpongeBob SquarePants, RoboCop और video game characters जैसे results पा सकते हैं
- मौजूदा systems training sources और generated outputs की source information तथा infringement की संभावना users को नहीं बताते, इसलिए user अनजाने में infringing output बना सकता है
- Marcus का मानना है कि जब तक source tracking वाली नई architecture नहीं आती, infringement विवाद जारी रहेंगे, और New York Times lawsuit और भी lawsuits की शुरुआत हो सकता है
New York Times lawsuit और image repetition experiment
- New York Times द्वारा OpenAI के खिलाफ lawsuit दायर किए जाने के समय Gary Marcus और film industry concept artist Reid Southen ने मिलकर एक experiment किया
- Southen को Marvel, DC, Matrix Resurrections, Hunger Games आदि से जुड़ा experience रखने वाले व्यक्ति के रूप में पेश किया गया है
- पूरी report अगले हफ्ते जारी होने वाली है, और कहा गया है कि 3 जनवरी को IEEE Spectrum में इसे अतिरिक्त रूप से cover किया जाएगा
- lawsuit का मुख्य मुद्दा यह है कि OpenAI chatbot text को लगभग original text जैसा का तैसा reproduce कर सकता है
- Marcus और Southen के experiment में कहा गया कि Bing के जरिए OpenAI के image software का उपयोग करने पर भी images की original जैसी या बहुत करीबी repetition संभव थी
safeguards जिनसे similar generation नहीं रुकती
- माना जाता है कि DALL-E में proper nouns और जानबूझकर किए गए infringement attempts को कुछ हद तक रोकने वाले safeguards हैं, लेकिन कहा गया है कि ये reliably काम नहीं करते
- infringement की संभावना तब भी पैदा हो सकती है जब user सीधे infringement का इरादा न रखता हो या character/film names का उल्लेख न करे
- कहा गया है कि SpongeBob SquarePants का उल्लेख न करने वाले छोटे prompt से संबंधित result आ सकता है
- RoboCop का उल्लेख न होने वाली स्थिति, video game character, और trademark infringement की संभावना वाले results को भी examples के रूप में दिया गया
- कहा गया है कि X user Blanket_Man01 और A16Z की Justine Moore ने भी independently similar phenomenon पाया
source अज्ञात रहने वाला black-box problem
- Marcus के अनुसार Generative AI की core problem training sources और generated outputs के sources users को दिखाई न देने वाली structure में है
- DALL-E और ChatGPT जैसे systems copyright material पर trained हैं
- OpenAI transparent तरीके से नहीं बताता कि training किस पर की गई
- Generative AI systems copyright infringe कर सकने वाली material बना सकते हैं
- ऐसे result आने पर system user को inform नहीं करता
- generated image की source information भी provide नहीं की जाती
- user को पता नहीं हो सकता कि उसने जो image बनाई है वह infringing है या नहीं
- मौजूदा DALL-E और ChatGPT जैसे systems काफी हद तक black box जैसे हैं, और माना जाता है कि मौजूदा configuration में source material के लिए attribution देना मुश्किल है
- कुछ companies related research कर रही हैं, लेकिन Marcus ने कहा कि अभी कोई convincing solution ज्ञात नहीं है
- उनका मानना है कि generated text या images के sources को reliably track करने वाली नई architecture आने तक infringement जारी रह सकता है
- अच्छे system को users को source list देनी चाहिए, लेकिन कहा गया है कि मौजूदा systems ऐसा नहीं करते
lawsuits का विस्तार और Microsoft का risk
- New York Times lawsuit कई lawsuits में पहला case होने की संभावना अधिक मानी जा रही है
- Marcus ने X पर जो poll चलाया, उसमें majority ने settlement की उम्मीद जताई
- settlement amount को लेकर कई responses ने 100 million dollars से अधिक का अनुमान लगाया, और 20% ने 1 billion dollars का अनुमान लगाया
- कहा गया है कि film studios, video game companies और अन्य newspapers तक मामला फैलने पर amount का scale बड़ा हो सकता है
- चूंकि examples Bing में DALL-E के जरिए बने थे, इसलिए माना जा रहा है कि Microsoft भी liability risk में है
1 टिप्पणियां
Hacker News की राय
लोग इस कॉर्पोरेट नैरेटिव को बहुत आसानी से मान ले रहे हैं कि कोई वास्तव में ऐसी चीज़ों का मालिक हो सकता है
Snow White और Cinderella की कहानियों का सच में मालिक कौन है? ये कहानियाँ Disney से नहीं निकलीं, बल्कि पीढ़ियों से चली आ रही लोककथाओं का हिस्सा हैं, और Disney की सफलता भी कुछ हद तक उन मौजूदा कथाओं के रूपांतरण पर आधारित है जिन्हें समुदायों ने सदियों तक साझा और परिवर्तित किया है
यह चर्चा सिर्फ AI की तकनीकी बारीकियों या copyright के कानूनी तर्क की नहीं, बल्कि हमारी साझा संस्कृति की गहरी जड़ों को समझने की होनी चाहिए
संस्कृति मूल रूप से साझी संपत्ति है, और सामूहिक कहानियों व पुनर्व्याख्याओं के जरिए विकसित और बढ़ती है
generative AI और copyright infringement पर चर्चा संस्कृति के विकास के इस मूल तत्व को नजरअंदाज करती लगती है। algorithm नया हो सकता है, लेकिन कहानियों की फिर से कल्पना करना और उन्हें फिर से इस्तेमाल करना मानवता जितना ही पुराना है
Disney ने मौजूदा संस्कृति और पुरानी कहानियों के ऊपर “House of Mouse” खड़ा कर दिया, और अब पुराने व अजीब copyright के हिसाब से सांस्कृतिक अभिव्यक्ति के tools को सीमित करने की बात करे—यह मुझे सचमुच बेतुका लगता है
article की image में काफी हाल की चीज़ें इस्तेमाल हुई हैं, और इसमें कोई शक भी नहीं कि वह Mario है या Coca Cola। अगर Nintendo और Coca Cola ने joint promotion किया होता, तो निकली हुई image को बिल्कुल वैसा ही मान लेने लायक होता
अगर बात Mario जैसा दिखने वाले कपड़े पहने एक ठिगने plumber की पूरी concept पर दावा करने की हो, तो वह अलग मामला होगा, लेकिन वह तो बस Mario और Luigi हैं। वह Robocop है और C3PO है। इसमें बिल्कुल भी बारीकी वाली बात नहीं है। अगर ऐसे trademark को AI laundering से मिटाया जा सकता है, तो किसी भी चीज़ को AI laundering किया जा सकता है
नया पक्ष LLM और उसकी technology में है, copyright को किसी महान सांस्कृतिक openness की अवधारणा के तहत पूरी तरह से फिर से सोचने में नहीं
इसलिए यह सिर्फ कोई corporate narrative नहीं, बल्कि वह कानून है जिससे—सही हो या गलत—यह narrative निकला है। कंपनियों ने कानून को आकार देने में बड़ी भूमिका निभाई हो सकती है, लेकिन copyright व्यक्तियों को भी लाभ देता है। यह सिर्फ propaganda या corporate narrative से साझा वास्तविकता में हेरफेर नहीं है; इसे judge मध्यस्थता करते हैं और बंदूक व जेल वाले लोग लागू करते हैं
चूंकि यह कानूनी मुद्दा है, इसलिए कानून की तकनीकी बारीकियों से जरूर निपटना होगा। अगर इसे सिर्फ सामाजिक narrative पर चर्चा का मामला कहकर टाल दिया जाए, तो हम भौतिक परिणामों और वास्तविकता की जगह कल्पना रख देंगे। copyright और intellectual property के रचनात्मकता को दबाने वाले पहलू पर भी चर्चा होनी चाहिए, लेकिन साथ ही जो वास्तव में हो रहा है उसे नजरअंदाज नहीं किया जा सकता
हालांकि Georgism पर पर्याप्त विचार नहीं हो रहा है
कानूनी implications ही मानवीय implications हैं, और बाकी चीज़ों की तरह संस्कृति का हिस्सा हैं। वे इस बात से जुड़ी हैं कि क्या fair है, और मेहनत के reward को कैसे मान्यता और वितरण मिलता है
ऐसी formalization उन संस्कृतियों में कम महत्वपूर्ण हो सकती है जो market economy केंद्रित नहीं हैं, और “समृद्ध लोककथाओं की बुनावट” जैसे expressions उस दुनिया में लौटने का एहसास देते हैं, लेकिन AI से कैसे निपटना है यह सोचने वाला समाज वैसा समाज नहीं है
यह विचार कि नई copying capabilities की वजह से copyright अमान्य या पुराना हो गया है, सचमुच उलटा सोचने जैसा है। copyright को नई copying capabilities की वजह से ही वैधता मिली थी
उस समय की विशिष्ट capability industrialized printing थी, और सामान्य software विशेषज्ञों से कहीं अधिक समझदार दिखने वाले लोगों ने समझा था कि यह capability नई copying capability रखने वालों और उस मूल्य का आधार बनने वाले works बनाने वालों के बीच incentives को गलत तरीके से align करती है। copyright bargain का मूल उद्देश्य इन्हीं incentives को align करना है
नई copying technology यह बदल सकती है कि क्या प्रतिबंधित, सीमित या अनुमत होगा, और कौन से standards, enforcement powers और limits रखे जाएंगे। लेकिन वह इस bargain की समझदारी को खुद नहीं बदलती। उसे बदलने के लिए समाज की productive capacity को organize और reward करने का बेहतर तरीका चाहिए
फिर भी generative AI कंपनियों को और पैसा कमाने देने के लिए copyright खत्म करने का विचार पूरी तरह अजीब लगता है
मेरे लिए यह सवाल ही गलत था
सभी जानते थे कि इन्हें copyrighted सामग्री पर train किया गया है, और ये डरावनी हद तक मिलते-जुलते output दे सकते हैं
लेकिन यह पहले ही बड़े पैमाने पर हो चुका है, और बड़ी कंपनियां पूरी ताकत से इसमें कूद चुकी हैं। निकले हुए toothpaste को वापस tube में डालने की कोई संभावना नहीं है
यह उस समय जैसा है जब बड़ी tech कंपनियों ने aggressive user data collection के ऊपर अपना business खड़ा किया था। यह सही है या नहीं, नैतिक है या नहीं, यहां तक कि legal है या नहीं—इस stage पर ये लगभग academic बहसें हैं। उन्होंने बस कर दिया, और society की ठीक-ठाक informed consent के बिना व्यवहार में इसे आगे बढ़ा दिया
यहां सही सवाल है, “अब क्या करना है?” Tracking technology के समय की तरह जवाब शायद “कुछ खास नहीं” के करीब होगा
सस्ती music recording और manufacturing जैसी technologies के साथ भी यही था। आप किसी artist को एक बार record कर सकते हैं और records को mass-produce कर सकते हैं, लेकिन इसका मतलब यह नहीं कि Taylor Swift को एक बार record करने के बाद बिना पैसे दिए unlimited copies बना सकते हैं
1942 musicians’ strike के बारे में पढ़ना अच्छा रहेगा: https://jacobin.com/2022/03/1940s-musicians-strike-american-...
यह Napster में, फिर Apple Music में, और अब streaming services में पहले ही हो चुका है
आम जनता के बीच व्यापक file sharing बचे रहने के बजाय, हमारे पास ऐसे devices और streaming subscriptions हैं जिनके हम मालिक नहीं हैं
Apple ने सारे music को iPod में copy करके नहीं बेचा; content rights पाने के लिए उसने 10 साल की contract negotiations और बहुत पैसा लगाया
मैं यह नहीं कह रहा कि क्या सही है और क्या गलत, बल्कि यह कि ऐसी लड़ाइयों को लगभग समझे बिना बात की जा रही है
Uber और AirBnB का वह समय याद आता है जब वे ज्यादातर बड़े शहरों में illegal थे, लेकिन आखिरकार market dominance हासिल कर गए
मैं तो इसे उल्टा अच्छा मानता हूं। मैंने कभी “intellectual property rights” जैसी चीजों में विश्वास नहीं किया। Patents, copyright, और काल्पनिक “rights” के पूरे bundle को खत्म कर देना चाहिए
दुनिया के आधे से ज्यादा हिस्से, यानी Global South, ऐसे rights को मानते ही नहीं, और अब कठोर legal over-enforcement और monopolistic centralization के बिना इन्हें enforce करना भी लगातार कठिन होता जा रहा है
ये अरबों-खरबों डॉलर की कंपनियां हैं। Shareholders और top management को यह कितना भी नापसंद हो, यहां इनके पास responsible members of society की तरह व्यवहार करने की गुंजाइश है
EU में यह समस्या नहीं होनी चाहिए। “Copyright in the Digital Single Market” directive के Articles 3 और 4 पहले ही इसे regulate करते हैं
Wolters Kluwer के summary के अनुसार, commercial machine-learning developers सहित बाकी सभी entities केवल उन legally accessible copyrighted works का उपयोग कर सकती हैं जिनके rights holders ने text और data mining के उपयोग को स्पष्ट रूप से reserve नहीं किया है
मेरी जानकारी में “training forbidden” दिखाने वाले robot.txt जैसी किसी चीज पर चर्चा चल रही है। शायद कुछ safeguards implement करने होंगे, और end users को generated works का उपयोग करते समय सावधान रहना होगा
Kluwer source: https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
EU law text: https://eur-lex.europa.eu/eli/dir/2019/790/oj
https://eur-lex.europa.eu/eli/dir/2019/790/oj
Copyright infringement न हो, यह सुनिश्चित करने की जिम्मेदारी उस व्यक्ति की है जो work को publish करता है
चाहे आपने खुद draw किया हो, बिना legal training वाले apprentice painter से कराया हो, photo खींचा हो, या artificial intelligence से image बनाई हो—इससे फर्क नहीं पड़ता
हम क्यों मान लें कि ChatGPT या कोई दूसरा tool मौजूदा copyrighted content नहीं बनाएगा?
“Generate” हुआ है, इसलिए original होगा—यह भोली assumption समझ में आती है। लेकिन जैसे ही “ChatGPT” को “junior artist” से बदलते हैं, वह assumption टूट जाती है
मान लीजिए आप उससे science fiction movie का droid draw करने को कहते हैं, और कुछ नहीं कहते। Copyright की बात भी नहीं करते, और यह भी नहीं कहते कि original होना चाहिए। तो आप क्या expect करेंगे कि वह क्या draw करेगा?
वह hypothetical junior artist भी कम से कम उतनी ही, शायद उससे भी ज्यादा liability उठाएगा
इस लेख और NYT मुकदमे के मूल मुद्दे को बिल्कुल न समझने जैसे जवाब हैरान करने वाली संख्या में हैं। ChatGPT, NYT लेखों के बड़े हिस्से सैकड़ों से हजारों शब्दों की लंबाई में बिल्कुल मूल पाठ की तरह पुनः प्रस्तुत कर सार्वजनिक कर सकता था
यह derivative work नहीं है। यह उस चरण से बहुत आगे जा चुका है। NYT के पास बेहद मजबूत केस है, और जो लोग copyright के फायदे-नुकसान पर बहस कर रहे हैं वे असल मुद्दे से भटक रहे हैं
यह एक मुकदमा अकेले copyright को उलट नहीं देगा। OpenAI ज़्यादा से ज़्यादा यह कह सकता है कि “यह नया है, हमें कैसे पता होता कि ऐसा होगा।” अगर ऐसा है, तो मौजूदा trained models बहुत मुश्किल स्थिति में हैं
साथ ही लगता नहीं कि NYT settlement करेगा। इसके implications बहुत बड़े हैं, और अगर OpenAI से settlement होता है तो बाकी सभी models में भी ऐसे ही केस पैदा होंगे। digital content publish करने वाले बाकी सभी media outlets के पास भी ऐसे ही वैध केस होंगे
यह generative AI का turning point है, और यह हमारे शुरुआती अनुमान से कहीं ज्यादा महंगा या कहीं ज्यादा restricted होने की संभावना रखता है
side effect के रूप में मुझे लगता है कि pirate models बढ़ेंगे। ऐसे models जो legality को पूरी तरह नजरअंदाज करेंगे, distributed तरीके से train होंगे, और जिनके weights कंपनियों के बजाय groups द्वारा distribute किए जाएंगे, जैसे torrent models
इस बात की भी ठीक-ठाक संभावना है कि ऐसे models official “सभ्य” models से performance में आगे निकल जाएं। अगले कुछ सालों में यह दिलचस्प तरीके से विकसित होता दिखेगा
तर्क यह होगा कि ChatGPT default रूप से copyrighted works को reproduce नहीं करता, बल्कि YouTube जिस तरह लोगों द्वारा upload किए गए videos उपलब्ध कराता है, उसी तरह third-party users के requests या actions की वजह से reproduce करता है
OpenAI का इरादा copyright infringement का नहीं था, और वास्तव में कई या ज्यादातर researchers मानते थे कि model किसी भी random copyrighted work के बड़े हिस्से को reproduce कर सके, इतना overfit नहीं है
मूल रूप से, किसी बड़ी कंपनी का समर्थन न हो तो copyright का कोई मतलब नहीं, और अगर कोई कंपनी पीछे हो तो original copyright में होने वाली limitations की परवाह किए बिना उसे हमेशा के लिए lock किया जा सकता है
OpenAI अगर पुरानी news को मूल पाठ की तरह reproduce कर सकता है, तो इससे NYT कुछ नहीं खोता
अगर NYT जीतता है तो हम बहुत कुछ खो देंगे। अब copyright को फिर से देखने का समय है। सच में ऐसा किया जा सकता है, और यह काफी पुराना हो चुका है इसलिए update की जरूरत है
Stable Diffusion, Control Net और LoRA जैसी चीजों का पूरा इस्तेमाल करने पर दूसरे proprietary models को मात दे देता है
थोड़ा idealistic हो सकता है, लेकिन मैंने हमेशा माना है कि कला और publishing का मुख्य उद्देश्य केवल बड़ा पैसा कमाना नहीं, बल्कि culture और society पर असर डालना होना चाहिए
इसलिए original works को protection की जरूरत है, लेकिन creativity और inspiration को बढ़ावा देने के लिए उन्हें कहीं ज्यादा जल्दी public domain में आ जाना चाहिए। transition period को दशकों में नहीं, बल्कि कुछ वर्षों के हिसाब से सोचना चाहिए
कला का मुख्य उद्देश्य व्यक्ति में emotion पैदा करना है। यह विचार कि कला को कोई lesson सिखाना चाहिए, शायद आजकल इतनी खुली “activist” fiction दिखने की वजह है
इन्हें ठीक करना इतना मुश्किल नहीं लगता। ज़्यादातर उदाहरण सामान्य descriptions नहीं, बल्कि जाने-पहचाने targets की short-hand expressions हैं
“वीडियो गेम प्लंबर” असल में “Mario” का पर्याय ही है, और जो भी उस character को थोड़ा भी जानता है, उसे यह पता है
इसी तरह, किसी description tool से Mario जैसी images का वर्णन करवाने के बाद [1], “वीडियो गेम प्लंबर” डालने वाले लोगों के लिए ऐसे results हटाना कितना मुश्किल होगा?
यह मुझे internet के शुरुआती दिनों की याद दिलाता है, जब लोग copyright law के उल्लंघन के नाम पर मुफ्त fanfiction हटवाने की कोशिश कर रहे थे। जो चीज़ creator बेचने की कोशिश भी नहीं कर रहा, ऐसे personal use पर copyright law लागू करना मेरे नज़रिए से काफी भयावह है
50 साल बाद की कल्पना करें। “रोबोट, क्या तुम मेरे school diorama के लिए बनाई इस drawing को काट दोगे?” “ज़रूर।” “यह भी कर दो।” “Error: इस image में copyrighted material शामिल होने की संभावना है, इसलिए इसे process नहीं किया जा सकता।”
generative AI systems में copyright-infringing material बनाने की पर्याप्त क्षमता है
और जब वे ऐसा करते हैं, तो user को बताते नहीं
इसलिए कोई भी output web के किसी obscure लेकिन फिर भी protected source material का उल्लंघन कर सकता है, और उस output का उपयोग करने वाला कोई भी व्यक्ति बिना किसी warning के मुकदमे के जोखिम में पड़ सकता है
इसे ठीक करना बेहद मुश्किल है
अगर कोई जानबूझकर infringing content बनाने की कोशिश नहीं कर रहा, तो ऐसे results हटाए या discard किए जा सकते हैं, लेकिन समस्या उन लोगों की है जो AI को धोखा देकर ऐसा content बनवाना चाहते हैं। जब तक copyrighted/trademarked training material को पूरी तरह बाहर नहीं किया जाता, उन्हें रोकना असंभव होगा
generative AI की एक और समस्या, जैसा article में भी कहा गया है, यह है कि “DALL-E और ChatGPT जैसे systems मूल रूप से black boxes” हैं
जब किसी स्थिति में user या victim को यह ठीक-ठीक जानने का अधिकार हो कि AI ने ऐसा decision क्यों लिया, और AI decision-making में इस्तेमाल हो रहा हो, तो क्या होगा? Business और legal perspective से, मौजूदा AI solutions जोखिम भरे हैं और उनका इस्तेमाल बहुत सीमित रूप से होना चाहिए। क्योंकि इन्हें बनाने वाले लोग भी उन सटीक information pieces की ओर इशारा नहीं कर सकते जिनकी वजह से AI ने कोई खास choice की
अगर मैंने “columbian coffee logo” input किया और पहले से मौजूद brand logos निकल आए, तो क्या यह verify करने के लिए पूरा internet reverse-engineer करना होगा कि वे logos पहले से मौजूद थे या नहीं?
AI को sources of inspiration दिखाने चाहिए। कोई इंसान जब किसी चीज़ से प्रेरित होकर रचना करता है, तो उसे ठीक-ठीक पता होता है कि उसने क्या इस्तेमाल किया और वह plagiarism की सीमा पार कर रहा है या नहीं। लेकिन AI जिस तरह काम करता है, वह इसके लिए बहुत opaque है
मेरे हिसाब से बस sources उजागर किए जाने चाहिए। हालांकि इसका मतलब होगा कि AI companies को datasets public करने होंगे, और इससे ऐसी जानकारी भी सामने आ सकती है जो उनके पास होनी ही नहीं चाहिए थी या जिसे public नहीं किया जाना चाहिए था
मेरी समझ के मुताबिक generative AI के लिए कानूनी मिसाल वैसी ही है जैसे Google को सार्वजनिक हित में search index बनाने के लिए websites scrape करने की अनुमति मिली
Google websites का cached version भी दिखा सकता है, और वह उस site का original content होता है। Google किसी दूसरी website का content ज्यों-का-त्यों दिखाए, तो कोई इसे copyright infringement नहीं कहेगा
इसलिए मुझे यह दलील कमजोर लगती है। अगर हर cultural reference और popular IP, यहां तक कि कम प्रसिद्ध चीजें भी हटानी पड़ें, तो AI बेकार हो जाएगा
निजी तौर पर मुझे लगता है कि generative AI को training data में मौजूद मिलते-जुलते original material के links दे पाने चाहिए। AI training में योगदान देने वालों को compensation देने का यह न्यूनतम तरीका है
अगर generative AI उन websites और artists, दोनों को खत्म करने की दिशा में जाता है जिन्होंने original material बनाया, तो मुझे नहीं लगता कि यह long term में sustainable है। sources transparency जोड़ते हैं, और users को यह समझने में भी मदद करते हैं कि चीज hallucination है या नहीं
लोगों को अपने content को training में इस्तेमाल होने से opt out करने की सुविधा होनी चाहिए, और यह भी verify कर सकना चाहिए कि उसे future versions से हटाया गया है या नहीं
सच कहें तो AI कंपनियां बस इसे secret रखकर lawsuits से बचना चाहती हैं। मुझे लगता है कि doomsday scenarios की तुलना में इस क्षेत्र में regulation मददगार हो सकता है
[1]: https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
[2]: https://www.theguardian.com/technology/2016/apr/27/getty-ima...
हर tech wave के पास creators को समय और पैसा लगाकर original material बनाने के लिए राजी करने का कोई तरीका था, और बाद में rules बदल गए
Google ने content को reach और नए markets का वादा किया, और वह सचमुच काम किया। फिर उसने snippets, ads, और visitors को original site पर भेजने के बजाय अपनी ही highway पर रोके रखने वाले तरह-तरह के mechanisms पेश किए
Reddit, Stack Overflow आदि ने scores और badges जैसी gamification और community के जरिए users को original content contribute करने के लिए प्रेरित किया
अब AI इन approaches को हिला रहा है। हर step पर original material बनाने का incentive घटता हुआ लगता है, क्योंकि return लगातार कम होता जा रहा है
अगर AI बिना किसी benefit के—यानी reach, gamification, community, recognition की संभावना के बिना—बस original content को दोहराता है, तो अब experts के लिए क्या incentive बचता है?
यह वैसा ही है जैसे तुम अपने comment लिखने में जिन original materials से प्रभावित हुए, उनके links नहीं दे सकते। उस जवाब को generate कराने वाले neurons के weights में कितनी training शामिल थी? italics इस्तेमाल करना और उसका words की interpretation पर असर कहां से सीखा? इस forum के लिए सही tone कहां से सीखी?
अगर “लोगों को अपना content training में इस्तेमाल होने से opt out करने की सुविधा होनी चाहिए”, तो क्या जब मैं कोई किताब लिखूं, तुम्हें वह किताब पढ़ने से रोकने के लिए मुझे opt out करने की सुविधा होनी चाहिए? कौन मेरा काम पढ़ सकता है, इस पर क्या मुझे conditions लगाने की अनुमति होनी चाहिए? धर्म? त्वचा का रंग? जो लोग अच्छी तरह याद नहीं रख पाते?
उम्मीद है कि कौन ज्ञान हासिल कर सकता है, इसे सीमित करने का विचार बेतुका लगेगा। तो फिर वही restriction “कौन” के बजाय “क्या” पर लगाई जाए, तो वह ठीक क्यों है?
AI कंपनियों ने lawsuits से बचने के लिए secrecy रखी, जिससे research barriers पैदा हो गए। मैं और Joe एक ही dataset पर research और papers में collaborate कर सकते, इसके बजाय training data छिपाना पड़ता है। क्योंकि डर है कि Luddites मशीनें तोड़ने आ जाएंगे। मानो learning तभी ठीक है जब वह बहुत अच्छी न हो
लेकिन AI training सच में fair use के four-factor test को satisfy करती है या नहीं, यह अभी देखना बाकी है
मैं सहमत हूं कि generative AI में भी इसे implement किया जा सकना चाहिए, लेकिन उस information को बनाए रखने से training cost कहीं ज्यादा महंगी हो सकती है, और AI कंपनियों की इसमें बहुत कम दिलचस्पी है। वे शायद post-processing stage में possible copyright issues को heuristically evaluate करने की कोशिश करेंगी
ज्यादा दिलचस्प सवाल यह है कि लगभग verbatim reproduction से आगे बढ़कर, क्या copyright holders यह दावा कर सकते हैं कि उनकी works ने collectively AI को ज्यादा general तरीके से प्रभावित किया, इसलिए यह unauthorized use है
हमें generative AI पर ही लागू होने वाला ज्यादा स्पष्ट कानून चाहिए। वास्तविक इंसानों से comparisons और analogies बहुत ज्यादा आ रही हैं
“अगर कोई trademarked material देखकर drawing सीखता है और गलती से उससे मिलती-जुलती चीज बना देता है तो क्या होगा” जैसी बातें आती हैं, लेकिन ये models इंसान नहीं हैं और एक अलग category में मौजूद हैं
मुझे लगता है कि ये models कुछ हद तक trademark infringement करते हैं, लेकिन साथ ही मुझे यह भी लगता है कि इसकी अनुमति होनी चाहिए। अंतिम जिम्मेदारी उस व्यक्ति पर होनी चाहिए जो image को general public द्वारा consume किए जाने वाले independent medium के रूप में इस्तेमाल करता है
ऐसी चर्चाओं में मॉडल मुख्य मुद्दे से ज़्यादा धुंधला पर्दा जैसे काम करते हैं, और लगता है चर्चा वहीं अटक जाती है
मॉडल “responsibility chain” में plausible deniability देते हैं। “LLM” हटाकर उसकी जगह “amusement park sideshow का जादुई बॉक्स” रख दें, तो यह दावा कि LLM में कुछ खास है इसलिए उसे अपवाद मिलना चाहिए, बहुत जल्दी गायब हो जाएगा
Betamax precedent कहता है कि जिस technology के पर्याप्त non-infringing uses हों, वह अपने-आप में infringement नहीं है
पहले से precedent है कि AI-generated works को copyright protection नहीं मिलता, और उसी logic से AI की generation act में intent व्यक्त नहीं होता। इसलिए infringement का सवाल output इस्तेमाल करने वाले इंसान पर निर्भर होना चाहिए। क्योंकि black box में खुद कोई agency नहीं होती
यह निष्कर्ष निकालने से पहले कि LLM, या और broadly generative techniques, somehow अगली बड़ी wave हैं, या यह दावा करने से पहले कि हम “general” intelligence की दहलीज़ पर हैं, पहले वह दरवाज़ा दिखाना होगा
वह दरवाज़ा box में कुछ input डालकर दूसरी तरफ से निकलने वाली चीज़ देखने के मनोरंजनात्मक value से आगे, वास्तविक समस्याएं हल करने में industrial adoption का रूप हो सकता है। लेकिन अभी तक मेरी नज़र में कोई भी सच में ऐसा करता नहीं दिखता