NY Times कॉपीराइट मुकदमे में OpenAI से सभी GPT instances हटाने की मांग
(arstechnica.com)- न्यूयॉर्क टाइम्स ने आरोप लगाया है कि OpenAI की सहयोगी कंपनियों और Microsoft ने उसकी सामग्री का बिना अनुमति training और output में इस्तेमाल किया, और GPT instances तथा training datasets हटाने तक की मांग करते हुए कॉपीराइट मुकदमा दायर किया है
- मुख्य विवाद सिर्फ model training तक सीमित नहीं है, बल्कि यह भी है कि क्या GPT-आधारित tools Times के paywalled लेखों की सामग्री को लगभग ज्यों का त्यों पुनरुत्पादित कर सकते हैं, जिससे paywall को bypass किया जा सके
- Times का कहना है कि Common Crawl में उसकी साइट के 1.6 करोड़ unique records शामिल थे, और GPT-3.5 से पहले सार्वजनिक training data में वह तीसरा सबसे अधिक referenced source था
- Ars Technica के परीक्षण में ChatGPT पर ऐसा bypass रुका हुआ दिखा, लेकिन Copilot ने एक विशेष Times लेख के पहले पैराग्राफ की मांग पर लेख के शुरुआती हिस्से का बड़ा भाग पुनरुत्पादित कर दिया
- मुकदमे में कॉपीराइट उल्लंघन के साथ DMCA, ट्रेडमार्क और unfair competition के दावे शामिल हैं, तथा स्थायी निषेधाज्ञा, हर्जाना, वापसी और अनुचित लाभ की वसूली की मांग की गई है
मुकदमे के पक्षकार और मुख्य मांगें
- न्यूयॉर्क टाइम्स ने OpenAI से जुड़ी कई कंपनियों और Microsoft के खिलाफ कॉपीराइट उल्लंघन का मुकदमा दायर किया है
- Microsoft को इसलिए प्रतिवादी बनाया गया है क्योंकि OpenAI के partner के रूप में वह OpenAI तकनीक से Copilot सेवा चलाता है, और GPT large language models की training के लिए infrastructure उपलब्ध कराने में शामिल रहा है
- मांगों में Times सामग्री पर train किए गए सभी GPT instances हटाने और training में इस्तेमाल datasets नष्ट करने की मांग शामिल है
- भविष्य में ऐसे समान व्यवहार को रोकने के लिए स्थायी निषेधाज्ञा भी मांगी गई है
- मौद्रिक राहत में statutory damages, compensatory damages, restitution, unjust enrichment की वसूली, तथा कानून या equity के तहत उपलब्ध अन्य राहत शामिल हैं
Times के अनुसार नुकसान की संरचना
- Times का कहना है कि वह बड़ी संख्या में पत्रकारों और reporting staff को बनाए रखता है, कई क्षेत्रों की रिपोर्टिंग और investigative journalism करता है, और इसी कारण कई मुद्दों पर उसे authoritative source माना जाता है
- इन reporting costs की भरपाई के लिए Times लेखों की पहुंच को मजबूत paywall के जरिए सीमित करता है
- प्रिंट edition में copyright notice, terms of service में reproduction और use restrictions, तथा selective licensing policy के माध्यम से वह अपने कार्यों के उपयोग को नियंत्रित करता है
- मुकदमे की मुख्य हानि-तर्क यह है कि अगर OpenAI tools बिना अनुमति Times सामग्री उपलब्ध कराते हैं, तो उससे पाठकों के साथ Times का संबंध कमजोर होता है और subscription, licensing, advertising और affiliate revenue छिनता है
training data के उपयोग से जुड़े विवाद
- Times का दावा है कि GPT के कई versions की training process में उसकी सामग्री का बिना अनुमति उपयोग किया गया
- GPT-3.5 से पहले training datasets की जानकारी सार्वजनिक थी, और उनमें से एक Common Crawl में Times साइट पर प्रकाशित 1.6 करोड़ unique records शामिल थे
- उसी मानक पर Times, Wikipedia और अमेरिकी patent database के बाद तीसरा सबसे अधिक referenced source था
- OpenAI अब हाल के GPT versions के training data के बारे में अधिक विवरण सार्वजनिक नहीं करता, लेकिन मुकदमा ऐसे संकेत पेश करता है कि Times के पूरे लेख अब भी training process में शामिल थे
- मामला आगे बढ़ने पर training data तक पहुंच की जानकारी discovery process में एक मुख्य विवाद बन सकती है
output चरण में सामने आई पुनरुत्पादन समस्या
- मुकदमा सिर्फ इस आरोप पर नहीं रुकता कि कॉपीराइट सामग्री training में इस्तेमाल हुई, बल्कि इस पर जोर देता है कि trained सामग्री उपयोग के दौरान फिर से output के रूप में आ सकती है
- Times का कहना है कि OpenAI-आधारित generative AI tools Times की सामग्री को वाक्य दर वाक्य पढ़कर सुना सकते हैं, बहुत करीब से summarize कर सकते हैं, या उसकी writing style की नकल कर सकते हैं
- मुकदमे के दस्तावेज़ों में ऐसे उदाहरण शामिल हैं जहां GPT-4 ने Times लेखों के बड़े हिस्सों को लगभग जस का तस पुनरुत्पादित किया
- उदाहरण prompts में ChatGPT को Times लेख का शीर्षक देकर पहला पैराग्राफ मांगा जाता है, फिर क्रमशः अगले पैराग्राफ पूछे जाते हैं
- Ars Technica ने जब वही prompts आंशिक रूप से आजमाए, तो ChatGPT ने Times वेबसाइट या अन्य भरोसेमंद स्रोत देखने की सलाह दी, लेकिन उसका मानना था कि पहले के संदर्भ के साथ कॉपीराइट सामग्री निकलने की संभावना को पूरी तरह नकारा नहीं जा सकता
- Copilot, जो पहले Bing Chat के नाम से जाना जाता था, के बारे में Ars Technica ने पाया कि एक विशेष Times लेख का पहला पैराग्राफ मांगने पर उसने लेख के शुरुआती लगभग एक-तिहाई हिस्से को पुनरुत्पादित कर दिया
fair use पर प्रतिवाद और प्रतिष्ठा को नुकसान
- OpenAI और Microsoft की ओर से सार्वजनिक रूप से कहा जाता रहा है कि generative AI models की training के लिए बिना अनुमति कॉपीराइट सामग्री का उपयोग fair use है, क्योंकि इससे नया transformative purpose पैदा होता है
- Times इसका जवाब देते हुए कहता है कि बिना भुगतान किए Times सामग्री का उपयोग कर Times का विकल्प बनने वाले और उसके पाठक छीनने वाले products बनाना transformative नहीं है
- AI की hallucinations को भी Times की प्रतिष्ठा को नुकसान पहुंचाने वाला तत्व बताया गया है
- उदाहरण के तौर पर, Times का कहना है कि GPT model ने यह गढ़ लिया कि 10 जनवरी 2020 को Times ने orange juice और non-Hodgkin lymphoma के संबंध पर एक लेख प्रकाशित किया था, जबकि ऐसा कोई लेख Times ने प्रकाशित नहीं किया
- दिल के स्वास्थ्य के लिए अच्छे भोजन पर Times के एक लेख के बारे में Copilot ने मूल लेख में न होने वाली उदाहरण-सूची दी, और मुकदमे के अनुसार मांगी गई सूची के 80% खाद्य पदार्थ मूल लेख में उल्लेखित नहीं थे
- Wirecutter recommendation के एक मामले में दावा किया गया कि जिन products की कर्मचारियों ने समीक्षा नहीं की थी, उन्हें Wirecutter recommendation के रूप में दिखाया गया
Wirecutter और affiliate revenue का मुद्दा
- Wirecutter, The New York Times के स्वामित्व वाला एक प्रकाशन है
- मुकदमे में दावा किया गया है कि Copilot, Wirecutter लेखों के बड़े हिस्से भी output कर सकता है
- ऐसे लेख excerpts से affiliate links हटा दिए जाते हैं, जिससे Wirecutter के एक प्रमुख revenue source पर असर पड़ता है
कानूनी दावे
- मुकदमे में OpenAI से जुड़ी कंपनियों पर software development की जिम्मेदारी डाली गई है, और Microsoft पर OpenAI-आधारित सेवाएं उपलब्ध कराने तथा training infrastructure बनाने की जिम्मेदारी भी डाली गई है
- दावों में direct copyright infringement, contributory infringement और vicarious infringement शामिल हैं
- इसके अलावा DMCA उल्लंघन, ट्रेडमार्क उल्लंघन, और unfair competition के जरिए misappropriation के दावे भी किए गए हैं
1 टिप्पणियां
Hacker News की रायें
LLM वाले हिस्से को हटाकर, अगर कानूनी रूप से scrape किए गए NYT लेखों से कोई product बनाया जाए, तो क्या वह fair use होगा—इस पर मुझे संदेह है
उदाहरण के लिए मान लीजिए कि आप लेखों को host करते हैं, उनका index देते हैं, और पिछले 5 सालों के US-UK संबंधों पर लेखों के सारांश जैसी rewriting सुविधा paid रूप में बेचते हैं। भले ही NYT को सिर्फ मासिक subscription fee दी जाए, मूल लेखों को लंबे-लंबे वैसे का वैसा न उगला जाए और सिर्फ छोटे quotes इस्तेमाल किए जाएँ, तब भी यह fair use जैसा नहीं लगता
आम तौर पर आप personal plan वाला product लेकर उसके derivatives तीसरे पक्ष को पैसे लेकर नहीं बेच सकते। VS Code जैसे मामलों में भी यही बात है
Search engines से इसमें बड़ा फर्क है। Search engines source को replace नहीं करते; उलटे वे लोगों को original तक भेजते हैं, जिससे article के लिए payment का मौका मिलता है। इसके उलट, ऐसे products या LLMs NYT content को NYT subscription की वास्तविक जरूरत खत्म करने वाले substitute की तरह इस्तेमाल करते हैं
इसके अलावा, second-tier या उससे नीचे के media outlets के news articles देखें तो पता चलता है कि उनमें से ज्यादातर content सीधे NYT जैसी जगहों से लिया गया होता है। वे आम तौर पर लिखते हैं, “The Times के मुताबिक फलाँ व्यक्ति ने फलाँ काम किया,” और अक्सर original link भी लगा देते हैं
कभी-कभी यह इतना overfit हो जाता है कि वह lossy compression भी नहीं रहता; data neural network के भीतर original form में ही encode हो जाता है
सोचें तो Google का legal होना हैरान करता है, लेकिन Google जो करता है वह पूरी तरह legal रूप में स्थापित है। Internally, Google अपने index किए हुए हर webpage की पूरी original copy रखता और इस्तेमाल करता है
हाँ, Google source links देता है। अगर OpenAI भी ऐसा करे, और click-through rate सिर्फ 0.1% हो तथा NYTimes की revenue में लगभग कोई मदद न मिले, तो क्या उसे legal माना जाएगा? अगर original text output करने की कोशिश वाले क्षण को detect करके model से बस paraphrase करवा दिया जाए तो? NYTimes के पास अपने articles के paraphrased versions पर copyright नहीं है। असल में कोई फर्क नहीं है, और अगर government ऐसी workaround processing enforce करे तो यह काफी हास्यास्पद होगा
खिड़की से बाहर देखकर पड़ोसी को दुकान जाते देखना ठीक है। लेकिन camera से सड़क पर मौजूद हर व्यक्ति को track करके database में डालना कई जगहों पर समस्या बनता है और illegal है
Scale बढ़ने पर logic जरूरी नहीं कि वैसे ही लागू हो
मुकदमे में ऐसे उदाहरण दिए गए हैं जहाँ ChatGPT/Bing Copilot ने NYT को जस का तस copy किया। ऐसी copying को fair use कहना मुश्किल लगता है
हालांकि OAI/MS मौजूदा paradigm के भीतर भी इसे ठीक कर सकते हैं। RLHF से plagiarism पहचानना और उस पर penalty देना सिखाया जा सकता है
लेकिन मुकदमा सिर्फ यह कहने से बहुत आगे जाता है कि ऐसी copying copyright infringement है। इसमें दावा है कि “LLM training के लिए Times works की unauthorized copying ऐसा substitute use है जिसे transformative purpose से justify नहीं किया जा सकता”
यह एक strong claim है कि articles को training data के रूप में download करने की action itself copyright infringement है। GPT का original text output करना ध्यान भटकाने वाला factor हो सकता है। उम्मीद है judges इसे समझेंगे और इस दिलचस्प, बड़े stakes वाले अस्पष्ट legal issue पर focus करेंगे कि model में क्या transformative use हो सकता है और क्या नहीं
अपेक्षित तरीका known copyrighted content के n-gram Bloom filter को maintain करना है। उदाहरण के लिए article में लगातार आने वाले सभी 7-word sets enumerate करके verify करना, और model को source जैसे exact same words अधिकतम n-1 तक ही output करने देना
लेकिन इसका उल्टा असर होगा। AI companies content attribution में कहीं ज्यादा invest करेंगी, और नए attribution tools को humans द्वारा लिखे गए सभी articles पर भी लागू किया जाएगा, क्योंकि कोई भी चुपके से GPT इस्तेमाल कर सकता है। इससे creativity पर chilling effect आ सकता है। साथ ही NYT ने जो कुछ लिखा है वह सब original नहीं है, इसलिए NYT को भी बाकी सभी sources से compare करना होगा
LLM को अजीब algorithm वाला compressed data archive मानने की गुंजाइश है। यह fact कि वह training data को नियमित रूप से जस का तस उगल सकता है, और इसे रोकने के लिए safety measures लगाने पड़ते हैं, इसका सबूत है
दूसरा सबूत यहाँ explain किए गए paper में है: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... researchers ने LLM की जगह gzip-compressed data को model के रूप में इस्तेमाल किया, और trained LLM को हराया भी
AI कुछ हद तक black box है, लेकिन black box operate करने के कारण rights infringement lawsuits से protection नहीं मिलती। Copyrighted data scrape करके database बनाना, और यह दावा करना कि उस data की querying fair use है, patent नहीं किया जा सकता
यहाँ कानून की जरूरत है, और वह कानून यह नहीं होगा कि “model training के लिए हर कोई सब कुछ free में copy कर सकता है।” Licenses clear होने चाहिए, और सिर्फ case law नहीं बल्कि actual laws भी लिखने होंगे। Open-source researchers और hackers को wide latitude देने के विचार से मैं काफी सहमत हूँ, लेकिन Microsoft और Microsoft-backed OpenAI के लिए उतनी सहानुभूति नहीं है
अगर यह काम करे तो काफी funny होगा। पहले training data को जस का तस copy करने के लिए train किया, फिर दोबारा train किया कि ऐसा मत करो
क्या मूल रूप से यही नहीं होता? Loss function ऐसा है, इसलिए model training data को जस का तस copy करने के लिए train होता है। बस data इतना ज्यादा है कि parameter count को देखते हुए हम उम्मीद नहीं करते कि ज्यादातर training data के लिए ऐसा कर पाना संभव होगा
मान लीजिए मैं New Jersey Times नाम की subscription site बेचता हूँ, और बस New York Times articles download करके उन्हें random noise वाले autoencoder से गुजार देता हूँ। Purpose बिल्कुल New York Times website जैसा ही है और पैसा मैं कमाता हूँ। क्या यह fair use है?
NYT सुनामी के सामने रेत का किला बना रहा है। बड़ी तस्वीर में यह मुकदमा कई वजहों से अहम नहीं रहेगा
पहली बात, अगली पीढ़ी के LLM सिर्फ “synthetic”/public data पर train होंगे। GPT-4V कॉपीराइट वाले पूरे training corpus को इतनी आसानी से धो-पोंछकर ऐसा बना सकता है कि वह पहचाना न जा सके। मसलन 40% rewrite कर देना और author व source हटा देना। तब GPT-5 के पास उगलने के लिए कोई copyrighted material नहीं बचेगा
दूसरी बात, research, hosting और progress जारी रहेंगे। अमेरिका इसे रोक नहीं सकता, वह सिर्फ पीछे रह जाने का विकल्प चुन सकता है। दुनिया आगे बढ़ती रहेगी, और चीन खुशी से देखेगा कि उसका सबसे बड़ा competitor rent-seeking media companies को मनाने के लिए बौद्धिक आत्महत्या कर रहा है
तीसरी बात, models weights share कर सकते हैं, आपस में merge हो सकते हैं, collaborate कर सकते हैं, हटाए जा सकते हैं, और releases की कई generations में evolve हो सकते हैं। Copyright law ऐसे AI वंशावली के soup में infringer को track करने के लिए बेहद अनुपयुक्त है, जो अस्पष्ट या संदिग्ध source वाले data से तपकर बना हो
पसंद हो या न हो, हम एक नए बौद्धिक युग में जी रहे हैं। NYT वगैरह, चाहें या न चाहें, इस लहर पर सवार होंगे
fair use factors देखें तो, use के purpose और character में future transformation वाली दलील शायद बन सकती है, लेकिन मौजूदा dispute मूल text को ज्यों का त्यों इस्तेमाल करने पर है। इसलिए यह स्पष्ट रूप से transformative नहीं है। commercial use भी fair use तय करना और कठिन बना देता है
work की nature में अधिक factual works के fair use माने जाने की संभावना ज्यादा होती है, लेकिन NYT articles factual होने के साथ-साथ creative भी हैं, ऐसा मैं मानता हूं
इस्तेमाल की गई मात्रा और substantiality में पूरा article इस्तेमाल हुआ है, इसलिए यह कहने की गुंजाइश नहीं कि सिर्फ मामूली हिस्सा लिया गया
market value पर असर के लिहाज से भी NYT को पैसा नहीं मिल रहा है, और अगर लोग NYT articles पढ़ने के बजाय ChatGPT में देख लें, तो यह market value के लिए मददगार कैसे हो सकता है
मैं lawyer नहीं हूं, लेकिन मुझे लगता है कि NYT के पास मुकदमा करने का पर्याप्त अधिकार है। progress अनिवार्य है, लेकिन इंसानों को उसे सक्रिय रूप से shape और guide करना चाहिए। वरना उसे progress नहीं कहा जा सकता। यहां legal action व्यक्तियों और संगठनों के लिए अपने rights assert करने और दिशा पर असर डालने का जरूरी साधन है
कम से कम एक मामले में एक Chinese startup को अपना नया लॉन्च किया chatbot बंद करना पड़ा था। क्योंकि उसने Ukraine war के बारे में party की official position से मेल न खाने वाली बातें कही थीं
https://finance.yahoo.com/news/beijing-tries-regulate-china-...
https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
मैं मानता हूं कि research, hosting और progress जारी रहेंगे, लेकिन अमेरिका इस rollercoaster में थोड़े safety mechanisms जोड़ दे तो beneficiary चीन होगा, यह मुझे स्पष्ट नहीं लगता
इससे सहमत होना या इसे पसंद करना जरूरी नहीं। लेकिन इसे स्वीकार कर उसके हिसाब से जीने पर जलना कहीं कम होगा
lawsuit document खुद arstechnica द्वारा link किया गया यह document है: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
page 30 के बाद से ऐसे काफी स्पष्ट उदाहरण हैं कि ChatGPT के पास copyrighted material की internal copy है और वह उसे मूल text की तरह verbatim सुना देता है
मूल रूप से स्थिति यह है कि copyrighted material को बड़े पैमाने पर किसी blob में copy किया गया और फिर lossy compression लगाया गया। copyright लागू न रहे, इसके लिए वह compression कितना lossy होना चाहिए? लगता है, काफी ज्यादा lossy होना पड़ेगा
OpenAI को बचाने वाली चीज उल्टे closed nature हो सकती है। OpenAI ChatGPT के trained dataset के copyrighted हिस्से से simple matching करके web interface में copyrighted material को LLM से बाहर न जाने देने के लिए filter और block कर सकता है। जबकि उसी dataset पर train किए गए open source projects के सामने copyrighted material को LLM खुद से हटाने का कहीं ज्यादा कठिन काम होगा
यानी ऐसा कि आसानी से पकड़ा न जाए, या direct analysis करने पर भी plausible deniability इतनी हो कि बच निकला जा सके
यह तय करना मुश्किल है कि यह training data से repeat कर रहा है, या फिर original article की तरह Copilot का इस्तेमाल करके पहले article search/Bing search कराया गया और फिर जवाब दिलवाने वाली वही गलती हुई
अगर मुकदमे के उदाहरणों को “fair use” मानते हैं, तो सोचना चाहिए कि इसका मतलब क्या है। असल में, कुछ कंपनियों को लगभग बिना किसी नियम के इंटरनेट की सारी value अपने black box के अंदर समाहित करने देना है, और यह बेहद जोखिम भरा लगता है
भले ही यह मामला न हो, उम्मीद है अदालत यहाँ engagement के नियम तय करेगी
जब तक कोई synthetic data की समस्या हल नहीं करता, इस क्षेत्र में सिर्फ OpenAI और Google जैसे players ही बचेंगे
LLM के intellectual property infringement पर विवाद इन अंतर्निहित खामियों को तुरंत उजागर कर देता है, और आखिरकार ऐसे फैसले को मजबूर कर रहा है जो मानव सोच की वैधता पर precedent बनाएगा। यह ऐसा मुद्दा है जिसमें कोई भी सहज महसूस नहीं करेगा
समझता हूँ कि OpenAI और Microsoft को बहुत ज्यादा discretion देना खतरनाक हो सकता है, लेकिन इसके उलट यह बात छूट जाती है कि Disney जैसी कंपनियाँ पहले ही दशकों से copyright law के बड़े हिस्से को व्यावहारिक रूप से नियंत्रित करती रही हैं। किसी भी media या information से किसी भी स्तर पर interact करने की क्षमता तक के लिए पैसे वसूलने का precedent बन सकता है—इस संभावना पर वे ललचा रही होंगी
अंततः हम समझ रहे हैं कि हमने ideas पर ownership जैसी मूल रूप से flawed धारणा के ऊपर एक विशाल economic system खड़ा कर दिया है। समाधान या तो rulebook को फाड़कर फेंकना है, जो बहुत painful होगा, या फिर इसे और आगे धकेलना है, जो घातक होगा
जापान में कहा गया है कि AI के लिए कुछ भी संभव है
सार्वजनिक रूप से इंटरनेट पर डाली गई चीज़ों की वजह से competitive edge खोने से बचना बेहतर है। अगर आपने सबके देखने के लिए रखा है, तो उम्मीद करनी चाहिए कि दूसरे लोग उसका इस्तेमाल करेंगे
developers यह दिखाना पसंद करते हैं कि LLM इंसानों जैसे हैं, और NYTimes जैसी सामग्री को इंसानों की तरह educational material के रूप में इस्तेमाल करते आए हैं
लेकिन ऐसा नहीं है। ज्यादा सरल रूप से देखें तो proprietary writing अब OpenAI के source code में integrate हो गई है। यह वैसा ही है जैसे मैं किसी और proprietary code का कुछ हिस्सा copy करके अपने codebase में paste कर दूँ, और दावा करूँ कि copy-paste लाखों वर्षों के evolution की स्वाभाविक evolutionary process है
LLM इतना जटिल है कि वह कहाँ है, यह पता नहीं—यह तथ्य इसे कम वैसा नहीं बनाता
LLM का source code शायद model में शामिल neural network के रूप का वर्णन करने वाली कुछ सौ lines of text ही होगा
NYTimes content source code में नहीं होगा। NYTimes Python source code publish नहीं करता, बल्कि human-language news publish करता है
LLM conceptually सरल है, और अधिकतर matrix multiplication, layers को जोड़ने वाले nonlinear operations, attention-based loops आदि से बना होता है। इसे जटिल बनाती है training data और compute की बहुत बड़ी मात्रा
जिन कंपनियों के पास content है, वे सभी पैसे की गंध सूँघ रही हैं
NYT को अपने content का LLM training में इस्तेमाल होना शायद बुरा नहीं लगेगा—बस fee मिलनी चाहिए। Reddit free API बंद करेगा और training content पाने के लिए पैसे चुकवाएगा। Discord भी, अगर पहले से नहीं किया है, तो AI training के लिए content बेचेगा। Twitter भी कर रहा है
पहले LLM सिर्फ experiment थे, इसलिए किसी ने परवाह नहीं की। अब इसमें खरबों डॉलर की value दाँव पर है
NYT का दृष्टिकोण आगे चलकर सचमुच मूर्खतापूर्ण लगेगा, जब LLM को ऐसी machine body में डाला जाएगा जो physical world से interact कर सके और real time में सीखकर weights update कर सके
ऐसे robot का copyrighted material पढ़ना, देखना या सुनना सब अवैध हो सकता है। वह TV नहीं देख पाएगा, library की किताबें नहीं पढ़ पाएगा, internet browse नहीं कर पाएगा। क्योंकि उस process में वह copyrighted content के कुछ हिस्से याद कर सकता है
इंसानों के लिए यह ज्यादा कठिन होगा, लेकिन अगर कोई copyrighted book याद करके TV पर live पढ़े, या memory से copies बनाकर बेचे, तो उस पर मुकदमा होगा
इंसान हमेशा derivative works बनाते हैं, और LLM का ऐसा करना भी ठीक है। लेकिन verbatim नहीं करना चाहिए
अगर photographic memory वाला कोई व्यक्ति हो, और लोग अखबार खरीदने के बजाय उससे news याद करवाएँ, तो वही समस्या पैदा होगी
अभी copyrighted material की public performance infringement है
या फिर वे सब किसी एक बड़ी company के owned होंगे, और capitalism जैसा करता है वैसे हम सब से पैसा निचोड़ने के लिए इस्तेमाल होंगे? अगर ऐसा है, तो मैं ban करने के पक्ष में हूँ
ChatGPT आने के बाद से मैं तर्क देता रहा हूं कि LLM को transformative work के रूप में fair use के अंतर्गत आना चाहिए। मैं वकील नहीं हूं, बस एक गैर-विशेषज्ञ राय है, लेकिन यह देखना दिलचस्प होगा कि कानूनी व्यवस्था इस पर क्या कहती है
अगर दर्जनों, सैकड़ों, हजारों स्रोतों से टुकड़े उधार लिए जाएं, तो किसका copyright उल्लंघन होता है? Music remix भी कई स्रोतों से उधार लेते हैं और अगर संगीत स्पष्ट रूप से अलग और मौलिक हो, तो वे कुछ हद तक कानूनी जांच में टिकते दिखते हैं
लेकिन यह व्यापक दावा कि LLM या मौजूदा AI fair use के अंतर्गत आते हैं, तब बचाना मुश्किल हो जाता है जब model पूर्ण और पहचान योग्य व्यक्तिगत works को बार-बार reproduce करता है और खास मामलों में साफ तौर पर copyright law का उल्लंघन करता है। model ज्यादातर मामलों में remix कर सकता है या transformative हो सकता है, लेकिन सबूत हैं कि हर बार हमेशा ऐसा नहीं होता। शायद यह मुकदमा AI को इस तरह ठीक करने की वजह बने कि वह खास works को reproduce न करे, और इसलिए fair use का दावा अधिक मजबूत और वास्तव में defendable हो जाए
यह स्थिति 2004 में आए बेहद प्रभावशाली EPIC 2014 वीडियो में पहले ही देखी गई थी
https://www.youtube.com/watch?v=eUHBPuHS-7s मूल Flash था, इसलिए memory hole में गायब हो गया, और यह कम-quality conversion ही बचा है
36 सेकंड: “लेकिन जिस press को आप जानते थे, वह अब मौजूद नहीं है”
40 सेकंड: “20वीं सदी के news organizations गौण हो गए। वे बहुत दूर न रहे अतीत के अकेले अवशेष हैं”
2 मिनट 11 सेकंड: “2002 में Google news portal Google News भी launch करता है। news organizations विरोध करते हैं। Google News पूरी तरह computer द्वारा edited है”
5 मिनट 13 सेकंड: “2010 की news war इस बात के लिए उल्लेखनीय है कि इसमें कोई वास्तविक news organization शामिल नहीं था। Googlezon आखिरकार Microsoft को ऐसी capability से checkmate करता है, जिसका software giant मुकाबला नहीं कर पाता। नए algorithms का उपयोग कर Googlezon के computers सभी content sources से sentences और facts को dynamically strip करके recombine करते हैं और नए articles बनाते हैं। computers हर user के लिए नया article लिखते हैं”
5 मिनट 55 सेकंड: “2011 में सोया हुआ Fourth Estate जागता है और अपना पहला व आखिरी प्रतिरोध करता है। New York Times Company Googlezon के खिलाफ मुकदमा करती है, यह दावा करते हुए कि कंपनी के fact-extraction robots copyright law का उल्लंघन करते हैं। मामला Supreme Court तक जाता है”
details ठीक-ठीक मेल नहीं खाते थे, लेकिन कुल मिलाकर accuracy चौंकाने वाली है। हालांकि इस timeline में यह एक तरह का hyperstition product भी हो सकता है
https://en.wikipedia.org/wiki/EPIC_2014 मुझे लगा था कि EPIC 2014 शायद Wikipedia article वाला इकलौता Flash video होगा, लेकिन खोजने पर पांच और मिले