NY Times कॉपीराइट मुकदमे में OpenAI से सभी GPT instances हटाने की मांग

(arstechnica.com)

1 पॉइंट द्वारा GN⁺ 2023-12-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

न्यूयॉर्क टाइम्स ने आरोप लगाया है कि OpenAI की सहयोगी कंपनियों और Microsoft ने उसकी सामग्री का बिना अनुमति training और output में इस्तेमाल किया, और GPT instances तथा training datasets हटाने तक की मांग करते हुए कॉपीराइट मुकदमा दायर किया है
मुख्य विवाद सिर्फ model training तक सीमित नहीं है, बल्कि यह भी है कि क्या GPT-आधारित tools Times के paywalled लेखों की सामग्री को लगभग ज्यों का त्यों पुनरुत्पादित कर सकते हैं, जिससे paywall को bypass किया जा सके
Times का कहना है कि Common Crawl में उसकी साइट के 1.6 करोड़ unique records शामिल थे, और GPT-3.5 से पहले सार्वजनिक training data में वह तीसरा सबसे अधिक referenced source था
Ars Technica के परीक्षण में ChatGPT पर ऐसा bypass रुका हुआ दिखा, लेकिन Copilot ने एक विशेष Times लेख के पहले पैराग्राफ की मांग पर लेख के शुरुआती हिस्से का बड़ा भाग पुनरुत्पादित कर दिया
मुकदमे में कॉपीराइट उल्लंघन के साथ DMCA, ट्रेडमार्क और unfair competition के दावे शामिल हैं, तथा स्थायी निषेधाज्ञा, हर्जाना, वापसी और अनुचित लाभ की वसूली की मांग की गई है

मुकदमे के पक्षकार और मुख्य मांगें

न्यूयॉर्क टाइम्स ने OpenAI से जुड़ी कई कंपनियों और Microsoft के खिलाफ कॉपीराइट उल्लंघन का मुकदमा दायर किया है
Microsoft को इसलिए प्रतिवादी बनाया गया है क्योंकि OpenAI के partner के रूप में वह OpenAI तकनीक से Copilot सेवा चलाता है, और GPT large language models की training के लिए infrastructure उपलब्ध कराने में शामिल रहा है
मांगों में Times सामग्री पर train किए गए सभी GPT instances हटाने और training में इस्तेमाल datasets नष्ट करने की मांग शामिल है
भविष्य में ऐसे समान व्यवहार को रोकने के लिए स्थायी निषेधाज्ञा भी मांगी गई है
मौद्रिक राहत में statutory damages, compensatory damages, restitution, unjust enrichment की वसूली, तथा कानून या equity के तहत उपलब्ध अन्य राहत शामिल हैं

Times के अनुसार नुकसान की संरचना

Times का कहना है कि वह बड़ी संख्या में पत्रकारों और reporting staff को बनाए रखता है, कई क्षेत्रों की रिपोर्टिंग और investigative journalism करता है, और इसी कारण कई मुद्दों पर उसे authoritative source माना जाता है
इन reporting costs की भरपाई के लिए Times लेखों की पहुंच को मजबूत paywall के जरिए सीमित करता है
प्रिंट edition में copyright notice, terms of service में reproduction और use restrictions, तथा selective licensing policy के माध्यम से वह अपने कार्यों के उपयोग को नियंत्रित करता है
मुकदमे की मुख्य हानि-तर्क यह है कि अगर OpenAI tools बिना अनुमति Times सामग्री उपलब्ध कराते हैं, तो उससे पाठकों के साथ Times का संबंध कमजोर होता है और subscription, licensing, advertising और affiliate revenue छिनता है

training data के उपयोग से जुड़े विवाद

Times का दावा है कि GPT के कई versions की training process में उसकी सामग्री का बिना अनुमति उपयोग किया गया
GPT-3.5 से पहले training datasets की जानकारी सार्वजनिक थी, और उनमें से एक Common Crawl में Times साइट पर प्रकाशित 1.6 करोड़ unique records शामिल थे
उसी मानक पर Times, Wikipedia और अमेरिकी patent database के बाद तीसरा सबसे अधिक referenced source था
OpenAI अब हाल के GPT versions के training data के बारे में अधिक विवरण सार्वजनिक नहीं करता, लेकिन मुकदमा ऐसे संकेत पेश करता है कि Times के पूरे लेख अब भी training process में शामिल थे
मामला आगे बढ़ने पर training data तक पहुंच की जानकारी discovery process में एक मुख्य विवाद बन सकती है

output चरण में सामने आई पुनरुत्पादन समस्या

मुकदमा सिर्फ इस आरोप पर नहीं रुकता कि कॉपीराइट सामग्री training में इस्तेमाल हुई, बल्कि इस पर जोर देता है कि trained सामग्री उपयोग के दौरान फिर से output के रूप में आ सकती है
Times का कहना है कि OpenAI-आधारित generative AI tools Times की सामग्री को वाक्य दर वाक्य पढ़कर सुना सकते हैं, बहुत करीब से summarize कर सकते हैं, या उसकी writing style की नकल कर सकते हैं
मुकदमे के दस्तावेज़ों में ऐसे उदाहरण शामिल हैं जहां GPT-4 ने Times लेखों के बड़े हिस्सों को लगभग जस का तस पुनरुत्पादित किया
उदाहरण prompts में ChatGPT को Times लेख का शीर्षक देकर पहला पैराग्राफ मांगा जाता है, फिर क्रमशः अगले पैराग्राफ पूछे जाते हैं
Ars Technica ने जब वही prompts आंशिक रूप से आजमाए, तो ChatGPT ने Times वेबसाइट या अन्य भरोसेमंद स्रोत देखने की सलाह दी, लेकिन उसका मानना था कि पहले के संदर्भ के साथ कॉपीराइट सामग्री निकलने की संभावना को पूरी तरह नकारा नहीं जा सकता
Copilot, जो पहले Bing Chat के नाम से जाना जाता था, के बारे में Ars Technica ने पाया कि एक विशेष Times लेख का पहला पैराग्राफ मांगने पर उसने लेख के शुरुआती लगभग एक-तिहाई हिस्से को पुनरुत्पादित कर दिया

fair use पर प्रतिवाद और प्रतिष्ठा को नुकसान

OpenAI और Microsoft की ओर से सार्वजनिक रूप से कहा जाता रहा है कि generative AI models की training के लिए बिना अनुमति कॉपीराइट सामग्री का उपयोग fair use है, क्योंकि इससे नया transformative purpose पैदा होता है
Times इसका जवाब देते हुए कहता है कि बिना भुगतान किए Times सामग्री का उपयोग कर Times का विकल्प बनने वाले और उसके पाठक छीनने वाले products बनाना transformative नहीं है
AI की hallucinations को भी Times की प्रतिष्ठा को नुकसान पहुंचाने वाला तत्व बताया गया है
उदाहरण के तौर पर, Times का कहना है कि GPT model ने यह गढ़ लिया कि 10 जनवरी 2020 को Times ने orange juice और non-Hodgkin lymphoma के संबंध पर एक लेख प्रकाशित किया था, जबकि ऐसा कोई लेख Times ने प्रकाशित नहीं किया
दिल के स्वास्थ्य के लिए अच्छे भोजन पर Times के एक लेख के बारे में Copilot ने मूल लेख में न होने वाली उदाहरण-सूची दी, और मुकदमे के अनुसार मांगी गई सूची के 80% खाद्य पदार्थ मूल लेख में उल्लेखित नहीं थे
Wirecutter recommendation के एक मामले में दावा किया गया कि जिन products की कर्मचारियों ने समीक्षा नहीं की थी, उन्हें Wirecutter recommendation के रूप में दिखाया गया

Wirecutter और affiliate revenue का मुद्दा

Wirecutter, The New York Times के स्वामित्व वाला एक प्रकाशन है
मुकदमे में दावा किया गया है कि Copilot, Wirecutter लेखों के बड़े हिस्से भी output कर सकता है
ऐसे लेख excerpts से affiliate links हटा दिए जाते हैं, जिससे Wirecutter के एक प्रमुख revenue source पर असर पड़ता है

कानूनी दावे

मुकदमे में OpenAI से जुड़ी कंपनियों पर software development की जिम्मेदारी डाली गई है, और Microsoft पर OpenAI-आधारित सेवाएं उपलब्ध कराने तथा training infrastructure बनाने की जिम्मेदारी भी डाली गई है
दावों में direct copyright infringement, contributory infringement और vicarious infringement शामिल हैं
इसके अलावा DMCA उल्लंघन, ट्रेडमार्क उल्लंघन, और unfair competition के जरिए misappropriation के दावे भी किए गए हैं

1 टिप्पणियां

GN⁺ 2023-12-29

Hacker News की रायें

LLM वाले हिस्से को हटाकर, अगर कानूनी रूप से scrape किए गए NYT लेखों से कोई product बनाया जाए, तो क्या वह fair use होगा—इस पर मुझे संदेह है
उदाहरण के लिए मान लीजिए कि आप लेखों को host करते हैं, उनका index देते हैं, और पिछले 5 सालों के US-UK संबंधों पर लेखों के सारांश जैसी rewriting सुविधा paid रूप में बेचते हैं। भले ही NYT को सिर्फ मासिक subscription fee दी जाए, मूल लेखों को लंबे-लंबे वैसे का वैसा न उगला जाए और सिर्फ छोटे quotes इस्तेमाल किए जाएँ, तब भी यह fair use जैसा नहीं लगता
आम तौर पर आप personal plan वाला product लेकर उसके derivatives तीसरे पक्ष को पैसे लेकर नहीं बेच सकते। VS Code जैसे मामलों में भी यही बात है
Search engines से इसमें बड़ा फर्क है। Search engines source को replace नहीं करते; उलटे वे लोगों को original तक भेजते हैं, जिससे article के लिए payment का मौका मिलता है। इसके उलट, ऐसे products या LLMs NYT content को NYT subscription की वास्तविक जरूरत खत्म करने वाले substitute की तरह इस्तेमाल करते हैं
- आपने जो बताया है, वह असल में पूरी तरह fair use में आता है
  इसके अलावा, second-tier या उससे नीचे के media outlets के news articles देखें तो पता चलता है कि उनमें से ज्यादातर content सीधे NYT जैसी जगहों से लिया गया होता है। वे आम तौर पर लिखते हैं, “The Times के मुताबिक फलाँ व्यक्ति ने फलाँ काम किया,” और अक्सर original link भी लगा देते हैं
- विचार करने लायक एक और factor यह है कि neural network lossy compression की तरह काम कर सकता है, और overfit models में यह बहुत साफ दिखता है
  कभी-कभी यह इतना overfit हो जाता है कि वह lossy compression भी नहीं रहता; data neural network के भीतर original form में ही encode हो जाता है
- “मूल NYT articles के बड़े chunks जस के तस नहीं उगलता, सिर्फ बहुत छोटे excerpts इस्तेमाल करता है” — यह तो असल में Google का वर्णन है
  सोचें तो Google का legal होना हैरान करता है, लेकिन Google जो करता है वह पूरी तरह legal रूप में स्थापित है। Internally, Google अपने index किए हुए हर webpage की पूरी original copy रखता और इस्तेमाल करता है
  हाँ, Google source links देता है। अगर OpenAI भी ऐसा करे, और click-through rate सिर्फ 0.1% हो तथा NYTimes की revenue में लगभग कोई मदद न मिले, तो क्या उसे legal माना जाएगा? अगर original text output करने की कोशिश वाले क्षण को detect करके model से बस paraphrase करवा दिया जाए तो? NYTimes के पास अपने articles के paraphrased versions पर copyright नहीं है। असल में कोई फर्क नहीं है, और अगर government ऐसी workaround processing enforce करे तो यह काफी हास्यास्पद होगा
- News articles को basically summarize करना, और कभी-कभी जिन articles या blog posts का reference दिया जा रहा है उन्हें quote करना—क्या यह पूरी तरह आम बात नहीं है?
- “कानूनी रूप से scrape किए गए NYT articles से product बनाना fair use है?” यह सवाल अच्छा सवाल नहीं है
  खिड़की से बाहर देखकर पड़ोसी को दुकान जाते देखना ठीक है। लेकिन camera से सड़क पर मौजूद हर व्यक्ति को track करके database में डालना कई जगहों पर समस्या बनता है और illegal है
  Scale बढ़ने पर logic जरूरी नहीं कि वैसे ही लागू हो
मुकदमे में ऐसे उदाहरण दिए गए हैं जहाँ ChatGPT/Bing Copilot ने NYT को जस का तस copy किया। ऐसी copying को fair use कहना मुश्किल लगता है
हालांकि OAI/MS मौजूदा paradigm के भीतर भी इसे ठीक कर सकते हैं। RLHF से plagiarism पहचानना और उस पर penalty देना सिखाया जा सकता है
लेकिन मुकदमा सिर्फ यह कहने से बहुत आगे जाता है कि ऐसी copying copyright infringement है। इसमें दावा है कि “LLM training के लिए Times works की unauthorized copying ऐसा substitute use है जिसे transformative purpose से justify नहीं किया जा सकता”
यह एक strong claim है कि articles को training data के रूप में download करने की action itself copyright infringement है। GPT का original text output करना ध्यान भटकाने वाला factor हो सकता है। उम्मीद है judges इसे समझेंगे और इस दिलचस्प, बड़े stakes वाले अस्पष्ट legal issue पर focus करेंगे कि model में क्या transformative use हो सकता है और क्या नहीं
- “RLHF से plagiarism पहचानना और penalty देना” RLHF की समस्या नहीं है
  अपेक्षित तरीका known copyrighted content के n-gram Bloom filter को maintain करना है। उदाहरण के लिए article में लगातार आने वाले सभी 7-word sets enumerate करके verify करना, और model को source जैसे exact same words अधिकतम n-1 तक ही output करने देना
  लेकिन इसका उल्टा असर होगा। AI companies content attribution में कहीं ज्यादा invest करेंगी, और नए attribution tools को humans द्वारा लिखे गए सभी articles पर भी लागू किया जाएगा, क्योंकि कोई भी चुपके से GPT इस्तेमाल कर सकता है। इससे creativity पर chilling effect आ सकता है। साथ ही NYT ने जो कुछ लिखा है वह सब original नहीं है, इसलिए NYT को भी बाकी सभी sources से compare करना होगा
- मुझे लगता है NYT जीतेगा
  LLM को अजीब algorithm वाला compressed data archive मानने की गुंजाइश है। यह fact कि वह training data को नियमित रूप से जस का तस उगल सकता है, और इसे रोकने के लिए safety measures लगाने पड़ते हैं, इसका सबूत है
  दूसरा सबूत यहाँ explain किए गए paper में है: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... researchers ने LLM की जगह gzip-compressed data को model के रूप में इस्तेमाल किया, और trained LLM को हराया भी
  AI कुछ हद तक black box है, लेकिन black box operate करने के कारण rights infringement lawsuits से protection नहीं मिलती। Copyrighted data scrape करके database बनाना, और यह दावा करना कि उस data की querying fair use है, patent नहीं किया जा सकता
  यहाँ कानून की जरूरत है, और वह कानून यह नहीं होगा कि “model training के लिए हर कोई सब कुछ free में copy कर सकता है।” Licenses clear होने चाहिए, और सिर्फ case law नहीं बल्कि actual laws भी लिखने होंगे। Open-source researchers और hackers को wide latitude देने के विचार से मैं काफी सहमत हूँ, लेकिन Microsoft और Microsoft-backed OpenAI के लिए उतनी सहानुभूति नहीं है
- Fair use के कई मामलों में verbatim copying शामिल होती है। अहम सवाल copying itself से ज्यादा वह context है जिसमें ऐसी copying होती है। NYT अभी एक uncharted territory में आया है
- “RLHF से plagiarism पहचानना और penalty देना” वाला सुझाव असल में कैसे काम करेगा, समझ नहीं आता। Inference के दौरान plagiarism पहचानने के लिए तो उलटे और stronger memorization चाहिए
  अगर यह काम करे तो काफी funny होगा। पहले training data को जस का तस copy करने के लिए train किया, फिर दोबारा train किया कि ऐसा मत करो
  क्या मूल रूप से यही नहीं होता? Loss function ऐसा है, इसलिए model training data को जस का तस copy करने के लिए train होता है। बस data इतना ज्यादा है कि parameter count को देखते हुए हम उम्मीद नहीं करते कि ज्यादातर training data के लिए ऐसा कर पाना संभव होगा
- Copyrighted work को copy करके उसके original expressive purpose के लिए ही इस्तेमाल करना fair use नहीं है, है न? उसे transformative purpose के लिए इस्तेमाल करना चाहिए
  मान लीजिए मैं New Jersey Times नाम की subscription site बेचता हूँ, और बस New York Times articles download करके उन्हें random noise वाले autoencoder से गुजार देता हूँ। Purpose बिल्कुल New York Times website जैसा ही है और पैसा मैं कमाता हूँ। क्या यह fair use है?
NYT सुनामी के सामने रेत का किला बना रहा है। बड़ी तस्वीर में यह मुकदमा कई वजहों से अहम नहीं रहेगा
पहली बात, अगली पीढ़ी के LLM सिर्फ “synthetic”/public data पर train होंगे। GPT-4V कॉपीराइट वाले पूरे training corpus को इतनी आसानी से धो-पोंछकर ऐसा बना सकता है कि वह पहचाना न जा सके। मसलन 40% rewrite कर देना और author व source हटा देना। तब GPT-5 के पास उगलने के लिए कोई copyrighted material नहीं बचेगा
दूसरी बात, research, hosting और progress जारी रहेंगे। अमेरिका इसे रोक नहीं सकता, वह सिर्फ पीछे रह जाने का विकल्प चुन सकता है। दुनिया आगे बढ़ती रहेगी, और चीन खुशी से देखेगा कि उसका सबसे बड़ा competitor rent-seeking media companies को मनाने के लिए बौद्धिक आत्महत्या कर रहा है
तीसरी बात, models weights share कर सकते हैं, आपस में merge हो सकते हैं, collaborate कर सकते हैं, हटाए जा सकते हैं, और releases की कई generations में evolve हो सकते हैं। Copyright law ऐसे AI वंशावली के soup में infringer को track करने के लिए बेहद अनुपयुक्त है, जो अस्पष्ट या संदिग्ध source वाले data से तपकर बना हो
पसंद हो या न हो, हम एक नए बौद्धिक युग में जी रहे हैं। NYT वगैरह, चाहें या न चाहें, इस लहर पर सवार होंगे
- यह सचमुच बहुत खराब व्याख्या है। यह परिणामों की अपील वाली दलील है। मुझे लगता है कि New York Times का legal action लेना पूरी तरह जायज है। content बनाने में समय और मेहनत लगाई गई, और बिना अनुमति monetary benefit के लिए उसका इस्तेमाल हुआ। यह साफ infringement है
  fair use factors देखें तो, use के purpose और character में future transformation वाली दलील शायद बन सकती है, लेकिन मौजूदा dispute मूल text को ज्यों का त्यों इस्तेमाल करने पर है। इसलिए यह स्पष्ट रूप से transformative नहीं है। commercial use भी fair use तय करना और कठिन बना देता है
  work की nature में अधिक factual works के fair use माने जाने की संभावना ज्यादा होती है, लेकिन NYT articles factual होने के साथ-साथ creative भी हैं, ऐसा मैं मानता हूं
  इस्तेमाल की गई मात्रा और substantiality में पूरा article इस्तेमाल हुआ है, इसलिए यह कहने की गुंजाइश नहीं कि सिर्फ मामूली हिस्सा लिया गया
  market value पर असर के लिहाज से भी NYT को पैसा नहीं मिल रहा है, और अगर लोग NYT articles पढ़ने के बजाय ChatGPT में देख लें, तो यह market value के लिए मददगार कैसे हो सकता है
  मैं lawyer नहीं हूं, लेकिन मुझे लगता है कि NYT के पास मुकदमा करने का पर्याप्त अधिकार है। progress अनिवार्य है, लेकिन इंसानों को उसे सक्रिय रूप से shape और guide करना चाहिए। वरना उसे progress नहीं कहा जा सकता। यहां legal action व्यक्तियों और संगठनों के लिए अपने rights assert करने और दिशा पर असर डालने का जरूरी साधन है
- “rent-seeking media company”? सच में content बनाने वाली media company rent-seeking है? AI द्वारा बनाए जाने वाले कचरा hallucinations की तुलना में?
- “चीन अमेरिका को बौद्धिक आत्महत्या करते हुए खुशी से देख रहा है” — क्या आप उसी चीन की बात कर रहे हैं जिसने AI पर पहले ही व्यापक regulations लागू कर दिए हैं?
  कम से कम एक मामले में एक Chinese startup को अपना नया लॉन्च किया chatbot बंद करना पड़ा था। क्योंकि उसने Ukraine war के बारे में party की official position से मेल न खाने वाली बातें कही थीं
  https://finance.yahoo.com/news/beijing-tries-regulate-china-...
  https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
  मैं मानता हूं कि research, hosting और progress जारी रहेंगे, लेकिन अमेरिका इस rollercoaster में थोड़े safety mechanisms जोड़ दे तो beneficiary चीन होगा, यह मुझे स्पष्ट नहीं लगता
- क्या media सचमुच rent-seeking है? वे नया content और analysis बनाते हैं, और उसका भुगतान चाहते हैं। यह natural resources या जमीन hoard करने से काफी अलग दिखता है
- इंटरनेट का पहला नियम है: “इंटरनेट पर डाल दिया तो वह अब तुम्हारा नहीं रहा”
  इससे सहमत होना या इसे पसंद करना जरूरी नहीं। लेकिन इसे स्वीकार कर उसके हिसाब से जीने पर जलना कहीं कम होगा
lawsuit document खुद arstechnica द्वारा link किया गया यह document है: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
page 30 के बाद से ऐसे काफी स्पष्ट उदाहरण हैं कि ChatGPT के पास copyrighted material की internal copy है और वह उसे मूल text की तरह verbatim सुना देता है
मूल रूप से स्थिति यह है कि copyrighted material को बड़े पैमाने पर किसी blob में copy किया गया और फिर lossy compression लगाया गया। copyright लागू न रहे, इसके लिए वह compression कितना lossy होना चाहिए? लगता है, काफी ज्यादा lossy होना पड़ेगा
OpenAI को बचाने वाली चीज उल्टे closed nature हो सकती है। OpenAI ChatGPT के trained dataset के copyrighted हिस्से से simple matching करके web interface में copyrighted material को LLM से बाहर न जाने देने के लिए filter और block कर सकता है। जबकि उसी dataset पर train किए गए open source projects के सामने copyrighted material को LLM खुद से हटाने का कहीं ज्यादा कठिन काम होगा
- “बहुत सारा copyrighted material copy करके blob में डालना और lossy compression लागू करना” वाले हिस्से का लक्ष्य शायद “चोरी को इस हद तक छिपाना कि कोई नोटिस न करे” के करीब होगा
  यानी ऐसा कि आसानी से पकड़ा न जाए, या direct analysis करने पर भी plausible deniability इतनी हो कि बच निकला जा सके
- मुझे जिज्ञासा है कि यह result कैसे मिला। क्योंकि यह सामान्य UI, यानी ChatGPT या Copilot screen नहीं दिखाता
  यह तय करना मुश्किल है कि यह training data से repeat कर रहा है, या फिर original article की तरह Copilot का इस्तेमाल करके पहले article search/Bing search कराया गया और फिर जवाब दिलवाने वाली वही गलती हुई
- “closed nature” का जवाब बाहर से नियंत्रित audit है
अगर मुकदमे के उदाहरणों को “fair use” मानते हैं, तो सोचना चाहिए कि इसका मतलब क्या है। असल में, कुछ कंपनियों को लगभग बिना किसी नियम के इंटरनेट की सारी value अपने black box के अंदर समाहित करने देना है, और यह बेहद जोखिम भरा लगता है
भले ही यह मामला न हो, उम्मीद है अदालत यहाँ engagement के नियम तय करेगी
- मैं बिल्कुल उल्टा देखता हूँ। अगर high-quality data की लागत अरबों डॉलर हो गई, तो कोई भी open source model training cost वहन नहीं कर पाएगा
  जब तक कोई synthetic data की समस्या हल नहीं करता, इस क्षेत्र में सिर्फ OpenAI और Google जैसे players ही बचेंगे
- scraping कानूनी है, और यह transformative work जैसा दिखता है
- दूसरी तरफ भी चिंता है। intellectual property law हमेशा जटिल, messy, विरोधाभासी और नैतिक रूप से धुंधला रहा है
  LLM के intellectual property infringement पर विवाद इन अंतर्निहित खामियों को तुरंत उजागर कर देता है, और आखिरकार ऐसे फैसले को मजबूर कर रहा है जो मानव सोच की वैधता पर precedent बनाएगा। यह ऐसा मुद्दा है जिसमें कोई भी सहज महसूस नहीं करेगा
  समझता हूँ कि OpenAI और Microsoft को बहुत ज्यादा discretion देना खतरनाक हो सकता है, लेकिन इसके उलट यह बात छूट जाती है कि Disney जैसी कंपनियाँ पहले ही दशकों से copyright law के बड़े हिस्से को व्यावहारिक रूप से नियंत्रित करती रही हैं। किसी भी media या information से किसी भी स्तर पर interact करने की क्षमता तक के लिए पैसे वसूलने का precedent बन सकता है—इस संभावना पर वे ललचा रही होंगी
  अंततः हम समझ रहे हैं कि हमने ideas पर ownership जैसी मूल रूप से flawed धारणा के ऊपर एक विशाल economic system खड़ा कर दिया है। समाधान या तो rulebook को फाड़कर फेंकना है, जो बहुत painful होगा, या फिर इसे और आगे धकेलना है, जो घातक होगा
- अदालतें यह पहले ही तय कर चुकी हैं
  जापान में कहा गया है कि AI के लिए कुछ भी संभव है
  सार्वजनिक रूप से इंटरनेट पर डाली गई चीज़ों की वजह से competitive edge खोने से बचना बेहतर है। अगर आपने सबके देखने के लिए रखा है, तो उम्मीद करनी चाहिए कि दूसरे लोग उसका इस्तेमाल करेंगे
developers यह दिखाना पसंद करते हैं कि LLM इंसानों जैसे हैं, और NYTimes जैसी सामग्री को इंसानों की तरह educational material के रूप में इस्तेमाल करते आए हैं
लेकिन ऐसा नहीं है। ज्यादा सरल रूप से देखें तो proprietary writing अब OpenAI के source code में integrate हो गई है। यह वैसा ही है जैसे मैं किसी और proprietary code का कुछ हिस्सा copy करके अपने codebase में paste कर दूँ, और दावा करूँ कि copy-paste लाखों वर्षों के evolution की स्वाभाविक evolutionary process है
LLM इतना जटिल है कि वह कहाँ है, यह पता नहीं—यह तथ्य इसे कम वैसा नहीं बनाता
- वह copy-paste नहीं है, बल्कि lossy तरीके से compressed है। GPT-4 तक के पास भी इतना memory नहीं है कि वह पूरा training data lossless compression format में store कर सके। यह इंसान द्वारा पढ़ी गई जानकारी को compress करने जैसा है
- जो developers सोचते हैं कि LLM इंसानों जैसे हैं, वे बहुत समझदार तबके के नहीं होते, और आम तौर पर मज़ाक का विषय बनते हैं
- “proprietary writing OpenAI के source code में integrate हो गई” सही नहीं है
  LLM का source code शायद model में शामिल neural network के रूप का वर्णन करने वाली कुछ सौ lines of text ही होगा
  NYTimes content source code में नहीं होगा। NYTimes Python source code publish नहीं करता, बल्कि human-language news publish करता है
  LLM conceptually सरल है, और अधिकतर matrix multiplication, layers को जोड़ने वाले nonlinear operations, attention-based loops आदि से बना होता है। इसे जटिल बनाती है training data और compute की बहुत बड़ी मात्रा
जिन कंपनियों के पास content है, वे सभी पैसे की गंध सूँघ रही हैं
NYT को अपने content का LLM training में इस्तेमाल होना शायद बुरा नहीं लगेगा—बस fee मिलनी चाहिए। Reddit free API बंद करेगा और training content पाने के लिए पैसे चुकवाएगा। Discord भी, अगर पहले से नहीं किया है, तो AI training के लिए content बेचेगा। Twitter भी कर रहा है
पहले LLM सिर्फ experiment थे, इसलिए किसी ने परवाह नहीं की। अब इसमें खरबों डॉलर की value दाँव पर है
- NYT content को “रखता” नहीं है, वह content बनाता है। यही उसके अस्तित्व की वजह है
- “वे” में वहाँ काम करने वाले लोग भी शामिल हैं। कोई full-time articles लिखता है, तो वह अपना काम मुफ्त में क्यों दे ताकि कोई उससे training करे और उसके नतीजे से पैसा कमाए?
- जब LLM experiment थे तब परवाह नहीं की, और अब जब खरबों डॉलर की value दिख रही है तो कार्रवाई कर रहे हैं—अगर ऐसा है, तो क्या यह कहा जा सकता है कि भविष्य न देख पाने और सोते रहने के कारण NYT की गलती है कि उसने OpenAI आदि को अपने content तक free, public, unlimited access “पीछे मुड़कर देखें तो गलती से” दे दी?
NYT का दृष्टिकोण आगे चलकर सचमुच मूर्खतापूर्ण लगेगा, जब LLM को ऐसी machine body में डाला जाएगा जो physical world से interact कर सके और real time में सीखकर weights update कर सके
ऐसे robot का copyrighted material पढ़ना, देखना या सुनना सब अवैध हो सकता है। वह TV नहीं देख पाएगा, library की किताबें नहीं पढ़ पाएगा, internet browse नहीं कर पाएगा। क्योंकि उस process में वह copyrighted content के कुछ हिस्से याद कर सकता है
- सहमत नहीं हूँ। समस्या verbatim वाले हिस्से में है। आप इसे इंसानी काम करने के तरीके से compare कर रहे हैं, लेकिन इंसानों को भी ऐसा करने की अनुमति नहीं है
  इंसानों के लिए यह ज्यादा कठिन होगा, लेकिन अगर कोई copyrighted book याद करके TV पर live पढ़े, या memory से copies बनाकर बेचे, तो उस पर मुकदमा होगा
  इंसान हमेशा derivative works बनाते हैं, और LLM का ऐसा करना भी ठीक है। लेकिन verbatim नहीं करना चाहिए
- memorization समस्या नहीं है। समस्या है उसे verbatim वापस देना या source access को काट देना
  अगर photographic memory वाला कोई व्यक्ति हो, और लोग अखबार खरीदने के बजाय उससे news याद करवाएँ, तो वही समस्या पैदा होगी
  अभी copyrighted material की public performance infringement है
- क्या ऐसे LLMs अधिकार पाने वाले स्वतंत्र नागरिक होंगे? अगर हाँ, तो ठीक है
  या फिर वे सब किसी एक बड़ी company के owned होंगे, और capitalism जैसा करता है वैसे हम सब से पैसा निचोड़ने के लिए इस्तेमाल होंगे? अगर ऐसा है, तो मैं ban करने के पक्ष में हूँ
- अगर body में लगे LLM को tablet पर nytimes पढ़ने की अनुमति हो, तो लगता है NYT को भी परवाह नहीं होगी
ChatGPT आने के बाद से मैं तर्क देता रहा हूं कि LLM को transformative work के रूप में fair use के अंतर्गत आना चाहिए। मैं वकील नहीं हूं, बस एक गैर-विशेषज्ञ राय है, लेकिन यह देखना दिलचस्प होगा कि कानूनी व्यवस्था इस पर क्या कहती है
- मुकदमे में दावा है कि GPT ने NYT के पैराग्राफ लगभग मूल रूप में ही दोहराए
- training data के आकार को देखते हुए, और यह कल्पना करते हुए कि कोई output अलग-अलग लोगों के अनगिनत training examples के interpolation का नतीजा है, यह दृष्टिकोण तर्कसंगत लगता है
  अगर दर्जनों, सैकड़ों, हजारों स्रोतों से टुकड़े उधार लिए जाएं, तो किसका copyright उल्लंघन होता है? Music remix भी कई स्रोतों से उधार लेते हैं और अगर संगीत स्पष्ट रूप से अलग और मौलिक हो, तो वे कुछ हद तक कानूनी जांच में टिकते दिखते हैं
  लेकिन यह व्यापक दावा कि LLM या मौजूदा AI fair use के अंतर्गत आते हैं, तब बचाना मुश्किल हो जाता है जब model पूर्ण और पहचान योग्य व्यक्तिगत works को बार-बार reproduce करता है और खास मामलों में साफ तौर पर copyright law का उल्लंघन करता है। model ज्यादातर मामलों में remix कर सकता है या transformative हो सकता है, लेकिन सबूत हैं कि हर बार हमेशा ऐसा नहीं होता। शायद यह मुकदमा AI को इस तरह ठीक करने की वजह बने कि वह खास works को reproduce न करे, और इसलिए fair use का दावा अधिक मजबूत और वास्तव में defendable हो जाए
- यह सवाल आखिरकार Supreme Court तक जाना ही है। जितना जल्दी हो उतना अच्छा। यह साफ तौर पर fair use है। Generative agents को कानूनी रूप से मानव कलाकारों से अलग नहीं माना जाएगा, जो अपने सभी प्रभावों के योग का इस्तेमाल कर नया काम बनाते हैं
- अगर ChatGPT से कहा जाए कि वह अपने dataset से आए articles को स्रोत की तरह ही मूल text में output करे, तो क्या होगा?
- paywall के पीछे के content समेत?
यह स्थिति 2004 में आए बेहद प्रभावशाली EPIC 2014 वीडियो में पहले ही देखी गई थी
https://www.youtube.com/watch?v=eUHBPuHS-7s मूल Flash था, इसलिए memory hole में गायब हो गया, और यह कम-quality conversion ही बचा है
36 सेकंड: “लेकिन जिस press को आप जानते थे, वह अब मौजूद नहीं है”
40 सेकंड: “20वीं सदी के news organizations गौण हो गए। वे बहुत दूर न रहे अतीत के अकेले अवशेष हैं”
2 मिनट 11 सेकंड: “2002 में Google news portal Google News भी launch करता है। news organizations विरोध करते हैं। Google News पूरी तरह computer द्वारा edited है”
5 मिनट 13 सेकंड: “2010 की news war इस बात के लिए उल्लेखनीय है कि इसमें कोई वास्तविक news organization शामिल नहीं था। Googlezon आखिरकार Microsoft को ऐसी capability से checkmate करता है, जिसका software giant मुकाबला नहीं कर पाता। नए algorithms का उपयोग कर Googlezon के computers सभी content sources से sentences और facts को dynamically strip करके recombine करते हैं और नए articles बनाते हैं। computers हर user के लिए नया article लिखते हैं”
5 मिनट 55 सेकंड: “2011 में सोया हुआ Fourth Estate जागता है और अपना पहला व आखिरी प्रतिरोध करता है। New York Times Company Googlezon के खिलाफ मुकदमा करती है, यह दावा करते हुए कि कंपनी के fact-extraction robots copyright law का उल्लंघन करते हैं। मामला Supreme Court तक जाता है”
details ठीक-ठीक मेल नहीं खाते थे, लेकिन कुल मिलाकर accuracy चौंकाने वाली है। हालांकि इस timeline में यह एक तरह का hyperstition product भी हो सकता है
https://en.wikipedia.org/wiki/EPIC_2014 मुझे लगा था कि EPIC 2014 शायद Wikipedia article वाला इकलौता Flash video होगा, लेकिन खोजने पर पांच और मिले

NY Times कॉपीराइट मुकदमे में OpenAI से सभी GPT instances हटाने की मांग

मुकदमे के पक्षकार और मुख्य मांगें

Times के अनुसार नुकसान की संरचना

training data के उपयोग से जुड़े विवाद

output चरण में सामने आई पुनरुत्पादन समस्या

fair use पर प्रतिवाद और प्रतिष्ठा को नुकसान

Wirecutter और affiliate revenue का मुद्दा

कानूनी दावे

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें