- Meta और CEO Mark Zuckerberg पर 5 प्रकाशकों और Scott Turow ने मुकदमा दायर किया है। आरोप है कि AI सिस्टम की ट्रेनिंग के लिए इन्होंने लाखों किताबों, शोध-पत्रों और लेखों जैसे copyright-संरक्षित कार्यों की अवैध कॉपी की।
- Meta पर आरोप है कि उसने बदनाम piracy साइटों से copyright सामग्री के लाखों रिकॉर्ड torrent के जरिए डाउनलोड किए और बिना अनुमति किए गए web scraping डेटा की कई बार कॉपी बनाकर उसे Llama की ट्रेनिंग में इस्तेमाल किया।
- यह मुकदमा 5 मई 2026 को अमेरिका के Southern District of New York में दायर किया गया। Hachette, Macmillan, McGraw Hill, Elsevier, Cengage और Scott Turow ने अनिर्दिष्ट monetary damages की मांग की है।
- Meta ने कहा कि copyright सामग्री का AI ट्रेनिंग में उपयोग fair use के दायरे में आ सकता है, जैसा कि अदालतें मान चुकी हैं, और वह इस मामले का सक्रिय रूप से सामना करेगी। जून 2025 में Llama ट्रेनिंग से जुड़ा लेखकों का एक दावा खारिज भी किया जा चुका है।
- इस मुकदमे की मुख्य अलग बात यह है कि Meta ने licensing strategy पर विचार किया था, लेकिन Zuckerberg के व्यक्तिगत निर्देश पर उसे रोक दिया गया, और LibGen के उपयोग के जोखिम जानते हुए भी 267TB से अधिक pirated सामग्री डाउनलोड करने को मंजूरी दी गई।
मुकदमे के मुख्य बिंदु
- Meta और CEO Mark Zuckerberg पर 5 प्रकाशकों और लेखक Scott Turow ने मुकदमा दायर किया है। आरोप है कि AI सिस्टम की ट्रेनिंग के लिए इन्होंने लाखों किताबों, शोध-पत्रों और लेखों जैसे copyright-संरक्षित कार्यों की अवैध कॉपी की।
- Meta और Zuckerberg पर आरोप है कि generative AI मॉडल बनाने के लिए उन्होंने Meta के मशहूर नारे “move fast and break things” का पालन किया और बदनाम piracy साइटों से copyright वाली किताबों व journal papers के लाखों रिकॉर्ड torrent के जरिए डाउनलोड किए।
- Meta पर यह भी आरोप है कि उसने लगभग पूरे इंटरनेट के बराबर बिना अनुमति किए गए web scraping डेटा को डाउनलोड किया, उसकी कई प्रतियां बनाईं, और उसे Meta के अरबों डॉलर के generative AI सिस्टम Llama की ट्रेनिंग में इस्तेमाल किया।
- इस कार्रवाई को “इतिहास में copyright सामग्री के सबसे बड़े उल्लंघनों में से एक” बताया गया है।
वादी और दावे
- यह मुकदमा मंगलवार, 5 मई 2026 को अमेरिका के Southern District of New York में दायर किया गया।
- वादी हैं: Hachette, Macmillan, McGraw Hill, Elsevier, Cengage सहित 5 प्रकाशक और Scott Turow व्यक्तिगत रूप से।
- प्रस्तावित class action copyright उल्लंघन के आरोपों पर अनिर्दिष्ट monetary damages की मांग करता है।
- शिकायत की प्रति इस लिंक पर उपलब्ध है।
Meta का जवाब और पहले के फैसले
- Meta के प्रवक्ता ने कहा, “AI व्यक्तियों और व्यवसायों के लिए innovation, productivity और creativity को संभव बना रहा है, और अदालतों ने सही रूप से माना है कि copyright सामग्री का AI ट्रेनिंग में उपयोग fair use हो सकता है।”
- Meta का कहना है कि वह इस मुकदमे का सक्रिय रूप से मुकाबला करेगी।
- ऐसे उदाहरण मौजूद हैं जहां लेखकों ने AI कंपनियों के खिलाफ copyright उल्लंघन के मुकदमे दायर किए, लेकिन वे हार गए।
- जून 2025 में एक federal judge ने Sarah Silverman और Junot Díaz सहित 13 लेखकों द्वारा दायर वह दावा खारिज कर दिया, जिसमें कहा गया था कि Meta के AI मॉडल की ट्रेनिंग copyright का उल्लंघन करती है।
- उस समय Judge Vincent Chhabria ने फैसला दिया था कि Meta द्वारा लगभग 2 लाख किताबों वाले dataset का Llama language model की ट्रेनिंग में उपयोग fair use के दायरे में आता है।
इस मुकदमे की अलग बात
- यह मुकदमा इस बात पर ज़ोर देता है कि Meta और Zuckerberg ने जानबूझकर copyright सुरक्षा उपायों को दरकिनार किया।
- Meta पर आरोप है कि उसने कार्यों को license करने के विकल्प पर विचार किया था, लेकिन “Zuckerberg के व्यक्तिगत निर्देश” पर उस रणनीति को छोड़ दिया।
- मुकदमे का कहना है कि संबंधित कार्रवाई अमेरिकी copyright law के fair use प्रावधान की सुरक्षा सीमा से बाहर है।
- शिकायत में कहा गया है कि Meta ने Zuckerberg के निर्देश पर वादियों और class members के स्वामित्व या नियंत्रण वाले लाखों किताबों, journal papers और अन्य कार्यों की बिना अनुमति कॉपी की, और Llama की ट्रेनिंग के लिए अतिरिक्त प्रतियां भी बनाईं।
- Zuckerberg पर आरोप है कि उन्होंने उल्लंघन को “व्यक्तिगत रूप से मंजूरी दी और सक्रिय रूप से बढ़ावा दिया।”
- Meta पर यह भी आरोप है कि उसने चुराए गए कार्यों से copyright management information हटा दी, ताकि ट्रेनिंग स्रोत छिपाया जा सके और बिना अनुमति उपयोग आसान हो जाए।
Licensing की समीक्षा और उसका रुकना
- मुकदमे के अनुसार, Llama 1 के लॉन्च के बाद Meta ने कुछ समय के लिए प्रमुख प्रकाशकों के साथ licensing deals पर विचार किया।
- Meta ने जनवरी से अप्रैल 2023 के बीच कंपनी के dataset licensing बजट को बढ़ाकर 200 मिलियन डॉलर तक ले जाने पर चर्चा की।
- अप्रैल 2023 की शुरुआत में Meta ने अपनी licensing strategy अचानक रोक दी, ऐसा मुकदमे में कहा गया है।
- शिकायत में कहा गया है कि आगे copyright सामग्री को license करना है या pirated सामग्री का उपयोग करना है, यह सवाल Zuckerberg तक “escalate” किया गया था।
- वादियों के अनुसार, इस escalation के बाद Meta की business development team को licensing प्रयास रोकने के मौखिक निर्देश मिले।
- शिकायत में यह भी शामिल है कि Meta के एक कर्मचारी ने कारण यह बताया कि “अगर हम एक भी किताब को license करते हैं, तो fair use strategy पर टिके रहना मुश्किल हो जाएगा।”
Meta का पुराना licensing अनुभव
- यह बात रखी गई है कि Meta और Zuckerberg AI ट्रेनिंग सामग्री के licensing market को अच्छी तरह समझते थे।
- शिकायत के अनुसार, Meta ने 2022 में अफ्रीकी भाषा-क्षेत्र के पुस्तक प्रकाशकों के साथ सीमित training sets के लिए 4 licensing agreements किए थे।
- बाद में Meta ने Fox News, CNN और USA Today सहित प्रमुख news publishers के साथ भी licensing agreements किए।
LibGen का उपयोग और आंतरिक जोखिम समीक्षा
- शिकायत के अनुसार, 13 दिसंबर 2023 को Meta कर्मचारियों ने LibGen के उपयोग के कानूनी जोखिमों पर एक internal memo circulate किया।
- उस Meta memo में LibGen को “ऐसा dataset जिसे हम जानते हैं कि वह pirated है” कहा गया।
- शिकायत में यह भी कहा गया है कि उसी memo में यह लिखा था कि “हम ट्रेनिंग में इस्तेमाल किए गए LibGen dataset के उपयोग का खुलासा नहीं करेंगे।”
- मुकदमे के अनुसार, इन चिंताओं को अंततः नजरअंदाज कर दिया गया।
- शिकायत का आरोप है कि Zuckerberg और Meta के अन्य अधिकारियों ने 267TB से अधिक pirated सामग्री के torrent downloads को मंजूरी दी और निर्देशित किया।
- इसे करोड़ों प्रकाशनों के बराबर बताया गया है, और कहा गया है कि यह अमेरिका की Library of Congress के पूरे printed collection से कई गुना बड़ा है।
Llama के आउटपुट को लेकर आरोप
- copyright उल्लंघन के कथित परिणामस्वरूप, Meta का AI सिस्टम ऐसे आउटपुट तेज़ी से और बड़े पैमाने पर बनाता है जो ट्रेनिंग में इस्तेमाल हुए वादियों और class members के कार्यों की जगह ले सकते हैं।
- शिकायत के अनुसार, ऐसे substitutes में मूल पाठ से लगभग समान प्रतियां, academic textbooks के वैकल्पिक chapters, और प्रसिद्ध novels व journal papers के summaries तथा alternative versions शामिल हैं।
- Llama पर यह भी आरोप है कि वह मूल कार्यों के creative elements की नकल करने वाले low-quality imitations और ऐसे derivative works भी बनाता है जो विशेष रूप से केवल अधिकारधारकों को ही बनाने की अनुमति होती है।
- शिकायत के अनुसार, Llama कभी-कभी किसी खास लेखक की expression और creative choices की नकल करने के लिए आउटपुट को अनुकूलित भी करता है।
1 टिप्पणियां
Hacker News की राय
बहुत से लोग खुश होंगे अगर इस मामले में Zuckerberg को हर उल्लंघन पर कानूनी न्यूनतम हर्जाने के तौर पर 750 डॉलर भी चुकाने पड़ें
पहले वाले Anthropic उल्लंघन मामले में माना गया था कि AI training अपने-आप में transformative use है और अपने-आप में infringement नहीं है, लेकिन उस मकसद के लिए works की गैरकानूनी copying करना साफ़ तौर पर infringement है
सेटलमेंट 1.5 बिलियन डॉलर का था, और 5 लाख pirated works पर लगभग 3,000 डॉलर प्रति work बनता था, इसलिए अगर Zuckerberg ने “मिलियनों” works की piracy की है तो 6 बिलियन डॉलर का सेटलमेंट भी काफ़ी संभव लगता है
लेकिन यह आदमी मौजूद लगभग हर media को चुराकर इस्तेमाल कर रहा है, और फिर भी शायद सिर्फ़ इसलिए बच निकलेगा क्योंकि वह इतना अमीर है कि उस पर अभियोग चलाना संभव नहीं लगेगा
[1] उदाहरण: https://en.wikipedia.org/wiki/Oink%27s_Pink_Palace#Legal_pro...
जैसे उन्होंने कानून तोड़ने की इजाज़त देने वाली सबसे बढ़िया ढाल खरीद रखी हो
यह असल में बिना पूछे सब कुछ जबरन अधिग्रहित कर लेना है, और बाद में कीमत पर मोलभाव करना है। criminal prosecution कहाँ गई, और अगर आज़ादी नहीं तो कम-से-कम equity assets की ज़ब्ती कहाँ गई?
पहले ऐसे छात्रों पर तरह-तरह के मुकदमे किए गए थे जिन्होंने सिर्फ़ MP3 download किए थे और redistribute भी नहीं किया था
कहा गया था कि उसमें fair use जैसा कोई transformative पहलू नहीं था, बस file download थी; तो सीख यह निकली कि उन छात्रों को शायद लाखों files चुरानी चाहिए थीं
अगर end users पर भी मुकदमा चल सकता है, तो पूरे विमर्श का रुख़ positive से negative हो जाता है, और ताकतवर पक्ष के लिए उस व्यवहार को रोकना आसान हो जाता है
कुछ हफ़्ते पहले मुझे अपने private cgit server पर Meta का ASN block करना पड़ा। वे robots.txt को नज़रअंदाज़ कर server को जला रहे थे
वे अलग-अलग network blocks में फैले हुए थे, जिससे साफ़ लगा कि वे IP-based throttling से बचना चाह रहे थे, और सिर्फ़ उनके कारण access logs सैकड़ों MB तक पहुँच गए। यक़ीन करना मुश्किल था
ऐसा लग रहा था जैसे वे user queries को search endpoint पर proxy करने की कोशिश कर रहे हों, और ASN match कर रहा था, इसलिए यह नहीं था कि कोई Meta होने का नाटक कर रहा हो
लोगों का अचानक Elsevier का पक्ष लेना मज़ेदार है। मौजूदा कानून के तहत AI training का transformative fair use होना काफ़ी स्पष्ट लगता है
शायद यह मामला उसी बात को साबित करने वाली नज़ीर बन जाए
मैं personal use के लिए थोड़ी मात्रा में cannabis के decriminalization या legalization के पक्ष में हो सकता हूँ, लेकिन इसका मतलब यह नहीं कि मैं इतनी विशाल industrial drug production का समर्थन करूँ जो economy को distort कर दे, या उन companies का जो हर product में methamphetamine डालना चाहती हों
लोग कहते हैं, “उन्होंने उस stolen fruit की फिर से copying की,” लेकिन आख़िर “चुराया” क्या गया? क्या मूल मालिक के पास वह चीज़ अब भी नहीं है?
Dowling v. United States, 473 U.S. 207 (1985) में Supreme Court ने फैसला दिया था कि copyrighted musical works की phonorecords की unauthorized sale, National Stolen Property Act के तहत “stolen, converted, or taken by fraud” property नहीं मानी जाती
और मान भी लें कि बहस के लिए इसे चोरी कहें, तब भी copyright का उद्देश्य “विज्ञान और उपयोगी कलाओं की प्रगति को बढ़ावा देना” है, जिसके लिए “लेखकों और आविष्कारकों को सीमित समय के लिए उनकी writings और discoveries पर विशेष अधिकार” दिए जाते हैं
यह साबित करना बहुत मुश्किल होगा कि LLMs ने कला और विज्ञान को आगे नहीं बढ़ाया, इसलिए कम-से-कम मैं इसे transformative use, यानी fair use मानूँगा
[0] https://news.ycombinator.com/item?id=48026207#48029072
यह कुछ वैसा है जैसे keyboard बेचने वाला उस keyboard से बने software पर royalty माँगने लगे
इससे फ़र्क नहीं पड़ता कि किताब लिखने वाले ने LLM training जैसे नए use case की कल्पना नहीं की थी। वह किताब LLM के अंदर नहीं है, न ही LLM के साथ बेची जा रही है। वह बस उन अरबों tools में से एक है जो LLM बनाने में इस्तेमाल हुए
यह framing कि AI companies, Disney जैसे बेचारे intellectual property holders से value extract कर रही हैं, पागलपन है। वह content हमारी cultural heritage है और पहले से हमारी है। बस किसी बेवकूफ़ को जीवनभर उसका monopoly exploitation right दे दिया गया है
LLMs उस data पर train होते हैं जो पहले से हमारा है। Disney वगैरह बस दशकों पहले बनी चीज़ों से नई technology के ज़रिए और पैसे निचोड़ना चाहते हैं
सबसे बुरी स्थिति में भी यह reverse engineering है, और अमेरिका में इसे fair use के तहत protected होना चाहिए था, हालाँकि लगता है वह protection कुछ हद तक कमज़ोर हुई है
यह देखने में दिलचस्पी है कि personal liability का क्या होगा
कंपनियों में ज़िम्मेदारी बहुत बार गायब हो जाती है, और मैं हमेशा सोचता रहा हूँ कि इसका legal justification आख़िर क्या है। अब तक जो बचा है वह कुछ ऐसा है जैसे “कंधे उचकाना” और “लगता है संबंधित provision लागू नहीं होती,” और दोनों ही अच्छे कारण नहीं हैं
मैं मज़ाक करना चाहता था कि अगर Aaron Swartz के शव पर चुंबक लगा दिया जाए, तो वह अभी कितनी तेज़ी से घूम रहा होता और कितना शक्तिशाली energy source बन जाता
लेकिन सच कहूँ तो, अपने मामले के साथ जैसा हुआ और उसके बाद भी ज़्यादा कुछ न बदला, उसे देखकर लगता है कि शायद उसने ऐसे नतीजे पहले ही भाँप लिए होते
आरोप fraud, protected computer में unauthorized access, और computer damage के थे
समय के साथ मामले का आधार भुला दिया गया और उसकी जगह यह मान लिया गया कि वह piracy case था, जबकि वह असल में unauthorized access का मामला था
अगर Zuckerberg को इस मामले में कड़ी सज़ा नहीं मिलती, तो कम-से-कम यह कानूनी मिसाल बननी चाहिए कि बाकी सब भी वही कर सकते हैं और उन्हें भी छूट मिले
भविष्य के सारे Aaron Swartz को दुनिया भर में scientific papers आज़ादी से साझा करने का अधिकार होना चाहिए
मैं निजी तौर पर एक ऐसे engineer को जानता हूँ जिसे यह जानते हुए भी कि इसमें बहुत legal risk है, कुछ काम करने को कहा गया, इस तर्क के साथ कि company के पास lawyers इसी लिए होते हैं
whistleblowing भी आज की economy में कोई बढ़िया विकल्प नहीं है, लेकिन फिर भी काश ज़्यादा लोग ऐसा करते
तो मतलब “move fast and steal things”?
वे sites को जिस रफ़्तार से scan और scrape कर रहे थे, वह तथाकथित legitimate crawlers की तुलना में भी बहुत ज़्यादा थी, और वही सबसे तर्कसंगत व्याख्या लगती थी
चाहे approval CEO ने दिया हो या किसी और senior executive ने, company की liability शायद नहीं बदलेगी
जवाब देने वाला सवाल यह है कि क्या ऐसा हुआ, और अगर हुआ तो क्या यह copyright infringement था जो fair use से protected नहीं है; न कि यह कि company के किस executive ने मंज़ूरी दी
Aaron Swartz सिर्फ़ इसलिए कई साल की जेल का सामना कर रहे थे क्योंकि वे scientific journal papers download करके दुनिया के साथ मुफ़्त में साझा करना चाहते थे, और उसमें उन्होंने कोई मुनाफ़ा भी नहीं कमाया था; आख़िरकार उन्होंने अपनी जान ले ली
लेकिन एक multi-billion-dollar company अगर लाखों copyrighted creative works download करे, उस dataset पर नए तरह के AI models train करे, और पूरे labor market को reshape करने की कोशिश करे, तो उसे बस Silicon Valley-style innovation माना जाता है, मानो उसे medal मिलना चाहिए
नहीं लगता Meta ने local copies delete की होंगी
हमें ऐसे कानून और ऐसे व्यवहार का विरोध करना चाहिए, उसे किसी विरोधी को दंडित करने के औज़ार की तरह नहीं घुमाना चाहिए
यह कहना कि सबके साथ बराबर अन्याय होना चाहिए, ग़लत है। बेहतर यह होगा कि हम बुरे कानून और ढाँचे को खत्म करने की बात करें