1 पॉइंट द्वारा GN⁺ 2 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Meta और CEO Mark Zuckerberg पर 5 प्रकाशकों और Scott Turow ने मुकदमा दायर किया है। आरोप है कि AI सिस्टम की ट्रेनिंग के लिए इन्होंने लाखों किताबों, शोध-पत्रों और लेखों जैसे copyright-संरक्षित कार्यों की अवैध कॉपी की।
  • Meta पर आरोप है कि उसने बदनाम piracy साइटों से copyright सामग्री के लाखों रिकॉर्ड torrent के जरिए डाउनलोड किए और बिना अनुमति किए गए web scraping डेटा की कई बार कॉपी बनाकर उसे Llama की ट्रेनिंग में इस्तेमाल किया।
  • यह मुकदमा 5 मई 2026 को अमेरिका के Southern District of New York में दायर किया गया। Hachette, Macmillan, McGraw Hill, Elsevier, Cengage और Scott Turow ने अनिर्दिष्ट monetary damages की मांग की है।
  • Meta ने कहा कि copyright सामग्री का AI ट्रेनिंग में उपयोग fair use के दायरे में आ सकता है, जैसा कि अदालतें मान चुकी हैं, और वह इस मामले का सक्रिय रूप से सामना करेगी। जून 2025 में Llama ट्रेनिंग से जुड़ा लेखकों का एक दावा खारिज भी किया जा चुका है।
  • इस मुकदमे की मुख्य अलग बात यह है कि Meta ने licensing strategy पर विचार किया था, लेकिन Zuckerberg के व्यक्तिगत निर्देश पर उसे रोक दिया गया, और LibGen के उपयोग के जोखिम जानते हुए भी 267TB से अधिक pirated सामग्री डाउनलोड करने को मंजूरी दी गई।

मुकदमे के मुख्य बिंदु

  • Meta और CEO Mark Zuckerberg पर 5 प्रकाशकों और लेखक Scott Turow ने मुकदमा दायर किया है। आरोप है कि AI सिस्टम की ट्रेनिंग के लिए इन्होंने लाखों किताबों, शोध-पत्रों और लेखों जैसे copyright-संरक्षित कार्यों की अवैध कॉपी की।
  • Meta और Zuckerberg पर आरोप है कि generative AI मॉडल बनाने के लिए उन्होंने Meta के मशहूर नारे “move fast and break things” का पालन किया और बदनाम piracy साइटों से copyright वाली किताबों व journal papers के लाखों रिकॉर्ड torrent के जरिए डाउनलोड किए।
  • Meta पर यह भी आरोप है कि उसने लगभग पूरे इंटरनेट के बराबर बिना अनुमति किए गए web scraping डेटा को डाउनलोड किया, उसकी कई प्रतियां बनाईं, और उसे Meta के अरबों डॉलर के generative AI सिस्टम Llama की ट्रेनिंग में इस्तेमाल किया।
  • इस कार्रवाई को “इतिहास में copyright सामग्री के सबसे बड़े उल्लंघनों में से एक” बताया गया है।

वादी और दावे

  • यह मुकदमा मंगलवार, 5 मई 2026 को अमेरिका के Southern District of New York में दायर किया गया।
  • वादी हैं: Hachette, Macmillan, McGraw Hill, Elsevier, Cengage सहित 5 प्रकाशक और Scott Turow व्यक्तिगत रूप से।
  • प्रस्तावित class action copyright उल्लंघन के आरोपों पर अनिर्दिष्ट monetary damages की मांग करता है।
  • शिकायत की प्रति इस लिंक पर उपलब्ध है।

Meta का जवाब और पहले के फैसले

  • Meta के प्रवक्ता ने कहा, “AI व्यक्तियों और व्यवसायों के लिए innovation, productivity और creativity को संभव बना रहा है, और अदालतों ने सही रूप से माना है कि copyright सामग्री का AI ट्रेनिंग में उपयोग fair use हो सकता है।”
  • Meta का कहना है कि वह इस मुकदमे का सक्रिय रूप से मुकाबला करेगी।
  • ऐसे उदाहरण मौजूद हैं जहां लेखकों ने AI कंपनियों के खिलाफ copyright उल्लंघन के मुकदमे दायर किए, लेकिन वे हार गए।
  • जून 2025 में एक federal judge ने Sarah Silverman और Junot Díaz सहित 13 लेखकों द्वारा दायर वह दावा खारिज कर दिया, जिसमें कहा गया था कि Meta के AI मॉडल की ट्रेनिंग copyright का उल्लंघन करती है।
  • उस समय Judge Vincent Chhabria ने फैसला दिया था कि Meta द्वारा लगभग 2 लाख किताबों वाले dataset का Llama language model की ट्रेनिंग में उपयोग fair use के दायरे में आता है।

इस मुकदमे की अलग बात

  • यह मुकदमा इस बात पर ज़ोर देता है कि Meta और Zuckerberg ने जानबूझकर copyright सुरक्षा उपायों को दरकिनार किया।
  • Meta पर आरोप है कि उसने कार्यों को license करने के विकल्प पर विचार किया था, लेकिन “Zuckerberg के व्यक्तिगत निर्देश” पर उस रणनीति को छोड़ दिया।
  • मुकदमे का कहना है कि संबंधित कार्रवाई अमेरिकी copyright law के fair use प्रावधान की सुरक्षा सीमा से बाहर है।
  • शिकायत में कहा गया है कि Meta ने Zuckerberg के निर्देश पर वादियों और class members के स्वामित्व या नियंत्रण वाले लाखों किताबों, journal papers और अन्य कार्यों की बिना अनुमति कॉपी की, और Llama की ट्रेनिंग के लिए अतिरिक्त प्रतियां भी बनाईं।
  • Zuckerberg पर आरोप है कि उन्होंने उल्लंघन को “व्यक्तिगत रूप से मंजूरी दी और सक्रिय रूप से बढ़ावा दिया।”
  • Meta पर यह भी आरोप है कि उसने चुराए गए कार्यों से copyright management information हटा दी, ताकि ट्रेनिंग स्रोत छिपाया जा सके और बिना अनुमति उपयोग आसान हो जाए।

Licensing की समीक्षा और उसका रुकना

  • मुकदमे के अनुसार, Llama 1 के लॉन्च के बाद Meta ने कुछ समय के लिए प्रमुख प्रकाशकों के साथ licensing deals पर विचार किया।
  • Meta ने जनवरी से अप्रैल 2023 के बीच कंपनी के dataset licensing बजट को बढ़ाकर 200 मिलियन डॉलर तक ले जाने पर चर्चा की।
  • अप्रैल 2023 की शुरुआत में Meta ने अपनी licensing strategy अचानक रोक दी, ऐसा मुकदमे में कहा गया है।
  • शिकायत में कहा गया है कि आगे copyright सामग्री को license करना है या pirated सामग्री का उपयोग करना है, यह सवाल Zuckerberg तक “escalate” किया गया था।
  • वादियों के अनुसार, इस escalation के बाद Meta की business development team को licensing प्रयास रोकने के मौखिक निर्देश मिले।
  • शिकायत में यह भी शामिल है कि Meta के एक कर्मचारी ने कारण यह बताया कि “अगर हम एक भी किताब को license करते हैं, तो fair use strategy पर टिके रहना मुश्किल हो जाएगा।”

Meta का पुराना licensing अनुभव

  • यह बात रखी गई है कि Meta और Zuckerberg AI ट्रेनिंग सामग्री के licensing market को अच्छी तरह समझते थे।
  • शिकायत के अनुसार, Meta ने 2022 में अफ्रीकी भाषा-क्षेत्र के पुस्तक प्रकाशकों के साथ सीमित training sets के लिए 4 licensing agreements किए थे।
  • बाद में Meta ने Fox News, CNN और USA Today सहित प्रमुख news publishers के साथ भी licensing agreements किए।

LibGen का उपयोग और आंतरिक जोखिम समीक्षा

  • शिकायत के अनुसार, 13 दिसंबर 2023 को Meta कर्मचारियों ने LibGen के उपयोग के कानूनी जोखिमों पर एक internal memo circulate किया।
  • उस Meta memo में LibGen को “ऐसा dataset जिसे हम जानते हैं कि वह pirated है” कहा गया।
  • शिकायत में यह भी कहा गया है कि उसी memo में यह लिखा था कि “हम ट्रेनिंग में इस्तेमाल किए गए LibGen dataset के उपयोग का खुलासा नहीं करेंगे।”
  • मुकदमे के अनुसार, इन चिंताओं को अंततः नजरअंदाज कर दिया गया।
  • शिकायत का आरोप है कि Zuckerberg और Meta के अन्य अधिकारियों ने 267TB से अधिक pirated सामग्री के torrent downloads को मंजूरी दी और निर्देशित किया।
  • इसे करोड़ों प्रकाशनों के बराबर बताया गया है, और कहा गया है कि यह अमेरिका की Library of Congress के पूरे printed collection से कई गुना बड़ा है।

Llama के आउटपुट को लेकर आरोप

  • copyright उल्लंघन के कथित परिणामस्वरूप, Meta का AI सिस्टम ऐसे आउटपुट तेज़ी से और बड़े पैमाने पर बनाता है जो ट्रेनिंग में इस्तेमाल हुए वादियों और class members के कार्यों की जगह ले सकते हैं।
  • शिकायत के अनुसार, ऐसे substitutes में मूल पाठ से लगभग समान प्रतियां, academic textbooks के वैकल्पिक chapters, और प्रसिद्ध novels व journal papers के summaries तथा alternative versions शामिल हैं।
  • Llama पर यह भी आरोप है कि वह मूल कार्यों के creative elements की नकल करने वाले low-quality imitations और ऐसे derivative works भी बनाता है जो विशेष रूप से केवल अधिकारधारकों को ही बनाने की अनुमति होती है।
  • शिकायत के अनुसार, Llama कभी-कभी किसी खास लेखक की expression और creative choices की नकल करने के लिए आउटपुट को अनुकूलित भी करता है।

1 टिप्पणियां

 
GN⁺ 2 시간 전
Hacker News की राय
  • बहुत से लोग खुश होंगे अगर इस मामले में Zuckerberg को हर उल्लंघन पर कानूनी न्यूनतम हर्जाने के तौर पर 750 डॉलर भी चुकाने पड़ें
    पहले वाले Anthropic उल्लंघन मामले में माना गया था कि AI training अपने-आप में transformative use है और अपने-आप में infringement नहीं है, लेकिन उस मकसद के लिए works की गैरकानूनी copying करना साफ़ तौर पर infringement है
    सेटलमेंट 1.5 बिलियन डॉलर का था, और 5 लाख pirated works पर लगभग 3,000 डॉलर प्रति work बनता था, इसलिए अगर Zuckerberg ने “मिलियनों” works की piracy की है तो 6 बिलियन डॉलर का सेटलमेंट भी काफ़ी संभव लगता है

    • पहले MP3 साइट चलाने के कारण criminal punishment पाने वाले बच्चों[1] को याद करूँ तो झुंझलाहट होती है
      लेकिन यह आदमी मौजूद लगभग हर media को चुराकर इस्तेमाल कर रहा है, और फिर भी शायद सिर्फ़ इसलिए बच निकलेगा क्योंकि वह इतना अमीर है कि उस पर अभियोग चलाना संभव नहीं लगेगा
      [1] उदाहरण: https://en.wikipedia.org/wiki/Oink%27s_Pink_Palace#Legal_pro...
    • जब तक DJT राष्ट्रपति है, मुझे नहीं लगता Zuckerberg या Meta के साथ कुछ होगा
      जैसे उन्होंने कानून तोड़ने की इजाज़त देने वाली सबसे बढ़िया ढाल खरीद रखी हो
    • यह बिल्कुल भी प्रभावशाली नहीं है। इतना करने के बाद भी कोई कैसे AI monopolist/hegemon बना रह सकता है, समझ नहीं आता
      यह असल में बिना पूछे सब कुछ जबरन अधिग्रहित कर लेना है, और बाद में कीमत पर मोलभाव करना है। criminal prosecution कहाँ गई, और अगर आज़ादी नहीं तो कम-से-कम equity assets की ज़ब्ती कहाँ गई?
    • कभी सोचा नहीं था कि आखिरकार मैं intellectual property lawyers का समर्थन करने लगूँगा
    • संदर्भ के लिए Zuckerberg की net worth लगभग 220 बिलियन डॉलर है
  • पहले ऐसे छात्रों पर तरह-तरह के मुकदमे किए गए थे जिन्होंने सिर्फ़ MP3 download किए थे और redistribute भी नहीं किया था
    कहा गया था कि उसमें fair use जैसा कोई transformative पहलू नहीं था, बस file download थी; तो सीख यह निकली कि उन छात्रों को शायद लाखों files चुरानी चाहिए थीं

    • वह शायद एक information opinion-shaping campaign भी हो सकता था
      अगर end users पर भी मुकदमा चल सकता है, तो पूरे विमर्श का रुख़ positive से negative हो जाता है, और ताकतवर पक्ष के लिए उस व्यवहार को रोकना आसान हो जाता है
    • असली फ़र्क बस इतना है कि आप बेहद अमीर हैं या नहीं
  • कुछ हफ़्ते पहले मुझे अपने private cgit server पर Meta का ASN block करना पड़ा। वे robots.txt को नज़रअंदाज़ कर server को जला रहे थे
    वे अलग-अलग network blocks में फैले हुए थे, जिससे साफ़ लगा कि वे IP-based throttling से बचना चाह रहे थे, और सिर्फ़ उनके कारण access logs सैकड़ों MB तक पहुँच गए। यक़ीन करना मुश्किल था

    • पिछले साल भी मेरे साथ यही हुआ था। वे बिना रुके random non-existent URLs crawl कर रहे थे
      ऐसा लग रहा था जैसे वे user queries को search endpoint पर proxy करने की कोशिश कर रहे हों, और ASN match कर रहा था, इसलिए यह नहीं था कि कोई Meta होने का नाटक कर रहा हो
    • मेरे हिसाब से ASN-based blocking कहीं ज़्यादा आम होनी चाहिए। अफ़सोस है कि आम tools में इसे अक्सर first-class config option की तरह support नहीं किया जाता
    • जिज्ञासा है कि लोग ऐसी कंपनियों की पहचान कैसे करते हैं। क्या कोई ऐसी service है जिससे पता चल सके कि किस company ने मेरी site scrape की?
  • लोगों का अचानक Elsevier का पक्ष लेना मज़ेदार है। मौजूदा कानून के तहत AI training का transformative fair use होना काफ़ी स्पष्ट लगता है
    शायद यह मामला उसी बात को साबित करने वाली नज़ीर बन जाए

    • यह बात परेशान करती है कि AI समर्थक अब यह दिखाने की कोशिश कर रहे हैं कि पिछले 20 साल से copyright industry का विरोध करने वाले लोग सिर्फ़ इसलिए अचानक पलट गए हैं क्योंकि वे AI industry का विरोध कर रहे हैं
      मैं personal use के लिए थोड़ी मात्रा में cannabis के decriminalization या legalization के पक्ष में हो सकता हूँ, लेकिन इसका मतलब यह नहीं कि मैं इतनी विशाल industrial drug production का समर्थन करूँ जो economy को distort कर दे, या उन companies का जो हर product में methamphetamine डालना चाहती हों
    • मुझे भी यह मज़ेदार लगता है। मैंने दूसरे threads और posts[0] में भी यही कहा है
      लोग कहते हैं, “उन्होंने उस stolen fruit की फिर से copying की,” लेकिन आख़िर “चुराया” क्या गया? क्या मूल मालिक के पास वह चीज़ अब भी नहीं है?
      Dowling v. United States, 473 U.S. 207 (1985) में Supreme Court ने फैसला दिया था कि copyrighted musical works की phonorecords की unauthorized sale, National Stolen Property Act के तहत “stolen, converted, or taken by fraud” property नहीं मानी जाती
      और मान भी लें कि बहस के लिए इसे चोरी कहें, तब भी copyright का उद्देश्य “विज्ञान और उपयोगी कलाओं की प्रगति को बढ़ावा देना” है, जिसके लिए “लेखकों और आविष्कारकों को सीमित समय के लिए उनकी writings और discoveries पर विशेष अधिकार” दिए जाते हैं
      यह साबित करना बहुत मुश्किल होगा कि LLMs ने कला और विज्ञान को आगे नहीं बढ़ाया, इसलिए कम-से-कम मैं इसे transformative use, यानी fair use मानूँगा
      [0] https://news.ycombinator.com/item?id=48026207#48029072
    • मुझे नहीं लगता कि बात को “AI training मौजूदा कानून के तहत transformative fair use है” तक ले जाने की भी ज़रूरत है। यह पूरी तरह एक नया product है
      यह कुछ वैसा है जैसे keyboard बेचने वाला उस keyboard से बने software पर royalty माँगने लगे
      इससे फ़र्क नहीं पड़ता कि किताब लिखने वाले ने LLM training जैसे नए use case की कल्पना नहीं की थी। वह किताब LLM के अंदर नहीं है, न ही LLM के साथ बेची जा रही है। वह बस उन अरबों tools में से एक है जो LLM बनाने में इस्तेमाल हुए
      यह framing कि AI companies, Disney जैसे बेचारे intellectual property holders से value extract कर रही हैं, पागलपन है। वह content हमारी cultural heritage है और पहले से हमारी है। बस किसी बेवकूफ़ को जीवनभर उसका monopoly exploitation right दे दिया गया है
      LLMs उस data पर train होते हैं जो पहले से हमारा है। Disney वगैरह बस दशकों पहले बनी चीज़ों से नई technology के ज़रिए और पैसे निचोड़ना चाहते हैं
      सबसे बुरी स्थिति में भी यह reverse engineering है, और अमेरिका में इसे fair use के तहत protected होना चाहिए था, हालाँकि लगता है वह protection कुछ हद तक कमज़ोर हुई है
    • आमतौर पर मुद्दा transformative होने का नहीं बल्कि copyrighted material को गैरकानूनी तरीके से हासिल करने का होता है
    • मेरा मानना है कि Elsevier भी, और वे लोग भी जो authors की सहमति के बिना commercial-distribution AI training के लिए intellectual property लेते हैं, दोनों को क़ानूनी होना चाहिए
  • यह देखने में दिलचस्पी है कि personal liability का क्या होगा
    कंपनियों में ज़िम्मेदारी बहुत बार गायब हो जाती है, और मैं हमेशा सोचता रहा हूँ कि इसका legal justification आख़िर क्या है। अब तक जो बचा है वह कुछ ऐसा है जैसे “कंधे उचकाना” और “लगता है संबंधित provision लागू नहीं होती,” और दोनों ही अच्छे कारण नहीं हैं
    मैं मज़ाक करना चाहता था कि अगर Aaron Swartz के शव पर चुंबक लगा दिया जाए, तो वह अभी कितनी तेज़ी से घूम रहा होता और कितना शक्तिशाली energy source बन जाता
    लेकिन सच कहूँ तो, अपने मामले के साथ जैसा हुआ और उसके बाद भी ज़्यादा कुछ न बदला, उसे देखकर लगता है कि शायद उसने ऐसे नतीजे पहले ही भाँप लिए होते

    • Aaron Swartz case को जिस तरह handle किया गया वह एक त्रासदी थी, लेकिन उन पर piracy का अभियोग नहीं था
      आरोप fraud, protected computer में unauthorized access, और computer damage के थे
      समय के साथ मामले का आधार भुला दिया गया और उसकी जगह यह मान लिया गया कि वह piracy case था, जबकि वह असल में unauthorized access का मामला था
    • किसी दूसरी timeline का Aaron Swartz शायद देवता-सा न बनाया गया होता, और आज वह अपने YC alumni दोस्तों के साथ ऐसा AI/crypto startup चला रहा होता जो training data upload करने पर पैसे देता
  • अगर Zuckerberg को इस मामले में कड़ी सज़ा नहीं मिलती, तो कम-से-कम यह कानूनी मिसाल बननी चाहिए कि बाकी सब भी वही कर सकते हैं और उन्हें भी छूट मिले
    भविष्य के सारे Aaron Swartz को दुनिया भर में scientific papers आज़ादी से साझा करने का अधिकार होना चाहिए

    • मुझे लगता है वे lobbying के ज़रिए regulatory capture करेंगे और छोटे खिलाड़ियों के लिए सीढ़ी ऊपर खींच लेंगे
  • मैं निजी तौर पर एक ऐसे engineer को जानता हूँ जिसे यह जानते हुए भी कि इसमें बहुत legal risk है, कुछ काम करने को कहा गया, इस तर्क के साथ कि company के पास lawyers इसी लिए होते हैं

    • अच्छा होगा अगर मुक़दमा आने पर discovery process में ऐसी बातें सामने आएँ, लेकिन शायद कभी नहीं आएँगी
      whistleblowing भी आज की economy में कोई बढ़िया विकल्प नहीं है, लेकिन फिर भी काश ज़्यादा लोग ऐसा करते
  • तो मतलब “move fast and steal things”?

    • जब AI scrapers ने शुरुआत की थी, मैं मूलतः यही सोचता था। लगता था योजना यह थी कि लोग समझें और block करें उससे पहले जितना हो सके सब scrape कर लिया जाए
      वे sites को जिस रफ़्तार से scan और scrape कर रहे थे, वह तथाकथित legitimate crawlers की तुलना में भी बहुत ज़्यादा थी, और वही सबसे तर्कसंगत व्याख्या लगती थी
    • move fast and break laws
    • यह शुरुआत से, सबसे ऊपर से शुरू हुआ था
    • working class से हुआ अब तक का सबसे बड़ा theft
    • चुराया क्या? क्या यह फिर वही “you wouldn’t download a car” वाली दलील है? लगा था हम वह दौर बहुत पहले पार कर चुके हैं
  • चाहे approval CEO ने दिया हो या किसी और senior executive ने, company की liability शायद नहीं बदलेगी
    जवाब देने वाला सवाल यह है कि क्या ऐसा हुआ, और अगर हुआ तो क्या यह copyright infringement था जो fair use से protected नहीं है; न कि यह कि company के किस executive ने मंज़ूरी दी

  • Aaron Swartz सिर्फ़ इसलिए कई साल की जेल का सामना कर रहे थे क्योंकि वे scientific journal papers download करके दुनिया के साथ मुफ़्त में साझा करना चाहते थे, और उसमें उन्होंने कोई मुनाफ़ा भी नहीं कमाया था; आख़िरकार उन्होंने अपनी जान ले ली
    लेकिन एक multi-billion-dollar company अगर लाखों copyrighted creative works download करे, उस dataset पर नए तरह के AI models train करे, और पूरे labor market को reshape करने की कोशिश करे, तो उसे बस Silicon Valley-style innovation माना जाता है, मानो उसे medal मिलना चाहिए

    • जब एक व्यक्ति copyrighted material को अवैध रूप से download करता है, तो वह crime है। जब एक multinational corporation copyrighted material को अवैध रूप से download करती है, तो वह अमेरिकी अर्थव्यवस्था का बचा हुआ इकलौता growth sector और national security के लिए ज़रूरी काम बन जाता है
    • Aaron ने local copies delete कर दी थीं, तब Jstor ने मुक़दमा वापस ले लिया था। DOJ ने नहीं लिया
      नहीं लगता Meta ने local copies delete की होंगी
    • Aaron Swartz के साथ अन्याय हुआ, और वजह यह है कि copyright law बहुत ख़राब है
      हमें ऐसे कानून और ऐसे व्यवहार का विरोध करना चाहिए, उसे किसी विरोधी को दंडित करने के औज़ार की तरह नहीं घुमाना चाहिए
      यह कहना कि सबके साथ बराबर अन्याय होना चाहिए, ग़लत है। बेहतर यह होगा कि हम बुरे कानून और ढाँचे को खत्म करने की बात करें
    • Meta ने अपने AI models दुनिया के साथ मुफ़्त में साझा भी किए थे
    • वह सच में अपने समय से आगे था