Anthropic ने Claude की ट्रेनिंग के लिए लाखों पुरानी किताबें काटकर स्कैन कीं और 70 लाख pirated कॉपी डाउनलोड कीं

(businessinsider.com)

6 पॉइंट द्वारा GN⁺ 2025-07-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

जज के अनुसार Anthropic ने AI चैटबॉट Claude को ट्रेन करने के लिए लाखों पुरानी किताबों को काटकर और स्कैन करके इस्तेमाल किया
फैसले में यह भी कहा गया कि कंपनी ने अलग से 70 लाख से अधिक pirated किताबें डाउनलोड की थीं
जज ने माना कि खरीदी गई किताबों को digitize करके ट्रेनिंग डेटा के रूप में इस्तेमाल करना fair use के दायरे में आता है
इसके विपरीत, pirated कॉपी डेटा का उपयोग fair use नहीं माना गया और इसे copyright infringement बताया गया
यह फैसला AI मॉडल ट्रेनिंग में copyright के लागू होने को लेकर एक महत्वपूर्ण मिसाल माना जा रहा है

अवलोकन

अमेरिका के Northern District of California के जज William Alsup ने विश्लेषण किया कि Anthropic ने AI चैटबॉट Claude की ट्रेनिंग के लिए किताबों, सोशल मीडिया पोस्ट, वीडियो और अन्य सामग्री को डेटा स्रोत के रूप में इस्तेमाल किया
Anthropic ने लाखों डॉलर खर्च करके बड़ी संख्या में पुरानी किताबें खरीदीं, फिर उनकी binding हटाकर और पन्ने काटकर उन्हें digital files में बदला
बदली गई फाइलों को कंपनी की आंतरिक research library में रखा गया और मूल किताबों को हटा दिया गया
Amazon और Alphabet के समर्थन वाली Anthropic ने इसके अलावा 70 लाख से अधिक pirated किताबें डाउनलोड कीं और उन्हें Claude मॉडल की ट्रेनिंग में इस्तेमाल किया

किताबों के उपयोग और pirated कॉपी के इस्तेमाल की प्रक्रिया

Anthropic के सह-संस्थापक Ben Mann ने स्वीकार किया कि उन्होंने 2021 में Library Genesis से कम-से-कम 50 लाख किताबें अवैध रूप से डाउनलोड कीं
2022 में Pirate Library Mirror से कम-से-кम 20 लाख किताबें और डाउनलोड की गईं
सह-संस्थापक और CEO Dario Amodei ने कहा था कि वे "कानूनी, व्यावहारिक और व्यावसायिक झंझटों से बचने के लिए किताबें चुराना(steal) ज्यादा पसंद करेंगे"
2023 में तीन लेखकों ने Anthropic के खिलाफ यह आरोप लगाते हुए class action मुकदमा दायर किया कि कंपनी ने उनकी किताबों की pirated कॉपी बिना अनुमति इस्तेमाल की

जज का फैसला: किताबों के fair use और pirated संस्करणों के बीच अंतर

पॉइंट 1: fair use को मान्यता
- जज ने Anthropic द्वारा बड़े पैमाने पर किताबों के digitization और AI learning data के रूप में उनके इस्तेमाल को "बेहद transformative (exceedingly transformative)" माना
- फैसले में कहा गया कि "Anthropic का LLM मौजूदा दस्तावेज़ों की सिर्फ नकल या उनका विकल्प बनने के लिए नहीं, बल्कि पूरी तरह कुछ अलग बनाने के लिए सीखता है"
- कंपनी द्वारा खुद खरीदी गई किताबों को digitize करके library में रखना fair use माना गया
पॉइंट 2: pirated कॉपी का उपयोग fair use नहीं
- जज ने pirated किताबों को डेटा के रूप में इस्तेमाल करने पर Anthropic की कड़ी आलोचना की
- उन्होंने स्पष्ट कहा कि "Anthropic को central library में pirated किताबें इस्तेमाल करने का अधिकार नहीं था, और स्थायी, सामान्य-उद्देश्य वाली library बनाना अपने आप में fair use को सही नहीं ठहराता"

प्रभाव और उद्योग रुझान

यह फैसला उन शुरुआती मामलों में से एक है जो देखता है कि copyright-protected किताबों को AI मॉडल ट्रेनिंग डेटा के रूप में इस्तेमाल करना fair use में आता है या नहीं
हाल के समय में OpenAI और कई generative AI कंपनियों के खिलाफ creators, artists और media organizations ने इसी तरह के कई मुकदमे दायर किए हैं
AI उद्योग का कहना है कि AI मॉडल ट्रेनिंग fair use के दायरे में आती है, जबकि creators का कहना है कि उनके अधिकारों का उल्लंघन हुआ है
हाल ही में Disney ने AI image generation कंपनी Midjourney के खिलाफ अपने character copyright के उल्लंघन को लेकर मुकदमा दायर किया

निष्कर्ष

Anthropic की book digitization और fair use से जुड़ी बातों को AI research और copyright व्याख्या में एक turning point माने जाने वाला फैसला कहा जा रहा है
वहीं, pirated कॉपी के उपयोग को साफ तौर पर copyright infringement बताया गया है, जिससे आगे AI training data sourcing के मानकों के लिए यह एक महत्वपूर्ण संदर्भ बनेगा

1 टिप्पणियां

GN⁺ 2025-07-08

Hacker News राय

मूल लेख लिंक
जज के अहम फैसले का सार: Anthropic ने कॉपीराइट वाली किताबों का AI training में उपयोग किया, इसे “बहुत ही transformative” मानते हुए fair use के दायरे में माना गया। Anthropic का तर्क था कि उन्होंने बस अपने खरीदे हुए असली किताबों को एक केंद्रीय लाइब्रेरी की तरह डिजिटल रूप में संग्रहीत किया, न कि नई कॉपियां बनाईं या उन्हें दोबारा वितरित किया। “लाइब्रेरी को pirated बनाना” स्पष्ट कॉपीराइट उल्लंघन है। दिलचस्प बात यह है कि आंतरिक उपयोग के लिए लाइब्रेरी को scan करके digitize करना स्वीकार किया गया, और AI training के लिए उसका उपयोग भी fair use माना गया.
- दूसरी ओर, जज ने एक और मुद्दे पर जो कहा वह भी महत्वपूर्ण है। Anthropic ने pirated किताबों को केंद्रीय लाइब्रेरी की तरह इस्तेमाल किया, यह fair use नहीं है, यह उन्होंने साफ कर दिया। यानी किताबें सीधे खरीदकर उन्हें physical रूप से scan करके AI training में उपयोग करना fair use है, लेकिन pirated copies का उपयोग fair use नहीं है
- मुझे नहीं लगता कि यह फैसला बिल्कुल नया है। मेरा मानना है कि 10 से अधिक साल पहले Google ने पहले ही ऐसा precedent बना दिया था कि किताबों को डिजिटल रूप में बदलना अनुमति-योग्य है
- मेरी जानकारी में Meta से जुड़े follow-up trial में जज Vince Chhabria ने fair use दावे पर आपत्ति जताई थी संबंधित लिंक (मैं वकील नहीं हूं)
- मुझे जिज्ञासा है कि यहां ‘fruit of the poisonous tree’ सिद्धांत भी लागू होता है या नहीं
- यह सोचकर कि पहले Aaron Swartz को लगभग इसी तरह के काम के लिए उम्रकैद जैसी सजा देने की कोशिश की गई थी, समय का बदलाव सचमुच बहुत बड़ा लगता है
बड़े पैमाने पर कॉपीराइट उल्लंघन में शामिल किसी व्यक्ति को वास्तव में सजा मिलने का उदाहरण संदर्भ लेख
- मुझे तो लगा था कि यहां Aaron Swartz केस का जिक्र होगा
- ऊपर वाला लेख क्लिक करके देखा तो वह असल में करोड़ों डॉलर के pirated software को ‘बेचने’ वाले एक कारोबार की कहानी थी। यानी सिर्फ खुद इस्तेमाल करना नहीं, बल्कि साफ तौर पर चोरी करके उसे दूसरों को दोबारा बेचकर फायदा कमाने का मामला। transformative use या व्यक्तिगत उपयोग से यह बिल्कुल अलग केस है
- Anthropic ने उस सामग्री को बेचा नहीं। अगर कोई व्यक्ति किताब पढ़कर उसका सार लिखे या आंशिक उद्धरण दे, तो शायद उसे जेल नहीं भेजा जाएगा। फिर भी अगर Autodesk का विरोध करने पर 7 साल की सजा मिलती है, तो यह दिखाता है कि कानूनी दुनिया में यह कुछ मामलों में डकैती से भी अधिक गंभीर माना जाता है
- मुझे लगता है कि pirated software की अवैध नकल बेचने का मामला और Anthropic द्वारा किताबों का उपयोग करने का मामला बहुत अलग हैं। Anthropic ने कभी किसी किताब की ‘copy’ बनाकर उसे वितरित नहीं किया
- अगर कानून तोड़ने का इरादा हो, तो पहले कंपनी बना लो ताकि जिम्मेदारी उस पर डाली जा सके — ऐसा मजाक। यह उस हकीकत पर तंज है कि पर्याप्त पूंजी हो तो कानून उल्लंघन भी संभाला जा सकता है
Spotify जैसी कंपनियों के बारे में भी संकेत हैं कि उन्होंने शुरुआती दौर में अवैध सामग्री के आधार पर कारोबार बढ़ाया। पहले यह अफवाह थी कि beta testing में ‘pirated’ mp3 files इस्तेमाल हुई थीं। कुछ लोगों का अनुभव है कि उन्होंने ‘Scene’ टैग वाले tracks डाउनलोड किए थे संबंधित लेख
- Crunchyroll भी मूल रूप से pirated anime streaming site था, लेकिन बाद में औपचारिक license हासिल करके वैध बन गया। 2006 में शुरू हुआ, 2008 में VC investment मिला, 2009 में licensing deal हुई Forbes लेख, Venturebeat लेख
- सच कहें तो सिर्फ Spotify नहीं, ज्यादातर tech giants कानून के gray area या regulation को नजरअंदाज करके — यानी बाजार को ‘disrupt’ करके — पैसा कमाते हैं। क्योंकि कानूनी सजा की तुलना में अनुचित लाभ कहीं अधिक बड़ा होता है। मेरा मानना है कि Amazon के बाद investment के बल पर ‘fair competition’ को नजरअंदाज करते हुए price dumping भी काफी बढ़ा। अमेरिकी बिग टेक कंपनियां मानो कानून को लगभग निष्प्रभावी बनाकर ही बढ़ीं
- ‘आधिकारिक रूप से प्राप्त नहीं किया गया audio’ और ‘कॉपीराइट-मुक्त audio’ दो अलग अवधारणाएं हैं। streaming license मिल जाने पर भी मूल file उपलब्ध न हो, ऐसा हो सकता है
- Spotify के शुरुआती UI का Limewire से लगभग 1:1 copy-paste जैसा होना भी उल्लेखित है
- Google Music में भी ऐसा तरीका था जिसमें user खुद mp3 आदि upload करते थे, और उस समय यह तर्क दिया जाता था कि file की अवैधता के लिए Google जिम्मेदार नहीं है। Amazon के पास भी ऐसा मिलता-जुलता service experience था संदर्भ लेख
जो लोग AI का भविष्य बना रहे हैं, उनके इस तरह ethics छोड़ देने पर सवाल उठता है। चीन को दशकों तक counterfeit products की समस्या पर दंडित किया गया, इसलिए अगर Anthropic भी अवैध गतिविधि में शामिल रहा हो, तो export restrictions भी उचित लगेंगी
- चीन के counterfeit goods मुद्दे पर हमने व्यावहारिक रूप से क्या किया, यह भी सवाल है। ज्यादातर कार्रवाई तो बस वहां पकड़े गए नकली सामान के import को रोकने तक सीमित रही, कोई ठोस दंड शायद ही हुआ। उल्टा अमेरिकी कंपनियों ने लंबे समय तक production outsource करके IP चोरी के माहौल को ही बढ़ावा दिया
- सचमुच अनैतिक पक्ष तो वे कंपनियां हैं जो किताबें खरीदती भी नहीं। हकीकत यही है कि आर्थिक और कानूनी ताकत हो तो निकल भागना और आसान हो जाता है
- समाज में फैले double standard और सत्ता को मिले छूट पर टिप्पणी। शराब पीकर गाड़ी चलाना, हिंसा, tax evasion जैसे उदाहरण देकर यह जोर दिया गया कि पूरा समाज ताकत, धन और प्रभाव के आगे झुक जाता है। अगर कोई publisher मेरी किताब की नकल करे तो मैं मुकदमा कर सकता हूं, लेकिन AI कंपनी चुरा ले तो बड़ी law firms के सामने मुकदमा करना भी मुश्किल है। वास्तविक दुनिया में समानता एक भ्रम है, और सफल पक्ष हमेशा फायदे में रहता है
- Facebook के slogan की तरह, ‘Move fast and break things’ वाला दौर है
- किताब में मौजूद जानकारी का उपयोग करना अनैतिक क्यों माना जाए, यह भी सवाल है। Anthropic ने उन किताबों को दोबारा बेचा नहीं। किताब की जानकारी स्वयं कॉपीराइट से संरक्षित नहीं होती। उद्धरण हमेशा संभव है
दावा है कि Anthropic के co-founder Ben Mann ने 2021 में Library Genesis से लाखों pirated किताबें डाउनलोड की थीं। चोरी तो चोरी है। double standard बंद होना चाहिए — ऐसा मत
- ज्यादातर piracy का मकसद केवल ‘व्यक्तिगत उपभोग’ होता है, लेकिन pirated सामग्री के जरिए ‘profit seeking’ करना अलग स्तर की बात है
- यह सिर्फ साधारण चोरी नहीं, बल्कि बाजार पर कब्जे के इरादे से निशाना बनाकर चोरी करना है, जिससे ethically चलने वाली कंपनियां पीछे छूट जाती हैं और अनगिनत लेखकों को बड़ा नुकसान होता है। मुझे यह ‘organized crime’ के ज्यादा करीब लगता है
- “चोरी तो चोरी है” कहना बहुत सरल कर देना है। किसी ने सामान उठाकर बाहर निकाला हो, तब भी हालात के अनुसार सजा बहुत अलग हो सकती है। बारीकियां महत्वपूर्ण हैं
- पहले ‘theft’ की परिभाषा ही ठीक से तय करनी चाहिए
- “copying is different from theft” — अगर कोई कॉपी लेकर जाता है, तो मूल व्यक्ति के पास उसकी अपनी कॉपी फिर भी बनी रहती है। copying को ‘theft’ कहें तो कई और अतिवादी दावे भी सही ठहराए जा सकते हैं — ऐसा प्रतिवाद
बड़े पैमाने पर AI data training की वास्तविकता में, pirated सामग्री और जुर्माना भरना लाखों किताबें एक-एक करके खरीदकर process करने से कहीं सस्ता पड़ता है। बेशक यह उचित नहीं ठहराया जा सकता, लेकिन अगर मैं खुद उनकी जगह होता तो efficiency की वजह से वही विकल्प चुनता — इस तरह की दुविधा
- इस तर्क की समस्या यह है कि वर्षों तक किताबें लिखने वाले असंख्य शिक्षक और लेखक, अगर बड़ी कंपनियों द्वारा कॉपीराइट उल्लंघन का शिकार हों, तो उनके लिए मुकदमा करना भी मुश्किल होगा। नतीजतन लेखक लिखना छोड़ देंगे, और ऐसा होना पहले से शुरू हो चुका है — ऐसा दावा
- जानबूझकर किए गए उल्लंघन पर प्रति कॉपीराइट अधिकतम 150,000 डॉलर तक का जुर्माना है। अगर हर उल्लंघित सामग्री पर फैसला हो जाए, तो रकम Anthropic के market cap से भी बड़ी हो सकती है। लेकिन व्यवहार में ऐसे असाधारण निर्णय लागू नहीं होते, और 2000 के शुरुआती दशक के Napster चलाने वाले किशोरों की तुलना में यहां कानून का पैमाना अलग है
- “क्या piracy पर जेल नहीं होनी चाहिए?” — ऐसा सवाल। DVD पर FBI warning को देखें तो सैद्धांतिक रूप से यह गंभीर अपराध है
- दरअसल लेख के अनुसार, Anthropic ने बड़ी संख्या में किताबें औपचारिक रूप से खरीदकर training में इस्तेमाल भी कीं। संबंधित मुकदमे की सभी किताबों में खरीदी हुई प्रतियां भी शामिल हैं। second-hand किताबें bulk buying में सस्ती पड़ती हैं
- अगर legal risk को ‘zero’ तक ले जाना है, तो सिद्धांततः publishers से सीधे संपर्क करके AI training license पर बातचीत करनी चाहिए। Netflix, Spotify और बाकी media कंपनियां यही करती हैं। फिर AI कंपनियों के मामले में इस सिद्धांत को अलग नजर से क्यों देखा जाता है — यह सवाल है
अगर मेरे पास कोई किताब है, तो उसे अपने कंप्यूटर से scan करना कानूनी होना चाहिए — मैं ऐसा मानता हूं। AI कंपनियों की स्थिति के लिए कुछ सहानुभूति भी महसूस होती है। ऐसा लगता है कि कॉपीराइट नियम AI को निशाना बनाकर लगातार सख्त होते जा रहे हैं। अगर मैं किसी किताब की सामग्री से प्रेरणा लेकर कुछ रचूं, तो मुझे नहीं लगता कि उस किताब के कॉपीराइट को कुछ चुकाना चाहिए
- लेख को ठीक से पढ़ना चाहिए। उसमें साफ लिखा है कि अपनी किताब को scan करके AI training में इस्तेमाल किया जा सकता है। बल्कि यह फैसला AI कंपनियों के लिए बड़ी राहत है। इसे उल्टा समझना समझ से बाहर है
- fair use बहस में जो बात अक्सर छूट जाती है, वह यह है कि क्या उस उपयोग से कॉपीराइट धारक के बाजार को वास्तविक नुकसान पहुंचता है। कोई व्यक्ति किसी किताब से सीखकर लेखक से प्रतिस्पर्धा करे, तो उसका असर साबित करना कठिन है। लेकिन AI ने बड़े पैमाने पर training लेकर जो model जारी किए, उनसे लेखकों की आय में कमी अपेक्षाकृत साफ तौर पर साबित की जा सकती है। अगर AI कॉपीराइटेड रचनाओं के आधार पर लेखक की जगह ले सकता है, तो यह fair use की भावना से मेल नहीं खाता
- कॉपीराइट कानून में तार्किक रूप से एकसमान संरचना नहीं दिखती। सूचना की स्वतंत्रता और innovation को बढ़ावा देने का मूल उद्देश्य भी धुंधला है। कानून की व्याख्या जज की व्यक्तिपरकता पर निर्भर करती है। आखिरकार कानूनी हकीकत का तर्क ‘पैसा’ है, और कॉपीराइट की ताकत बड़े पूंजीपतियों के बनाए रखने से चलती है। अगर अब यही चीज पूंजी के लिए बाधा बन जाए, तो शायद हम देखेंगे कि DRM और कॉपीराइट की तर्कशृंखला कैसे बदलती है
- scale बड़ा हो जाए तो सब कुछ अलग तरह से काम करता है। किसी व्यक्ति के अधिकारों और मानकों को वैसे का वैसा mega-system पर लागू नहीं किया जा सकता, और सामाजिक स्तर पर भी ऐसा भेद जरूरी है। जिनके पास पैसा है उन्होंने इस समस्या को अनदेखा करवाया, और ‘scale’ पर पर्याप्त regulation न होने से जो भ्रम पैदा हुआ वही मूल कारण है
- सारांश: जज के अनुसार, Claude training के लिए किताबों का उपयोग fair use है, लेकिन ‘pirated’ सामग्री का उपयोग अवैध है
मेरा मानना है कि YouTube ने हाल में downloading को रोकने के उपाय इसलिए भी कड़े किए होंगे ताकि प्रतिस्पर्धी AI कंपनियां dataset न जुटा सकें
दूसरों की आलोचना करना आसान है, लेकिन इस thread की सबसे ऊपर वाली टिप्पणी भी आखिरकार Business Insider से ‘चुराए गए’ content की लिंक ही है। वास्तविकता यह है कि कोई भी पूरी तरह निष्पक्ष नहीं है
- यह कैसे Business Insider से ‘चुराया गया’ content है, यह समझना चाहूंगा। वही लेख उसकी आधिकारिक website पर भी देखा जा सकता है, और browser cache या archive भी मूल रूप से कोई अलग चीज नहीं हैं
- यह आज के thread की सबसे अच्छी टिप्पणी है। यहां हो रही logical gymnastics देखना दिलचस्प लगता है

Anthropic ने Claude की ट्रेनिंग के लिए लाखों पुरानी किताबें काटकर स्कैन कीं और 70 लाख pirated कॉपी डाउनलोड कीं

अवलोकन

किताबों के उपयोग और pirated कॉपी के इस्तेमाल की प्रक्रिया

जज का फैसला: किताबों के fair use और pirated संस्करणों के बीच अंतर

प्रभाव और उद्योग रुझान

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय