Anthropic ने पुस्तक लेखकों के साथ मुकदमे के समझौते के लिए 1.5 अरब डॉलर देने पर सहमति जताई
(nytimes.com)- Anthropic ने लेखकों के साथ 1.5 अरब डॉलर में मुकदमे के समझौते पर सहमति जताई
- 1.5 अरब डॉलर, अमेरिका के copyright मुकदमों के इतिहास में अब तक का सबसे बड़ा मुआवज़ा है
- Anthropic 5 लाख लेखकों को प्रति कृति 3,000 डॉलर देने की योजना बना रहा है
1 टिप्पणियां
Hacker News टिप्पणियाँ
archive.ph पर लेख देखें
मैं यह साफ़ करना चाहता हूँ कि यहाँ असली विवाद model training खुद नहीं है
training खुद fair use के दायरे में आती है, लेकिन बिना अनुमति किताबों की नकल करना यानी pirating समस्या है, और Anthropic से डेटा जुटाने की प्रक्रिया में गलती से ऐसा हो गया
पुरानी किताबें खरीदकर उन्हें scan करके training में इस्तेमाल करना ठीक है
Rainbows End कई मायनों में अपने समय से आगे की novel थी
पुरानी किताबें खरीदकर scan करके training करना ठीक है—इस राय पर, मुझे नहीं लगता कि वास्तव में कोई कंपनी ऐसा करती होगी
जब VC funding में अरबों डॉलर दाँव पर लगे हों, तो कौन आराम से एक-एक किताब खरीदकर scan करेगा
सब लोग जुर्माना भरने का जोखिम लेना चुनेंगे, और जुर्माने का स्तर रोकथाम करने के लिए बहुत कम है
यह वैसा ही है जैसे Uber ने शुरुआत में taxi license के बिना कारोबार शुरू किया, और बाद में investment money से जुर्माने और lobbying के जरिए संकट टाल दिया
Anthropic के लिए भी हर publisher के साथ अलग-अलग license करने से कहीं तेज़ और असरदार यह था कि DRM-मुक्त PDF और ePUB जो मिले उन्हें उठा लिया जाए
यह मामला settlement है, इसलिए न यह precedent है और न ही illegality की स्वीकृति
न training के fair use होने की बात इस बार तय हुई है, न scan का ठीक होना
इन मुद्दों पर आगे दूसरे लोगों को लड़ना होगा
मैं भी सहमत हूँ कि Rainbows End novel ने समय की आहट पहले ही पकड़ ली थी
जो लोग पढ़ना चाहते हैं उनके लिए यह बहुत अच्छी किताब है, और लेखक Vernor Vinge ने 'singularity(सिंगुलैरिटी)' शब्द को भी लोकप्रिय बनाया
Goodreads पर Rainbows End की जानकारी
मुझे यह विचार ही अजीब लगता है कि पुरानी किताब खरीदकर पढ़नी चाहिए
मेरा मानना है कि हर व्यक्ति को library में मौजूद हर किताब स्वतंत्र रूप से पढ़ने का अधिकार होना चाहिए
ज्ञान इस दुनिया में बाँटे जाने के लिए है, और लोगों को सक्रिय रूप से उस तक पहुँचना चाहिए
अगर Aaron Swartz आज के उस दौर को देखते जहाँ libgen लगभग सामान्य बात बन गया है, तो वे क्या सोचते—यह जानने की जिज्ञासा है
settlement की शर्तों का सारांश साझा कर रहा हूँ
अगर works की संख्या 5 लाख से अधिक हुई, तो हर अतिरिक्त work पर 3,000 डॉलर और बढ़ेंगे
भविष्य में होने वाले infringement और generative AI outputs के infringement इस settlement से कवर नहीं होते
एक अहम बात यह है कि इससे कोई “legal precedent” बिल्कुल नहीं बना
अगर ऐसा ही कोई मुकदमा फिर हुआ, तो सब कुछ शुरू से फिर लड़ना पड़ेगा
अक्सर ऐसी settlement तब चुनी जाती है जब लगने लगे कि मुकदमा हार सकते हैं
यह कुछ वैसा है जैसे Google ने Epic के साथ मुकदमे में court ruling आने से पहले जल्दी एक प्रतिकूल settlement कर लिया था
settlement केवल मुआवज़े की बात नहीं है, इसमें dataset destruction भी शामिल है
लेख के अनुसार, Anthropic का दावा है कि “उसने उस अवैध सामग्री का वास्तव में उपयोग नहीं किया”
अगर किसी generative AI कंपनी ने ऐसे pirated data पर training करके उसे commercialize भी कर दिया हो, तो पूरे industry के हिलने का जोखिम है
आगे ऐसे कितने और मामले सामने आएँगे, यह जानना दिलचस्प होगा
इस हिसाब से देखें तो क्या सारी किताबें सीधे खरीद लेना कहीं ज़्यादा सस्ता नहीं पड़ता?
यह हैरानी की बात है कि works सिर्फ 5 लाख ही हैं
क्योंकि ऐसा आभास था कि लाखों नहीं, करोड़ों किताबें download की गई थीं
क्या लेखक खुद इसमें शामिल हो सकते हैं, यह जानना चाहता हूँ
“प्रति work 3,000 डॉलर” हो तो यह copyright contract के तहत किताबों को license करने के लिए काफ़ी अच्छा सौदा लगता है
ऐसा लगता है कि इतना सारा fund आखिरकार publishers को देने के लिए ही जुटाया गया था
निवेशकों से “हम litigation cost जैसी बड़ी expenses के लिए तैयारी कर रहे हैं” जैसी pitch की कल्पना हो जाती है
लेख के मुताबिक, Anthropic ने हाल ही में 13 अरब डॉलर और जुटाए, और स्थापना के बाद से कुल 27 अरब डॉलर से ज़्यादा funding ली है
भले compensation राशि बहुत बड़ी लगे, लेकिन जुटाई गई funding की तुलना में यह छोटी है
मज़ाक जैसा लगता है, लेकिन मुझे सच में लगता है कि यह बहुत अच्छी investment pitch है
legal issues से जुड़े potential risk को हटाना कंपनी की value बढ़ाता है
खासकर legal uncertainty कम होने से उसी sector में investment attraction बढ़ती है
सच कहूँ तो मुझे लगता है कि system वास्तव में ऐसे ही चलता है
हर व्यक्तिगत अवसर या लाभ आख़िरकार इस पर निर्भर करता है कि क्या उससे मौजूदा capital को फायदा है
पैसा कैसे चला, इसके लिए बस कोई तर्कसंगत-सी कहानी होनी चाहिए; capital के नज़रिए से बारीकियाँ उतनी महत्वपूर्ण नहीं होतीं
पैसा चलने के बाद बस ऐसी कहानी बनाई जाती है जिसे बाद में सब स्वीकार कर सकें
यह settlement भी दोनों पक्षों को संतुष्ट करने वाली इस narrative को गढ़ने का तरीका है कि “training ठीक थी, piracy समस्या थी”
लगता है मुख्य प्रेरणा यह थी कि AI training खुद अवैध है—ऐसा कोई precedent बनने से बचा जाए
Anthropic regulation से बचकर तेज़ी से आगे बढ़ने की strategy चाहता था
किसी ने उसे ऐसा करने के लिए मजबूर नहीं किया था
अगर आप लेखक हैं, तो यह बताया गया है कि आप कैसे जाँच सकते हैं कि आपका काम शामिल था या नहीं, और इसके लिए क्या प्रक्रिया है
LibGen डेटा सेट में लेखक के नाम से खोजने का तरीका
settlement की आधिकारिक साइट पर संपर्क विवरण दर्ज करें
open source AI के नज़रिए से यह निराशाजनक है
training के लिए pirated material का उपयोग भी fair use माना जाना चाहिए
वरना Anthropic जैसे धनवान बड़े enterprise ही publishers को भारी रकम देकर AI विकसित कर पाएँगे, और अरबों किताबें खरीदकर training में इस्तेमाल करने का रास्ता व्यवहारिक रूप से असंभव हो जाएगा
यह केवल settlement है, न precedent, न illegality की स्वीकृति
आख़िरकार यह भी सच है कि महँगे engineers और दसियों हज़ार GPU में सीधे निवेश करने की क्षमता भी बड़े enterprises के पास ही होती है
व्यवहार में grassroots LLM communities training sets की legality को लेकर शायद उतनी संवेदनशील नहीं होंगी
fair use इस बात का मानदंड नहीं है कि सामग्री कैसे हासिल की गई, बल्कि यह कि “वैध रूप से access” मिलने के बाद उसके साथ क्या किया गया
अगर access ही वैध नहीं था, तो fair use की चर्चा ही संभव नहीं
इस बहस में जैसे यह मान लिया गया है कि model training खुद किसी तरह का एक अधिकार है
अगर मनचाही सारी किताबें खरीदकर model को train कराया जाए, तो वास्तव में कितना खर्च आएगा—यह जानने की उत्सुकता है
एक बात जो मन में आई, वह यह है कि क्या ऐसा कोई तरीका हो सकता है जिसमें web पर publicly available content इंसानों के लिए ही free हो, लेकिन AI crawlers के उपयोग पर उसे piracy माना जाए और इस मामले की तरह सज़ा दी जा सके
पहले सवाल का जवाब यह है कि “login wall” और contract agreement process से शायद यह संभव हो, लेकिन वास्तविक damages जैसी specific contractual terms किसी lawyer को देखकर तय करनी होंगी
सच कहूँ तो मैं इस तरीके की सिफ़ारिश नहीं करूँगा
क्योंकि user scripts जैसी कोई भी automation tool भी infringement के जोखिम में आ सकती है
ऐसा भी लग सकता है कि DMCA security measure माने जाने लायक captcha system जोड़ा जाए
उसी content को paid API के रूप में देने का तरीका भी संभव है
मुझे लगता है कि यह न कानूनी रूप से संभव है, न तकनीकी रूप से
शायद कोशिश की जा सकती है, लेकिन copyright में तरह-तरह के exceptions होते हैं, इसलिए मामला बहुत जटिल है
उदाहरण के लिए, अगर आप “सब उपयोग ठीक, लेकिन academia निषिद्ध” जैसी शर्त लगा भी दें, तो विश्वविद्यालयों पर उसे मानना अनिवार्य नहीं होगा
अगर court पहले ही LLM training को transformative use मान चुका हो, तो “सिर्फ LLM training निषिद्ध” जैसी शर्त जोड़ने से उसे खास तौर पर ज़्यादा मज़बूती से लागू नहीं कराया जा सकता
यह वैसा ही है जैसे कोई musician कहे, “मेरा music केवल पूरा सुनो, sampling मत करो” — इससे कोई वास्तविक असर नहीं पड़ता
copyright का उद्देश्य ‘विद्या और उपयोगी कलाओं की प्रगति को बढ़ावा देना’ है, और academia की accessibility को लेखक के व्यक्तिगत नियंत्रण से अधिक महत्व दिया जाता है
textbooks पर भी copyright होता है, और अगर वास्तव में scholarly fair use exception लागू हो, तो copying स्वतंत्र हो सकती है, लेकिन व्यवहार में ऐसा अक्सर नहीं होता—यही बात भ्रम पैदा करती है
अंतरराष्ट्रीय नज़रिए से देखें, तो यह जानना दिलचस्प है कि कानूनी दंड या settlement हर देश में क्या प्रभाव डालेगा, क्या दूसरे देशों में नए मुकदमे संभव हैं, और क्या अतिरिक्त दंड भी सामने आ सकते हैं
चीन की AI industry के लिए यह बड़ा फ़ायदा लगता है
पश्चिमी कंपनियों पर data collection और training को लेकर ज़्यादा पाबंदियाँ लगेंगी, जबकि चीन या दूसरे देशों की AI कंपनियाँ कहीं ज़्यादा और कहीं बेहतर data का उपयोग कर सकेंगी