- AI मूल लेखक की सहमति हो या न हो, इनपुट सामग्री को लेकर उस पर training करता है, और उसके नतीजे बेचते समय मूल लेखक को कोई मुआवज़ा नहीं देता
- AI कंपनियों (और AI टूल्स) के ग्राहक भी prompt से तैयार नतीजों को फिर दूसरे ग्राहकों को बेचते हैं, और इंटरनेट भर से कॉपी की गई चीज़ों से मुनाफ़ा कमाते हैं
- लेखक ने e-commerce से जुड़े अपने tutorial खुद रिसर्च करके लिखे थे, लेकिन कुछ वेबसाइटों ने ChatGPT से लोकप्रिय tutorials की नकल करवाई और फिर उन्हें अपने लेख की तरह प्रकाशित कर दिया
- नकल किए गए लेख Google search results में मूल लेखों से भी ऊपर रैंक करने लगे
- नकल किए गए लेखों में मूल वेबसाइट की ओर जाने वाले लिंक बिलकुल उसी link text के साथ बचे हुए थे, और हटाए न गए इन लिंक की वजह से नकल की पुष्टि हुई
- Google मूल सामग्री की नकल करने वाली वेबसाइटों को मूल से ऊपर दिखाकर ऐसा ढांचा बना रहा है जिसमें अनधिकृत कॉपी की गई सामग्री को search में इनाम मिलता है
1 टिप्पणियां
Hacker News की राय
इसे सही ठहराते समय एक आम भ्रम बार-बार इस्तेमाल होता है: “अगर छोटे पैमाने पर ठीक है या नज़रअंदाज़ किया जा सकता है, तो बड़े पैमाने पर भी ठीक है।”
तर्क यह होता है कि अगर एक वेबपेज से सीखकर पैसे कमाना ठीक है, तो कंप्यूटर सब लोगों से सब कुछ सीखकर पैसे कमाए, इसमें समस्या क्यों है? Golden Gate Park से एक फूल तोड़ना और बेचने के लिए पार्क के सारे फूलों को अपने-आप काट देने वाली मशीन बना देना अलग बातें हैं। मात्रा में बदलाव किसी गतिविधि की गुणात्मक प्रकृति बदल देता है, और उसका असर हमेशा बुरा ही हो यह ज़रूरी नहीं, लेकिन उसे नज़रअंदाज़ नहीं करना चाहिए और उसकी जांच ज़रूर होनी चाहिए
असली बात सिर्फ़ पैमाना नहीं, बल्कि यह है कि जो व्यवहार इंसानों के लिए वांछनीय है, वही मशीन के करने पर सामाजिक रूप से स्वीकार्य नहीं माना जाता
यहाँ जो “चोरी” महसूस होती है, वह पूरी तरह दिमाग़ी व्याख्या है; किसी ने कॉपी कर लिया, इसका मतलब यह नहीं कि मूल किसी से छिन गया
https://en.wikipedia.org/wiki/Fallacy_of_composition
इंटरनेट के बाद लेकिन LLM से पहले, सिद्धांततः यह सूचना-अंतर बहुत कम हो गया था, मगर समझ और उपयोग की बाधाओं की वजह से ज़्यादातर लोग उसका लाभ नहीं उठा पाए। LLM के बाद वह बाधा टूट रही है, इसलिए अब सोचना होगा कि जानकारी और ज्ञान का अलग तरह से इस्तेमाल करके पैसा और ताकत कैसे बनाई जाए
एक और बड़ा मसला यह है कि मूल स्रोत को ऐसे credit नहीं मिल रहा जिससे उसे मुआवज़ा भी मिले
वेबसाइट चलाने वाला कंटेंट होस्ट करने का खर्च उठाता है, spider आकर crawl करता है ताकि AI उसे index कर सके, और बदले में ज़्यादा से ज़्यादा कभी-कभार citation मिलती है; कंटेंट देने वाले के रूप में लगभग कोई प्रतिफल नहीं। यह स्थिति लगातार बदतर हो रही है, और बात “जब सब AI में है, तो वेबसाइट क्यों देखें?” तक पहुँच रही है। आख़िरकार शायद crawlers को ब्लॉक करना पड़े और सब कुछ login के पीछे रखना पड़े
कम-से-कम Google/Bing/Yahoo की scraping का उपयोग मूल स्रोत पर वापस ले जाने वाले links देने में होता था
हमने देखा कि हमारा डेटा model output में आ रहा है, लेकिन फिर कौन क्या कर सकता है?
ये AI कंपनियाँ “costs are socialized, profits are privatized” वाले नारे का घिनौना उदाहरण लगती हैं
यानी gateway नहीं, destination बनना चाहता है
पता है इससे discoverability पर असर पड़ेगा, लेकिन अगर वह चिंता न हो, तो crawling को कैसे चकमा दिया जाए?
यह मसला इतना सरल नहीं है कि “fair use” data scraping के 99% हिस्से को कवर कर ले
अगर मूल को पुनरुत्पादित नहीं किया जा रहा, बल्कि pretraining में token probability distribution का अनुमान लगाने के लिए इस्तेमाल किया जा रहा है, तो मामला और धुंधला हो जाता है। LLM से शायद किसी किताब को शब्द-दर-शब्द ज्यों का त्यों निकाल पाना संभव नहीं होगा
उदाहरण के लिए Bing Chat ने 2023 के लेख “The Secrets Hamas knew about Israel’s Military” के पहले 396 शब्दों में से सिर्फ़ दो शब्द छोड़कर बाकी कॉपी कर दिए थे, और प्रदर्शित साक्ष्यों में OpenAI के GPT द्वारा Times के लेख सीखकर और याद रखकर शब्दशः कॉपी करने के 100 उदाहरण दिखाए गए थे
https://www.hollywoodreporter.com/business/business-news/cou...
मुझे इसे समझने में थोड़ा समय लगा, लेकिन cite करने की चीज़ वाक्य की शाब्दिक कॉपी नहीं, बल्कि जानकारी का स्रोत है
कंटेंट को पुनः प्रस्तुत कराया जा सकता है, लेकिन यह cat-and-mouse game है। अगर उन्हें सीधी reproduction से बचाने के लिए align न किया गया होता, तो यह कहीं ज़्यादा बार होता। RECAP बाक़ी सभी तरीकों से लगातार बेहतर निकला, और उदाहरण के लिए Claude-3.7 से पहली “Harry Potter” किताब के लगभग 3,000 अंश निकाले गए, जबकि सबसे अच्छा baseline सिर्फ़ 75 अंशों तक पहुँचा
लगभग सिर्फ़ comments गायब होंगे; वह library को memory से सीधा plagiarize कर देगा
अगर AI से एक भी अच्छी चीज़ निकलती है, तो वह शायद copyright law को हमेशा के लिए तोड़ देना हो सकती है
किसी को भी ideas का “मालिक” नहीं होना चाहिए। commercial use पर royalty की बात अलग है और मैं उसका समर्थन करता हूँ, लेकिन जैसा हम non-commercial piracy और unauthorized fan art को जानते हैं, वह 100% वैध होना चाहिए
मौजूदा व्यवस्था से अलग, किसी सीमित तरीके से कुछ समय के लिए उस काम का स्वामित्व देना काफ़ी तर्कसंगत लगता है
अगर आप कला बनाते हैं, तो आपको उसका श्रेय मिलना चाहिए। कला इंसान के खुद को व्यक्त करने का एक अहम तरीका है
आप anna's archive से out-of-print किताब “download” नहीं कर पाएँगे, लेकिन corporations उसी पूरे डेटा पर train करके और उसका summary निकालकर subscription fee लेने को तैयार रहेंगी
मुझे समझ नहीं आता कि इसमें चौंकने वाली क्या बात है। सबको पता है कि AI कंपनियों ने model training के लिए विशाल मात्रा में डेटा चुराया है, फिर लोग क्यों सोचते हैं कि वे रुक जाएँगी? copyright वाले डेटा की सामूहिक चोरी के लिए क्या उन्होंने कभी सच में कीमत चुकाई है?
हम वह डेटा चुराकर या उससे लाभ कमाकर नहीं चल सकते, लेकिन वे किसी तरह कर सकते हैं। शायद इसलिए कि वे दुनिया का भला कर रहे हैं और मानवता को आगे बढ़ा रहे हैं
जो लोग कानून बनाते और लागू करते हैं, वे GDP बढ़ते देखना चाहते हैं। उनके लिए नैतिकता और अधिकार बस एक पतला मुखौटा हैं, जिसे असुविधा होते ही उतारकर फेंका जा सकता है
ऐसे comments न तो insight देते हैं, न मदद, न सोचने की कोई नई दिशा। वे सिर्फ़ बुरी स्थिति को बुरा बने रहने में मदद करते हैं
“intellectual property” कहा? वह तो एक लुभावना मृगतृष्णा है
https://www.gnu.org/philosophy/not-ipr.html
अगर Oracle के पूरे internal repository पर बिना attribution के train किया हुआ कोई open weights model हो, तो वही निष्पक्षता होगी
“उनकी लिखी चीज़ में मेरी असली वेबसाइट का लिंक है, और link text भी बिल्कुल वही है” — इसमें समस्या क्या है, मैं ठीक से समझ नहीं पा रहा
जब तक link text बहुत लंबा न हो, अगर कोई आपके लेख को link कर रहा है तो वह अलग शब्द क्यों इस्तेमाल करे?
.../post/{id}/{extra-text}के रूप में होते हैं। यहाँextra-textपोस्ट मिलान में बिलकुल इस्तेमाल नहीं होताAmazon links भी पहले ऐसे ही होते थे; product name लिंक के अंत में जुड़ा रहता था, लेकिन उसे हटाने या बदलने पर भी वही product खुलता था। शायद यह देखकर हैरानी हुई कि LLM ने लिंक के गैर-ज़रूरी हिस्से तक को ज्यों का त्यों दे दिया
मान लीजिए apple fritter recipe, apple ranking list की ओर link करती है। बाद में कोई आपकी recipe को बिना source दिए कॉपी कर लेता है, और वही वाक्यांश रखते हुए अब भी apple ranking list को link करता है। उन्होंने आपका लेख चुराया, फिर भी Google search results में visibility और ad revenue ज़्यादा वही ले जाते हैं। यही समस्या है
लगता है यहाँ दो बातें गड्डमड्ड हो रही हैं
पहली, LLM/transformer तकनीक सच में चौंकाने वाली और क्रांतिकारी है। दूसरी, अंत में ये मानव ज्ञान के बड़े हिस्से को समेटे एक विशाल और प्रभावी database की तरह काम करते हैं। 1 नंबर, 2 नंबर को धुँधला कर देता है। अगर किसी ने अस्तित्व में मौजूद हर digital output को SQL database में डाल दिया होता और माँगने पर मुफ़्त दे देता, तो वैधता पर शायद कोई अस्पष्टता नहीं होती। लेकिन distillation जैसी प्रक्रिया इस रिश्ते को छिपा देती है और इसे simple retrieval से अलग दिखाती है। और सच यह भी है कि यह सिर्फ़ वही नहीं, उससे ज़्यादा भी है
मैं intellectual property lawyer हूँ और इस मसले पर वास्तव में काम कर रहा हूँ
यह कानूनी सलाह नहीं है, लेकिन अगर आप ऑनलाइन कंटेंट बनाते हैं — चाहे public repository code हो, blog, podcast, YouTube, publications, या सिर्फ़ hobby blog — तो U.S. copyright registration कराना सबसे समझदारी भरा कदम है। Anthropic ने copyright वाली रचनाओं की piracy के कारण लेखकों को 1.5 अरब डॉलर का class settlement दिया था। अगर HN समुदाय का काम सुरक्षित रूप से पंजीकृत होता, तो हर LLM scraping पर भारी statutory damages संभव हो सकते थे। मैं सैकड़ों लेखकों और publishers के साथ काम कर रहा हूँ और उनकी रचनाओं की रक्षा व licensing के लिए एक coalition बना रहा हूँ
दोनों एक ही बात नहीं हैं
अगर वास्तव में अपेक्षित copyright पाने के लिए यही ज़रूरी है, तो मैं script बनाकर भी यह कर लूँगा
क्या अब ऐसा नहीं है? यह अचानक क्यों बदल गया? यह कब बदला?
तकनीकी रूप से यह copyright infringement है या नहीं, यही मेरी मुख्य चिंता नहीं है
बड़ा मसला यह है कि दुनिया भर के कंटेंट से rent extraction करने की क्षमता कुछ गिनी-चुनी कंपनियों के हाथ में केंद्रित हो रही है, जो बड़े data centers बना सकती हैं। यह बहुत बड़ी समस्या है। अगर मेरे वेबपेज, news site, online magazine, commercial art को models निगल जाएँ और मुझे incentives से बाहर कर दें, तो फिर मैं कुछ बनाऊँ ही क्यों? अगर अभी कानूनन यह copyright infringement नहीं है, तो यह मानव सृजनशीलता और छोटे व्यवसायों के लिए एक पूर्ण त्रासदी है, इसलिए एक नया कानूनी ढाँचा चाहिए