AI बस बड़े पैमाने पर की गई अनधिकृत साहित्यिक चोरी है

(axelk.ee)

2 पॉइंट द्वारा GN⁺ 2026-05-22 | 2 टिप्पणियां | WhatsApp पर शेयर करें

AI मूल लेखक की सहमति हो या न हो, इनपुट सामग्री को लेकर उस पर training करता है, और उसके नतीजे बेचते समय मूल लेखक को कोई मुआवज़ा नहीं देता
AI कंपनियों (और AI टूल्स) के ग्राहक भी prompt से तैयार नतीजों को फिर दूसरे ग्राहकों को बेचते हैं, और इंटरनेट भर से कॉपी की गई चीज़ों से मुनाफ़ा कमाते हैं
लेखक ने e-commerce से जुड़े अपने tutorial खुद रिसर्च करके लिखे थे, लेकिन कुछ वेबसाइटों ने ChatGPT से लोकप्रिय tutorials की नकल करवाई और फिर उन्हें अपने लेख की तरह प्रकाशित कर दिया
नकल किए गए लेख Google search results में मूल लेखों से भी ऊपर रैंक करने लगे
नकल किए गए लेखों में मूल वेबसाइट की ओर जाने वाले लिंक बिलकुल उसी link text के साथ बचे हुए थे, और हटाए न गए इन लिंक की वजह से नकल की पुष्टि हुई
Google मूल सामग्री की नकल करने वाली वेबसाइटों को मूल से ऊपर दिखाकर ऐसा ढांचा बना रहा है जिसमें अनधिकृत कॉपी की गई सामग्री को search में इनाम मिलता है

2 टिप्पणियां

GN⁺ 2026-05-22

Hacker News की राय

इसे सही ठहराते समय एक आम भ्रम बार-बार इस्तेमाल होता है: “अगर छोटे पैमाने पर ठीक है या नज़रअंदाज़ किया जा सकता है, तो बड़े पैमाने पर भी ठीक है।”
तर्क यह होता है कि अगर एक वेबपेज से सीखकर पैसे कमाना ठीक है, तो कंप्यूटर सब लोगों से सब कुछ सीखकर पैसे कमाए, इसमें समस्या क्यों है? Golden Gate Park से एक फूल तोड़ना और बेचने के लिए पार्क के सारे फूलों को अपने-आप काट देने वाली मशीन बना देना अलग बातें हैं। मात्रा में बदलाव किसी गतिविधि की गुणात्मक प्रकृति बदल देता है, और उसका असर हमेशा बुरा ही हो यह ज़रूरी नहीं, लेकिन उसे नज़रअंदाज़ नहीं करना चाहिए और उसकी जांच ज़रूर होनी चाहिए
- उस उदाहरण में तो छोटा और बड़ा, दोनों ही पैमाने पर शुरुआत से ही वह व्यवहार स्वीकार्य नहीं है। इसके उलट, दूसरों से सीखना छोटे पैमाने पर न सिर्फ़ सामाजिक रूप से स्वीकार्य है, बल्कि प्रगति की बुनियाद भी है
  असली बात सिर्फ़ पैमाना नहीं, बल्कि यह है कि जो व्यवहार इंसानों के लिए वांछनीय है, वही मशीन के करने पर सामाजिक रूप से स्वीकार्य नहीं माना जाता
- शुरुआती वेब में भी ऐसा बहुत हुआ था। कोई भी काउंटी कोर्ट जाकर “सार्वजनिक” दस्तावेज़ देख सकता था, लेकिन जैसे ही ब्राउज़र में सिर्फ़ नाम डालकर देशभर में कोई भी उन्हें ढूँढ सकता था, उनकी प्रकृति बदल गई
- फूल भौतिक वस्तुएँ हैं, इसलिए उन्हें हटाने पर वे अपनी मूल जगह से गायब हो जाते हैं, लेकिन अगर कोई LLM किसी वेबपेज से कुछ सीख ले, तो वेबपेज वहीं रहता है
  यहाँ जो “चोरी” महसूस होती है, वह पूरी तरह दिमाग़ी व्याख्या है; किसी ने कॉपी कर लिया, इसका मतलब यह नहीं कि मूल किसी से छिन गया
- यह composition fallacy का मामला है
  https://en.wikipedia.org/wiki/Fallacy_of_composition
- इंटरनेट से पहले जानकारी और ज्ञान की खाई से पैसा और ताकत बन सकती थी
  इंटरनेट के बाद लेकिन LLM से पहले, सिद्धांततः यह सूचना-अंतर बहुत कम हो गया था, मगर समझ और उपयोग की बाधाओं की वजह से ज़्यादातर लोग उसका लाभ नहीं उठा पाए। LLM के बाद वह बाधा टूट रही है, इसलिए अब सोचना होगा कि जानकारी और ज्ञान का अलग तरह से इस्तेमाल करके पैसा और ताकत कैसे बनाई जाए
एक और बड़ा मसला यह है कि मूल स्रोत को ऐसे credit नहीं मिल रहा जिससे उसे मुआवज़ा भी मिले
वेबसाइट चलाने वाला कंटेंट होस्ट करने का खर्च उठाता है, spider आकर crawl करता है ताकि AI उसे index कर सके, और बदले में ज़्यादा से ज़्यादा कभी-कभार citation मिलती है; कंटेंट देने वाले के रूप में लगभग कोई प्रतिफल नहीं। यह स्थिति लगातार बदतर हो रही है, और बात “जब सब AI में है, तो वेबसाइट क्यों देखें?” तक पहुँच रही है। आख़िरकार शायद crawlers को ब्लॉक करना पड़े और सब कुछ login के पीछे रखना पड़े
- इससे भी बुरा यह है कि लगातार AI scraping कंटेंट देने वालों पर अतिरिक्त लागत डालती है और बदले में कुछ नहीं देती
  कम-से-कम Google/Bing/Yahoo की scraping का उपयोग मूल स्रोत पर वापस ले जाने वाले links देने में होता था
- लगभग एक साल पहले OpenAI ने जिस कंपनी में मैं काम करता हूँ उसे DDoS स्तर पर crawl किया था। robots.txt से रोका हुआ था, जल्दी से reCAPTCHA भी लगाया, लेकिन कोई फ़ायदा नहीं हुआ
  हमने देखा कि हमारा डेटा model output में आ रहा है, लेकिन फिर कौन क्या कर सकता है?
- इसमें सचमुच पैसा और समय लगता है। विश्वविद्यालय के सिस्टम एडमिन एक दोस्त ने कहा कि उसे लगातार AI crawlers के server पर DDoS-जैसे हमलों से निपटना पड़ता है, और Anthropic उनमें सबसे बदतर में से है
  ये AI कंपनियाँ “costs are socialized, profits are privatized” वाले नारे का घिनौना उदाहरण लगती हैं
- Google के मामले में तो यह लगभग उसका लक्ष्य ही लगता है। वह सही दिशा बताने वाले signpost की जगह सारे जवाब रखने वाला oracle बनना चाहता दिखता है
  यानी gateway नहीं, destination बनना चाहता है
- सोचता हूँ क्या वेबसाइट होस्ट करने का कोई ऐसा तरीका है कि search engine उसे ढूँढ न सकें, और इसलिए crawl भी न कर सकें
  पता है इससे discoverability पर असर पड़ेगा, लेकिन अगर वह चिंता न हो, तो crawling को कैसे चकमा दिया जाए?
यह मसला इतना सरल नहीं है कि “fair use” data scraping के 99% हिस्से को कवर कर ले
अगर मूल को पुनरुत्पादित नहीं किया जा रहा, बल्कि pretraining में token probability distribution का अनुमान लगाने के लिए इस्तेमाल किया जा रहा है, तो मामला और धुंधला हो जाता है। LLM से शायद किसी किताब को शब्द-दर-शब्द ज्यों का त्यों निकाल पाना संभव नहीं होगा
- “LLM से किताब को शब्द-दर-शब्द ज्यों का त्यों नहीं निकाला जा सकता” यह दावा New York Times की OpenAI के खिलाफ़ दायर मुकदमे की मुख्य दलील से लगभग सीधा टकराता है
  उदाहरण के लिए Bing Chat ने 2023 के लेख “The Secrets Hamas knew about Israel’s Military” के पहले 396 शब्दों में से सिर्फ़ दो शब्द छोड़कर बाकी कॉपी कर दिए थे, और प्रदर्शित साक्ष्यों में OpenAI के GPT द्वारा Times के लेख सीखकर और याद रखकर शब्दशः कॉपी करने के 100 उदाहरण दिखाए गए थे
  https://www.hollywoodreporter.com/business/business-news/cou...
- स्कूल में हमें यह नहीं सिखाया गया था कि “मैंने अपने शब्दों में लिखा है” इसलिए स्रोत बताने की ज़रूरत नहीं
  मुझे इसे समझने में थोड़ा समय लगा, लेकिन cite करने की चीज़ वाक्य की शाब्दिक कॉपी नहीं, बल्कि जानकारी का स्रोत है
- MP3 encoder के बारे में भी यही बात कही जा सकती है, लेकिन नहीं लगता कि यह किसी जज को मना पाएगी
- https://arxiv.org/html/2510.25941v1
  कंटेंट को पुनः प्रस्तुत कराया जा सकता है, लेकिन यह cat-and-mouse game है। अगर उन्हें सीधी reproduction से बचाने के लिए align न किया गया होता, तो यह कहीं ज़्यादा बार होता। RECAP बाक़ी सभी तरीकों से लगातार बेहतर निकला, और उदाहरण के लिए Claude-3.7 से पहली “Harry Potter” किताब के लगभग 3,000 अंश निकाले गए, जबकि सबसे अच्छा baseline सिर्फ़ 75 अंशों तक पहुँचा
- Claude को यह prompt देकर देखिए कि वह किसी मौजूदा library का drop-in replacement बनाए और उसी library की test suite से उसकी functionality verify करे
  लगभग सिर्फ़ comments गायब होंगे; वह library को memory से सीधा plagiarize कर देगा
अगर AI से एक भी अच्छी चीज़ निकलती है, तो वह शायद copyright law को हमेशा के लिए तोड़ देना हो सकती है
किसी को भी ideas का “मालिक” नहीं होना चाहिए। commercial use पर royalty की बात अलग है और मैं उसका समर्थन करता हूँ, लेकिन जैसा हम non-commercial piracy और unauthorized fan art को जानते हैं, वह 100% वैध होना चाहिए
- तो फिर सबके लिए copyright ही खत्म कर दो। अभी तो हम उससे भी बुरी व्यवस्था में फँसे हैं जहाँ विशाल corporations सबकी चीज़ें खुलेआम plagiarize करते हैं, जबकि जिसने कोई movie pirate की हो उसके लिए SWAT team भेज दी जाती है
- copyright ने कभी भी “ideas” की रक्षा नहीं की, और आज भी नहीं करती। वह expression की रक्षा करती है
- उदाहरण के लिए कोई गाना सिर्फ़ idea से कहीं बड़ा होता है। उसमें idea के अलावा arrangement, production, performance जैसी मेहनत भी जुड़ी होती है
  मौजूदा व्यवस्था से अलग, किसी सीमित तरीके से कुछ समय के लिए उस काम का स्वामित्व देना काफ़ी तर्कसंगत लगता है
- सबसे बड़ी समस्या टूटा हुआ commercialization नहीं, बल्कि टूटा हुआ attribution है
  अगर आप कला बनाते हैं, तो आपको उसका श्रेय मिलना चाहिए। कला इंसान के खुद को व्यक्त करने का एक अहम तरीका है
- copyright टूटेगी नहीं; हमेशा की तरह धन के गुरुत्वाकर्षण के हिसाब से चुनिंदा रूप में मुड़ जाएगी
  आप anna's archive से out-of-print किताब “download” नहीं कर पाएँगे, लेकिन corporations उसी पूरे डेटा पर train करके और उसका summary निकालकर subscription fee लेने को तैयार रहेंगी
मुझे समझ नहीं आता कि इसमें चौंकने वाली क्या बात है। सबको पता है कि AI कंपनियों ने model training के लिए विशाल मात्रा में डेटा चुराया है, फिर लोग क्यों सोचते हैं कि वे रुक जाएँगी? copyright वाले डेटा की सामूहिक चोरी के लिए क्या उन्होंने कभी सच में कीमत चुकाई है?
हम वह डेटा चुराकर या उससे लाभ कमाकर नहीं चल सकते, लेकिन वे किसी तरह कर सकते हैं। शायद इसलिए कि वे दुनिया का भला कर रहे हैं और मानवता को आगे बढ़ा रहे हैं
- वह डेटा चोरी नहीं हुआ। वह अभी भी वहीं है
- रुकने की एक वजह यह है कि source अब AI से contaminate हो चुका है। कम-से-कम scraping रोकने की एक वजह तो यह है
- वजह सरल है। अगर Microsoft आपका काम चुराए तो GDP बढ़ता है, और अगर आप Microsoft का काम चुराएँ तो GDP घटता है
  जो लोग कानून बनाते और लागू करते हैं, वे GDP बढ़ते देखना चाहते हैं। उनके लिए नैतिकता और अधिकार बस एक पतला मुखौटा हैं, जिसे असुविधा होते ही उतारकर फेंका जा सकता है
- वजह crony capitalism है। काश मुझे इसका समाधान पता होता
- हर बार जब कोई बुरी या अन्यायपूर्ण स्थिति सामने आती है, कोई न कोई निंदक-निरर्थकतावादी “इसमें हैरानी क्या है?” जैसी प्रतिक्रिया दे देता है, और अब यह सच में थका चुका है
  ऐसे comments न तो insight देते हैं, न मदद, न सोचने की कोई नई दिशा। वे सिर्फ़ बुरी स्थिति को बुरा बने रहने में मदद करते हैं
“intellectual property” कहा? वह तो एक लुभावना मृगतृष्णा है
https://www.gnu.org/philosophy/not-ipr.html
- बस इतना हो कि वह मृगतृष्णा Oracle, Microsoft, Meta, Google पर भी उसी तरह लागू हो, जैसे आपके पड़ोस के बिना वेतन के overworked open source developer पर होती है
  अगर Oracle के पूरे internal repository पर बिना attribution के train किया हुआ कोई open weights model हो, तो वही निष्पक्षता होगी
“उनकी लिखी चीज़ में मेरी असली वेबसाइट का लिंक है, और link text भी बिल्कुल वही है” — इसमें समस्या क्या है, मैं ठीक से समझ नहीं पा रहा
जब तक link text बहुत लंबा न हो, अगर कोई आपके लेख को link कर रहा है तो वह अलग शब्द क्यों इस्तेमाल करे?
- सही है। वह तो source को cite करके link देना ही हुआ
- कुछ links .../post/{id}/{extra-text} के रूप में होते हैं। यहाँ extra-text पोस्ट मिलान में बिलकुल इस्तेमाल नहीं होता
  Amazon links भी पहले ऐसे ही होते थे; product name लिंक के अंत में जुड़ा रहता था, लेकिन उसे हटाने या बदलने पर भी वही product खुलता था। शायद यह देखकर हैरानी हुई कि LLM ने लिंक के गैर-ज़रूरी हिस्से तक को ज्यों का त्यों दे दिया
- शायद सेक्शन का शीर्षक ही उसके अपने वेबपेज से linked था, या कुछ वैसा ही था। गुस्से में लिखा गया यह लेख बहुत साफ़ नहीं था
- मेरा ख़याल है उसका मतलब यह था कि वह अपने वेबसाइट URL को tutorial examples में इस्तेमाल करता है, और दूसरे tutorials ने उसे ज्यों का त्यों कॉपी कर लिया
- मान लीजिए दो वेबपेज हैं। एक पर apple fritter की recipe है, और दूसरे पर सेब के स्वाद की ranking list
  मान लीजिए apple fritter recipe, apple ranking list की ओर link करती है। बाद में कोई आपकी recipe को बिना source दिए कॉपी कर लेता है, और वही वाक्यांश रखते हुए अब भी apple ranking list को link करता है। उन्होंने आपका लेख चुराया, फिर भी Google search results में visibility और ad revenue ज़्यादा वही ले जाते हैं। यही समस्या है
लगता है यहाँ दो बातें गड्डमड्ड हो रही हैं
पहली, LLM/transformer तकनीक सच में चौंकाने वाली और क्रांतिकारी है। दूसरी, अंत में ये मानव ज्ञान के बड़े हिस्से को समेटे एक विशाल और प्रभावी database की तरह काम करते हैं। 1 नंबर, 2 नंबर को धुँधला कर देता है। अगर किसी ने अस्तित्व में मौजूद हर digital output को SQL database में डाल दिया होता और माँगने पर मुफ़्त दे देता, तो वैधता पर शायद कोई अस्पष्टता नहीं होती। लेकिन distillation जैसी प्रक्रिया इस रिश्ते को छिपा देती है और इसे simple retrieval से अलग दिखाती है। और सच यह भी है कि यह सिर्फ़ वही नहीं, उससे ज़्यादा भी है
मैं intellectual property lawyer हूँ और इस मसले पर वास्तव में काम कर रहा हूँ
यह कानूनी सलाह नहीं है, लेकिन अगर आप ऑनलाइन कंटेंट बनाते हैं — चाहे public repository code हो, blog, podcast, YouTube, publications, या सिर्फ़ hobby blog — तो U.S. copyright registration कराना सबसे समझदारी भरा कदम है। Anthropic ने copyright वाली रचनाओं की piracy के कारण लेखकों को 1.5 अरब डॉलर का class settlement दिया था। अगर HN समुदाय का काम सुरक्षित रूप से पंजीकृत होता, तो हर LLM scraping पर भारी statutory damages संभव हो सकते थे। मैं सैकड़ों लेखकों और publishers के साथ काम कर रहा हूँ और उनकी रचनाओं की रक्षा व licensing के लिए एक coalition बना रहा हूँ
- Anthropic scraping करके, यानी पढ़कर, नहीं हारा। वह इसलिए हारा क्योंकि उसने torrent के ज़रिए copyright वाली रचनाओं को सीधे distribute किया
  दोनों एक ही बात नहीं हैं
- मैंने हमेशा यही सुना है कि copyright अपने-आप मिल जाता है। क्या copyright registration में पैसे लगते हैं? क्या हर blog post के लिए करना पड़ता है? हर gist के लिए?
  अगर वास्तव में अपेक्षित copyright पाने के लिए यही ज़रूरी है, तो मैं script बनाकर भी यह कर लूँगा
- क्या अपनी मूल रचना को ऑनलाइन पोस्ट करने भर से copyright नहीं बन जाता?
- मुझे समझ नहीं आता “copyright register करना” मतलब क्या है। मैंने अब तक हर जगह यही सुना कि आप अपनी रचना का copyright अपने-आप रखते हैं, और जब तक license से छोड़ न दें, default रूप से “all rights reserved” होता है
  क्या अब ऐसा नहीं है? यह अचानक क्यों बदल गया? यह कब बदला?
- कोई भी यह नहीं करने वाला, या कम-से-कम पर्याप्त लोग नहीं करेंगे, तो plan B क्या है?
तकनीकी रूप से यह copyright infringement है या नहीं, यही मेरी मुख्य चिंता नहीं है
बड़ा मसला यह है कि दुनिया भर के कंटेंट से rent extraction करने की क्षमता कुछ गिनी-चुनी कंपनियों के हाथ में केंद्रित हो रही है, जो बड़े data centers बना सकती हैं। यह बहुत बड़ी समस्या है। अगर मेरे वेबपेज, news site, online magazine, commercial art को models निगल जाएँ और मुझे incentives से बाहर कर दें, तो फिर मैं कुछ बनाऊँ ही क्यों? अगर अभी कानूनन यह copyright infringement नहीं है, तो यह मानव सृजनशीलता और छोटे व्यवसायों के लिए एक पूर्ण त्रासदी है, इसलिए एक नया कानूनी ढाँचा चाहिए
- Google के समय भी ठीक यही प्रक्रिया हुई थी। लोगों ने कहा था कि जब वह वेबसाइटें खोजने का एकमात्र रास्ता बन गया, तो Google बस अनुचित economic rent वसूल रहा था

yangeok 2026-05-22

आजकल YouTube पर लोगों के कंटेंट को फॉर्मेट तक पूरा कॉपी करके AI से दिन में 20~30 वीडियो बनाने वाले कर्मचारियों के उदाहरण दिख रहे हैं।

AI बस बड़े पैमाने पर की गई अनधिकृत साहित्यिक चोरी है

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय