3 पॉइंट द्वारा GN⁺ 2026-03-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ओपन सोर्स प्रोजेक्ट chardet v7.0.0 ने AI टूल का उपयोग करके पूरे कोड को फिर से लिखा और LGPL से MIT में लाइसेंस बदल दिया
  • मूल लेखक का दावा है कि इस प्रक्रिया में GPL उल्लंघन की संभावना है, और AI ने मूल कोड पर प्रशिक्षण के आधार पर जो परिणाम बनाया वह ‘क्लीन रूम इम्प्लीमेंटेशन’ नहीं है
  • पारंपरिक क्लीन रूम तरीके में दो टीमें अलग होनी चाहिए, लेकिन AI इस दीवार को पार कर जाता है, जिससे यह सवाल उठता है कि क्या यह एक व्युत्पन्न रचना है
  • साथ ही, अमेरिकी सुप्रीम कोर्ट AI-जनित सामग्री पर कॉपीराइट को मान्यता नहीं देता, जिससे नए कोड के स्वामित्व और लाइसेंस की वैधता अस्पष्ट हो जाती है
  • अगर ऐसे मामलों को मान्यता मिलती है, तो Copyleft ढांचे के निष्प्रभावी हो जाने का खतरा उठता है

chardet प्रोजेक्ट का AI-आधारित पुनर्लेखन और लाइसेंस परिवर्तन

  • Python character encoding detection लाइब्रेरी chardet मूल रूप से Mozilla के C++ कोड का पोर्ट था, इसलिए यह LGPL के दायरे में था
    • इसके कारण कॉरपोरेट उपयोगकर्ताओं को कानूनी अनिश्चितता का सामना करना पड़ता था
  • मेंटेनरों ने Claude Code का उपयोग करके पूरे कोड को फिर से लिखा और v7.0.0 को MIT लाइसेंस के तहत जारी किया
  • मूल लेखक a2mark का कहना है कि यह कदम LGPL का उल्लंघन है
    • उनका कहना है कि संशोधित कोड पर अब भी LGPL लागू होना चाहिए, और “पूर्ण पुनर्लेखन” का दावा इसलिए अमान्य है क्योंकि परिणाम मूल कोड के संपर्क में रहकर उत्पन्न किया गया
    • उन्होंने यह भी स्पष्ट किया कि AI code generation कोई अतिरिक्त अधिकार नहीं देता

क्लीन रूम इम्प्लीमेंटेशन और AI का शॉर्टकट

  • पारंपरिक clean room rewrite में दो टीमें होती हैं
    • टीम A मूल कोड का विश्लेषण करके functional specification तैयार करती है
    • टीम B मूल कोड देखे बिना केवल specification के आधार पर नया कोड लिखती है
  • लेकिन जब AI को मूल LGPL कोड दिया जाता है और उससे नया आउटपुट बनता है, तो यह प्रक्रियात्मक अलगाव खत्म हो जाता है
  • अगर AI ने मूल कोड से सीखकर आउटपुट तैयार किया है, तो उस आउटपुट को LGPL व्युत्पन्न रचना माना जा सकता है

अमेरिकी सुप्रीम कोर्ट का फैसला और कानूनी विरोधाभास

  • 2 मार्च 2026 को, अमेरिकी सुप्रीम कोर्ट ने AI-जनित सामग्री के कॉपीराइट की मान्यता पर अपील खारिज कर दी
    • इससे निचली अदालत का ‘Human Authorship’ वाला निर्णय बरकरार रहा
  • इसके चलते chardet के मेंटेनरों के सामने तीन कानूनी विरोधाभास खड़े होते हैं
    • कॉपीराइट शून्य: अगर AI-जनित सामग्री कॉपीराइट सुरक्षा नहीं पा सकती, तो उसे MIT के तहत री-लाइसेंस करने का कानूनी आधार नहीं है
    • व्युत्पन्न रचना का जाल: अगर AI आउटपुट मूल LGPL कोड का व्युत्पन्न है, तो यह लाइसेंस उल्लंघन है
    • स्वामित्व शून्य: अगर AI ने पूरी तरह नया कोड बनाया है, तो वह बनते ही public domain में चला जाएगा और MIT लाइसेंस स्वयं अर्थहीन हो जाएगा

Copyleft ढांचे पर संभावित प्रभाव

  • अगर AI पुनर्लेखन के जरिए लाइसेंस बदलने की अनुमति मिलती है, तो Copyleft की बुनियाद कमजोर पड़ सकती है
  • कोई भी GPL प्रोजेक्ट को LLM में डालकर “इसे अलग शैली में फिर से लिखो” कह सकता है और फिर उसे MIT लाइसेंस के साथ वितरित कर सकता है
  • chardet v7.0.0 का मामला इस कानूनी और नैतिक सीमा की पहली वास्तविक परीक्षा के रूप में देखा जा रहा है

1 टिप्पणियां

 
GN⁺ 2026-03-07
Hacker News की राय
  • मेंटेनर के जवाब को देखें तो, उन्होंने Claude से साफ़ कहा था कि LGPL/GPL कोड का संदर्भ न ले, लेकिन संभावना है कि मॉडल पहले से ही उसी कोड पर ट्रेन किया गया हो
    यह जाना जाता है कि LLM के लिए ट्रेनिंग डेटा के प्रभाव को पूरी तरह “भूलना” फिलहाल संभव नहीं है
    संबंधित शोध के लिए यह प्रोजेक्ट है
    मैं एक डेवलपर और बौद्धिक संपदा वकील हूँ, और ऐसे मुद्दे अमेरिकी अदालतों में भी लगातार विकसित हो रहे हैं
    संदर्भ के लिए, Anthropic का पेड enterprise प्लान copyright infringement की स्थिति में उपयोगकर्ता को indemnify करता है, लेकिन free/Pro/Max प्लान में उल्टा उपयोगकर्ता को Anthropic को indemnify करना पड़ता है (Terms की धारा 11)

    • मेंटेनर दावा करता है कि उसने “शुरुआत से नया लिखा”, लेकिन वास्तव में उसने chardet का test data ज्यों का त्यों इस्तेमाल किया, और वह 10 साल से ज़्यादा समय से मूल कोड को मेंटेन करता आया है
      इसे पूरी तरह clean-room implementation मानने के लिए मूल को जानने वाले व्यक्ति और नया लिखने वाले व्यक्ति को अलग होना चाहिए, लेकिन यहाँ ऐसा नहीं था
    • इसी तरह के विषय पर इस थ्रेड में भी चर्चा हुई थी
    • ट्रेनिंग के दौरान कुछ tokens को random तरीके से mask करके मॉडल को मूल पाठ को ज्यों का त्यों याद न रखने देने पर शोध हुआ है
      विचार यह था कि अर्थ बना रहे, लेकिन शब्दों के कुछ हिस्से हटाकर सीधा उद्धरण रोक दिया जाए
    • अलग-अलग पेड प्लान के indemnity clause में फर्क महत्वपूर्ण है, यह पहली बार पता चला और उपयोगी लगा
  • यह लेख “clean-room implementation” के अर्थ को गलत समझता है
    बात सिर्फ़ “मूल कोड को न देखना” नहीं है, बल्कि API specification से स्वतंत्र implementation होनी चाहिए
    LLM द्वारा जनरेट किया गया कोड मूल से मिलता-जुलता होने की संभावना अधिक रखता है, इसलिए कानूनी रूप से उसे प्रतिलिपि माना जाने का जोखिम बड़ा है
    chardet मेंटेनर का यह कदम कानूनी रूप से ग़ैर-जिम्मेदार relicensing जैसा दिखता है, और आगे चलकर supply chain समस्या पैदा कर सकता है

    • यह कहते हुए आपत्ति की गई कि अगर दो लोगों ने स्वतंत्र रूप से एक ही कोड बनाया हो तो दोनों के पास copyright हो सकता है, और इसके लिए यह कानूनी व्याख्या उद्धृत की गई
    • copyright में प्रतिलिपि तभी मानी जाती है जब सूचना का प्रवाह हुआ हो
      अगर सिर्फ़ वही परिणाम निकला है, तो वह कार्यात्मक परिणाम है, copyright infringement नहीं
    • Google vs Oracle मामले की तरह API-आधारित implementation में भी कानूनी जोखिम है
      Wiki दस्तावेज़ देखें
    • IBM PC BIOS के Phoenix clean-room case की तरह, मूल को देखे बिना नया लिखना वैध माना गया एक उदाहरण भी है
    • अगर पूरी CRRE(clean-room reverse engineering) प्रक्रिया अपनाई जाए, तो कोड 1:1 समान होने पर भी कानूनी रूप से वह प्रतिलिपि नहीं माना जाता
      लेकिन वास्तविक मुक़दमे में समानता बहुत अधिक हो तो बचाव कठिन होता है
      chardet का मामला जापानी font copyright विवाद की तरह, वास्तविक infringement न होने पर भी distribution रुकने तक पहुँच सकता है
  • “LGPL कोड अब भी LGPL ही है”
    जब तक सभी मूल copyright holders स्पष्ट रूप से सहमत न हों, license बदलना संभव नहीं है
    AI ने कोड को बदल दिया, इससे copyright ख़त्म नहीं हो जाता
    अगर ऐसा हो, तो पूरा अमेरिकी copyright उद्योग ही ढह जाएगा

    • कानूनी रूप से “LGPL code” जैसा कोई अलग गुण नहीं होता, बल्कि प्रतिलिपि की अनुमति है या नहीं यही मुख्य प्रश्न है
      बिना अनुमति derivative work बनाने वाला व्यक्ति फिर से अनुमति दे सकता है या नहीं, यह काफ़ी जटिल मामला है
    • SCOTUS का फ़ैसला उल्टा इस दिशा में जाता है कि AI-निर्मित परिणामों में रचनात्मकता नहीं मानी जाती, जिससे मूल रचनाकार के अधिकार और मज़बूत होते हैं
    • अगर पूरी तरह AI-आधारित clean-room rewrite हो, तो उसे व्यवहार में public domain जैसा भी माना जा सकता है, लेकिन वास्तव में ऐसा मामला दुर्लभ है
  • generative AI की वजह से copyright व्यवस्था समय से पीछे छूट रही है
    पुराने क़ानून single-purpose models को ध्यान में रखकर बने थे, लेकिन अब ऐसे models आ गए हैं जो हर source से प्रतिस्पर्धा कर सकते हैं
    GNU की license strategy भी code scarcity को मानकर बनी थी, लेकिन अब code generation इतना आसान हो गया है कि उसका अर्थ कमज़ोर पड़ रहा है

    • अगर AI को मूल कोड देकर “इसे फिर से लिखो” कहा जाए, तो वह derivative work है, लेकिन अगर सिर्फ़ functionality समझाई जाए तो वह नई रचना है
      मुक़दमे की स्थिति में Claude logs सबूत के तौर पर इस्तेमाल हो सकते हैं
    • कुछ लोगों ने इसे “क़ानून तोड़कर समीकरण बदल देना” भी कहा
    • ideas सुरक्षित नहीं होते, लेकिन expression सुरक्षित होता है — यह पुरानी धारणा AI युग में डगमगा रही है
      अब हम ऐसे दौर में हैं जहाँ ideas से ज़्यादा expression generate करना आसान हो गया है
    • एक राय यह भी थी कि यह बदलाव उल्टा copyright monopoly संरचना को तोड़ने वाला सकारात्मक संकेत है
    • GNU का लक्ष्य license नहीं बल्कि उपयोगकर्ता की स्वतंत्रता था
      AI के कारण हर कोई code बना सके, ऐसी दुनिया शायद GNU के आदर्श के और क़रीब है
  • इस दावे पर संदेह जताया गया कि अगर AI द्वारा बना कोड सचमुच नई रचना है, तो वह बनते ही public domain हो सकता है
    क्योंकि यह पता नहीं कि मॉडल ने कौन-सा डेटा सीखा है, इसे reverse engineering भी माना जा सकता है
    इसलिए सबसे प्रतिबंधात्मक license लागू होना चाहिए, और AI कंपनियों को मूल रचनाकारों को राजस्व लौटाना चाहिए

    • ऐसा होने पर “All Rights Reserved” लागू होगा और AI output का उपयोग ही नहीं किया जा सकेगा
      वास्तव में सिर्फ़ अनुमत डेटा पर train किए गए models का performance बहुत कम होता है
      अगर AI-generated सामग्री को derivative work माना जाए, तो सारे open source projects दूषित हो जाएँगे
    • जब तक AI मूल कोड की लगभग हूबहू प्रतिलिपि न करे, अमेरिकी अदालतें आम तौर पर training data के copyright को मुद्दा नहीं मानतीं
      अंततः अगर कोई इंसान नहीं और कोई अन्य पक्ष ownership का दावा नहीं कर सकता, तो व्यवहार में उसे public domain जैसा माना जाता है
    • मज़ाक-मिश्रित एक सुझाव यह भी था कि सभी LLM-generated code को GPL v3 मान लिया जाए
    • एक निंदक राय यह भी थी कि क़ानून तब बदलेगा जब Disney के हित प्रभावित होंगे
    • AI ने मूल कोड सीधे इस्तेमाल किया या किसी मध्यवर्ती representation के ज़रिए rewrite किया, इसके आधार पर कानूनी ज़िम्मेदारी बदल सकती है
  • संबंधित चर्चा के रूप में “No right to relicense this project” नाम की एक दूसरी थ्रेड भी है

    • वह सीधा चोरी किया गया project ज़्यादा लगता है, जबकि इस बार chardet मामले में मुद्दा AI rewrite की वैधता है
  • इस दावे का विरोध किया गया कि अगर AI-निर्मित कोड public domain है, तो MIT license का कोई अर्थ नहीं रह जाता
    AI-generated सामग्री साधारण copy नहीं है, और फिर भी मूल की license restrictions के अधीन रहती है

    • AI द्वारा बना output कानूनी रूप से copyright योग्य कृति नहीं माना जाता, इसलिए कोई भी उस पर license नहीं दे सकता
      उदाहरण के लिए Project Gutenberg पर train किया गया कविता generator भी copyright का दावा नहीं कर सकता
    • लेकिन code के मामले में अभी कानूनी मानक अस्पष्ट हैं
      macros, code generation tools, और Intellisense जैसी automation सुविधाओं में कहाँ तक “AI-generated” कहा जाए, इसकी सीमा धुंधली है
    • “copywrite” नहीं बल्कि “copyright” सही शब्द है, ऐसा सुधार भी किया गया
    • एक राय यह भी थी कि AI-generated सामग्री में अगर इंसान ने रचनात्मक हस्तक्षेप किया हो, तो copyright मान्य हो सकता है
  • अतीत में chardet को Python standard library में शामिल करने पर चर्चा हुई थी
    लेकिन इस license change controversy के कारण अब वह संभावना ख़त्म मानी जा रही है
    संबंधित चर्चा के लिए यह issue और
    मेंटेनर का बयान1, बयान2 देखें

  • इस तरह का AI relicensing open source, ख़ासकर Copyleft, के अंत का संकेत हो सकता है
    अगर licenses अब सुरक्षा का काम ही न करें, तो डेवलपर्स फिर से closed development की ओर लौट सकते हैं

    • मैंने भी इसी वजह से open source प्रकाशित करना पूरी तरह बंद कर दिया
      नए models अब WebAssembly reverse engineering तक कर सकते हैं, जिससे यह कुछ-कुछ dark forest theory जैसा लगता है
    • यह सिर्फ़ open source नहीं, बल्कि हर source-available project पर लागू होता है
    • GPL का उद्देश्य “अनचाहे उपयोग को रोकना” नहीं, बल्कि modification होने पर source disclosure अनिवार्य करना है
      अगर AI rewrite GPL है, तो उसे भी प्रकाशित किया जाना चाहिए
    • इसके जवाब में यह भी कहा गया कि “free software” को बंद करना शुरू से ही स्वतंत्रता के दर्शन के विरुद्ध है
  • इस निष्कर्ष से सहमति जताई गई कि “अगर AI rewrite से license बदला जा सकता है, तो पूरा copyright ढाँचा ढह जाएगा
    क्योंकि यह फ़िल्म, संगीत, उपन्यास और हर तरह की रचनात्मक सामग्री पर लागू हो सकता है
    अंततः अदालतें ऐसे प्रयासों को copyright से बच निकलने का वैध तरीका नहीं मानेंगी,
    और आशा है कि chardet project इस विशाल कानूनी लहर के सामने प्रयोग का विषय नहीं बनेगा