- ओपन सोर्स प्रोजेक्ट chardet v7.0.0 ने AI टूल का उपयोग करके पूरे कोड को फिर से लिखा और LGPL से MIT में लाइसेंस बदल दिया
- मूल लेखक का दावा है कि इस प्रक्रिया में GPL उल्लंघन की संभावना है, और AI ने मूल कोड पर प्रशिक्षण के आधार पर जो परिणाम बनाया वह ‘क्लीन रूम इम्प्लीमेंटेशन’ नहीं है
- पारंपरिक क्लीन रूम तरीके में दो टीमें अलग होनी चाहिए, लेकिन AI इस दीवार को पार कर जाता है, जिससे यह सवाल उठता है कि क्या यह एक व्युत्पन्न रचना है
- साथ ही, अमेरिकी सुप्रीम कोर्ट AI-जनित सामग्री पर कॉपीराइट को मान्यता नहीं देता, जिससे नए कोड के स्वामित्व और लाइसेंस की वैधता अस्पष्ट हो जाती है
- अगर ऐसे मामलों को मान्यता मिलती है, तो Copyleft ढांचे के निष्प्रभावी हो जाने का खतरा उठता है
chardet प्रोजेक्ट का AI-आधारित पुनर्लेखन और लाइसेंस परिवर्तन
- Python character encoding detection लाइब्रेरी chardet मूल रूप से Mozilla के C++ कोड का पोर्ट था, इसलिए यह LGPL के दायरे में था
- इसके कारण कॉरपोरेट उपयोगकर्ताओं को कानूनी अनिश्चितता का सामना करना पड़ता था
- मेंटेनरों ने Claude Code का उपयोग करके पूरे कोड को फिर से लिखा और v7.0.0 को MIT लाइसेंस के तहत जारी किया
- मूल लेखक a2mark का कहना है कि यह कदम LGPL का उल्लंघन है
- उनका कहना है कि संशोधित कोड पर अब भी LGPL लागू होना चाहिए, और “पूर्ण पुनर्लेखन” का दावा इसलिए अमान्य है क्योंकि परिणाम मूल कोड के संपर्क में रहकर उत्पन्न किया गया
- उन्होंने यह भी स्पष्ट किया कि AI code generation कोई अतिरिक्त अधिकार नहीं देता
क्लीन रूम इम्प्लीमेंटेशन और AI का शॉर्टकट
- पारंपरिक clean room rewrite में दो टीमें होती हैं
- टीम A मूल कोड का विश्लेषण करके functional specification तैयार करती है
- टीम B मूल कोड देखे बिना केवल specification के आधार पर नया कोड लिखती है
- लेकिन जब AI को मूल LGPL कोड दिया जाता है और उससे नया आउटपुट बनता है, तो यह प्रक्रियात्मक अलगाव खत्म हो जाता है
- अगर AI ने मूल कोड से सीखकर आउटपुट तैयार किया है, तो उस आउटपुट को LGPL व्युत्पन्न रचना माना जा सकता है
अमेरिकी सुप्रीम कोर्ट का फैसला और कानूनी विरोधाभास
- 2 मार्च 2026 को, अमेरिकी सुप्रीम कोर्ट ने AI-जनित सामग्री के कॉपीराइट की मान्यता पर अपील खारिज कर दी
- इससे निचली अदालत का ‘Human Authorship’ वाला निर्णय बरकरार रहा
- इसके चलते chardet के मेंटेनरों के सामने तीन कानूनी विरोधाभास खड़े होते हैं
- कॉपीराइट शून्य: अगर AI-जनित सामग्री कॉपीराइट सुरक्षा नहीं पा सकती, तो उसे MIT के तहत री-लाइसेंस करने का कानूनी आधार नहीं है
- व्युत्पन्न रचना का जाल: अगर AI आउटपुट मूल LGPL कोड का व्युत्पन्न है, तो यह लाइसेंस उल्लंघन है
- स्वामित्व शून्य: अगर AI ने पूरी तरह नया कोड बनाया है, तो वह बनते ही public domain में चला जाएगा और MIT लाइसेंस स्वयं अर्थहीन हो जाएगा
Copyleft ढांचे पर संभावित प्रभाव
- अगर AI पुनर्लेखन के जरिए लाइसेंस बदलने की अनुमति मिलती है, तो Copyleft की बुनियाद कमजोर पड़ सकती है
- कोई भी GPL प्रोजेक्ट को LLM में डालकर “इसे अलग शैली में फिर से लिखो” कह सकता है और फिर उसे MIT लाइसेंस के साथ वितरित कर सकता है
- chardet v7.0.0 का मामला इस कानूनी और नैतिक सीमा की पहली वास्तविक परीक्षा के रूप में देखा जा रहा है
1 टिप्पणियां
Hacker News की राय
मेंटेनर के जवाब को देखें तो, उन्होंने Claude से साफ़ कहा था कि LGPL/GPL कोड का संदर्भ न ले, लेकिन संभावना है कि मॉडल पहले से ही उसी कोड पर ट्रेन किया गया हो
यह जाना जाता है कि LLM के लिए ट्रेनिंग डेटा के प्रभाव को पूरी तरह “भूलना” फिलहाल संभव नहीं है
संबंधित शोध के लिए यह प्रोजेक्ट है
मैं एक डेवलपर और बौद्धिक संपदा वकील हूँ, और ऐसे मुद्दे अमेरिकी अदालतों में भी लगातार विकसित हो रहे हैं
संदर्भ के लिए, Anthropic का पेड enterprise प्लान copyright infringement की स्थिति में उपयोगकर्ता को indemnify करता है, लेकिन free/Pro/Max प्लान में उल्टा उपयोगकर्ता को Anthropic को indemnify करना पड़ता है (Terms की धारा 11)
इसे पूरी तरह clean-room implementation मानने के लिए मूल को जानने वाले व्यक्ति और नया लिखने वाले व्यक्ति को अलग होना चाहिए, लेकिन यहाँ ऐसा नहीं था
विचार यह था कि अर्थ बना रहे, लेकिन शब्दों के कुछ हिस्से हटाकर सीधा उद्धरण रोक दिया जाए
यह लेख “clean-room implementation” के अर्थ को गलत समझता है
बात सिर्फ़ “मूल कोड को न देखना” नहीं है, बल्कि API specification से स्वतंत्र implementation होनी चाहिए
LLM द्वारा जनरेट किया गया कोड मूल से मिलता-जुलता होने की संभावना अधिक रखता है, इसलिए कानूनी रूप से उसे प्रतिलिपि माना जाने का जोखिम बड़ा है
chardet मेंटेनर का यह कदम कानूनी रूप से ग़ैर-जिम्मेदार relicensing जैसा दिखता है, और आगे चलकर supply chain समस्या पैदा कर सकता है
अगर सिर्फ़ वही परिणाम निकला है, तो वह कार्यात्मक परिणाम है, copyright infringement नहीं
Wiki दस्तावेज़ देखें
लेकिन वास्तविक मुक़दमे में समानता बहुत अधिक हो तो बचाव कठिन होता है
chardet का मामला जापानी font copyright विवाद की तरह, वास्तविक infringement न होने पर भी distribution रुकने तक पहुँच सकता है
“LGPL कोड अब भी LGPL ही है”
जब तक सभी मूल copyright holders स्पष्ट रूप से सहमत न हों, license बदलना संभव नहीं है
AI ने कोड को बदल दिया, इससे copyright ख़त्म नहीं हो जाता
अगर ऐसा हो, तो पूरा अमेरिकी copyright उद्योग ही ढह जाएगा
बिना अनुमति derivative work बनाने वाला व्यक्ति फिर से अनुमति दे सकता है या नहीं, यह काफ़ी जटिल मामला है
generative AI की वजह से copyright व्यवस्था समय से पीछे छूट रही है
पुराने क़ानून single-purpose models को ध्यान में रखकर बने थे, लेकिन अब ऐसे models आ गए हैं जो हर source से प्रतिस्पर्धा कर सकते हैं
GNU की license strategy भी code scarcity को मानकर बनी थी, लेकिन अब code generation इतना आसान हो गया है कि उसका अर्थ कमज़ोर पड़ रहा है
मुक़दमे की स्थिति में Claude logs सबूत के तौर पर इस्तेमाल हो सकते हैं
अब हम ऐसे दौर में हैं जहाँ ideas से ज़्यादा expression generate करना आसान हो गया है
AI के कारण हर कोई code बना सके, ऐसी दुनिया शायद GNU के आदर्श के और क़रीब है
इस दावे पर संदेह जताया गया कि अगर AI द्वारा बना कोड सचमुच नई रचना है, तो वह बनते ही public domain हो सकता है
क्योंकि यह पता नहीं कि मॉडल ने कौन-सा डेटा सीखा है, इसे reverse engineering भी माना जा सकता है
इसलिए सबसे प्रतिबंधात्मक license लागू होना चाहिए, और AI कंपनियों को मूल रचनाकारों को राजस्व लौटाना चाहिए
वास्तव में सिर्फ़ अनुमत डेटा पर train किए गए models का performance बहुत कम होता है
अगर AI-generated सामग्री को derivative work माना जाए, तो सारे open source projects दूषित हो जाएँगे
अंततः अगर कोई इंसान नहीं और कोई अन्य पक्ष ownership का दावा नहीं कर सकता, तो व्यवहार में उसे public domain जैसा माना जाता है
संबंधित चर्चा के रूप में “No right to relicense this project” नाम की एक दूसरी थ्रेड भी है
इस दावे का विरोध किया गया कि अगर AI-निर्मित कोड public domain है, तो MIT license का कोई अर्थ नहीं रह जाता
AI-generated सामग्री साधारण copy नहीं है, और फिर भी मूल की license restrictions के अधीन रहती है
उदाहरण के लिए Project Gutenberg पर train किया गया कविता generator भी copyright का दावा नहीं कर सकता
macros, code generation tools, और Intellisense जैसी automation सुविधाओं में कहाँ तक “AI-generated” कहा जाए, इसकी सीमा धुंधली है
अतीत में chardet को Python standard library में शामिल करने पर चर्चा हुई थी
लेकिन इस license change controversy के कारण अब वह संभावना ख़त्म मानी जा रही है
संबंधित चर्चा के लिए यह issue और
मेंटेनर का बयान1, बयान2 देखें
इस तरह का AI relicensing open source, ख़ासकर Copyleft, के अंत का संकेत हो सकता है
अगर licenses अब सुरक्षा का काम ही न करें, तो डेवलपर्स फिर से closed development की ओर लौट सकते हैं
नए models अब WebAssembly reverse engineering तक कर सकते हैं, जिससे यह कुछ-कुछ dark forest theory जैसा लगता है
अगर AI rewrite GPL है, तो उसे भी प्रकाशित किया जाना चाहिए
इस निष्कर्ष से सहमति जताई गई कि “अगर AI rewrite से license बदला जा सकता है, तो पूरा copyright ढाँचा ढह जाएगा”
क्योंकि यह फ़िल्म, संगीत, उपन्यास और हर तरह की रचनात्मक सामग्री पर लागू हो सकता है
अंततः अदालतें ऐसे प्रयासों को copyright से बच निकलने का वैध तरीका नहीं मानेंगी,
और आशा है कि chardet project इस विशाल कानूनी लहर के सामने प्रयोग का विषय नहीं बनेगा