इस प्रोजेक्ट को फिर से लाइसेंस देने का अधिकार नहीं है
(github.com/chardet)chardetके मूल लेखक Mark Pilgrim ने प्रोजेक्ट के LGPL लाइसेंस उल्लंघन की ओर इशारा करते हुए, हालिया संस्करण 7.0.0 में किए गए MIT लाइसेंस में बदलाव को वापस लेने की मांग की- उन्होंने स्पष्ट किया कि भले ही मेंटेनर इसे “पूर्ण पुनर्लेखन” कहें, यह मूल कोड के सीधे संपर्क में रहते हुए लिखा गया व्युत्पन्न कार्य है, इसलिए इसे LGPL ही बनाए रखना चाहिए
- कई डेवलपर्स ने इस पर चर्चा की कि AI-सहायित पुनर्लेखन वास्तव में “क्लीन रूम इम्प्लीमेंटेशन(clean room implementation)” है या नहीं, और क्या LLM ने मूल कोड पर प्रशिक्षण लिया था
- कुछ लोगों ने API compatibility और fair use की संभावना का उल्लेख किया, लेकिन अधिकांश ने कॉपीराइट उल्लंघन की आशंका और AI code generation की कानूनी अनिश्चितता पर चिंता जताई
- इस चर्चा को AI द्वारा जनरेट किए गए कोड की कॉपीराइट जिम्मेदारी, ओपन सोर्स प्रोजेक्ट के लाइसेंस बदलने की प्रक्रिया, और मेंटेनर अधिकारों की सीमाओं को लेकर एक महत्वपूर्ण मिसाल के रूप में देखा जा रहा है
Mark Pilgrim की आपत्ति
- Mark Pilgrim ने कहा कि वे
chardetके मूल लेखक हैं और यह प्रोजेक्ट LGPL लाइसेंस के तहत वितरित होता रहा है- उन्होंने कहा कि संस्करण 7.0.0 में “relicense करने का अधिकार है” वाला मेंटेनर का दावा गलत है
- LGPL के तहत जारी कोड, संशोधित होने पर भी, उसी लाइसेंस के तहत सार्वजनिक होना चाहिए, और “पूर्ण पुनर्लेखन” का दावा कानूनी आधार से रहित है, इस पर उन्होंने जोर दिया
- उन्होंने यह भी स्पष्ट किया कि “code generator जोड़ने” से कोई नया अधिकार नहीं मिल जाता
- Pilgrim ने मांग की कि प्रोजेक्ट को उसके मूल LGPL लाइसेंस पर वापस लाया जाए
कम्युनिटी की शुरुआती प्रतिक्रिया
- एक उपयोगकर्ता ने पूछा कि क्या AI-सहायित पुनर्लेखन से पहले वाले संस्करण का कोई fork उपलब्ध है, जिस पर दूसरे उपयोगकर्ता ने 6.0.0 संस्करण का लिंक साझा किया
- कुछ लोगों ने “कानूनी रूप से Mark सही हैं” कहकर LGPL उल्लंघन की संभावना को स्वीकार किया
- अन्य उपयोगकर्ताओं ने “AI के जरिए पुनर्लेखन एक अपरिहार्य trade-off है” कहते हुए व्यावहारिक दृष्टिकोण की बात की
कानूनी चर्चा: API, कॉपीराइट, fair use
- एक उपयोगकर्ता ने Google LLC v. Oracle America, Inc. मामले का हवाला देते हुए कहा कि API भी कॉपीराइट सुरक्षा के दायरे में आ सकते हैं
- उनका कहना था कि API compatibility के लिए किया गया पुनर्लेखन, यदि fair use की शर्तें पूरी नहीं करता, तो अवैध हो सकता है
- इसके जवाब में दूसरे उपयोगकर्ता ने कहा कि Google के मामले में इसे fair use माना गया था
- चर्चा आगे बढ़कर API-compatible rewrites की वैधता और AI-जनरेटेड कोड की कॉपीराइट स्थिति तक पहुंची
AI code generation और क्लीन रूम इम्प्लीमेंटेशन विवाद
- कुछ लोगों ने कहा कि यदि “AI ने मूल कोड पर प्रशिक्षण लिया हो”, तो इसे क्लीन रूम इम्प्लीमेंटेशन नहीं माना जा सकता
chardetकोड पर LLM के प्रशिक्षण का सवाल कानूनी निर्णय का मुख्य बिंदु बन सकता है
- अन्य उपयोगकर्ताओं ने तर्क दिया कि यदि “AI ने सिर्फ इनपुट और आउटपुट के आधार पर कोड बनाया हो”, तो यह संभव हो सकता है
- लेकिन इसके जवाब में यह आपत्ति उठी कि “अगर ऐसा है, तो फिर लाइसेंस का मतलब ही खत्म हो जाता है”
- AI code की कॉपीराइट जिम्मेदारी की अस्पष्टता और लाइसेंस अनुपालन की जांच की कठिनाई प्रमुख मुद्दों के रूप में उभरे
लाइसेंस compatibility और GPL चर्चा
- कुछ लोगों ने दावा किया कि MIT लाइसेंस GPL-compatible नहीं है, लेकिन दूसरे उपयोगकर्ता ने FSF के आधिकारिक दस्तावेज़ का हवाला देकर समझाया कि MIT(Expat) GPL-compatible है
- हालांकि, इस बात पर अधिकांश सहमत रहे कि “LGPL कोड को MIT के तहत फिर से लाइसेंस देना अब भी उल्लंघन है”
- एक अन्य उपयोगकर्ता ने कहा कि “LGPL कोड से बनी प्रतिष्ठा और repository को बनाए रखते हुए अनुबंध को छोड़ नहीं सकते”
AI training data और भरोसे का सवाल
- कई उपयोगकर्ताओं ने सवाल उठाया: “क्या यह भरोसा किया जा सकता है कि Claude ने LGPL कोड पर प्रशिक्षण नहीं लिया?”
- AI मॉडल के training data को ट्रैक न कर पाने को कानूनी जोखिम बताया गया
- कुछ लोगों ने कहा कि यदि AI code में साहित्यिक चोरी की संभावना निहित है, तो उसके उपयोग से ही बचना चाहिए
- एक शोध उद्धरण के माध्यम से यह आँकड़ा साझा किया गया कि AI code का 2~5% हिस्सा मौजूदा कोड की नकल हो सकता है
प्रोजेक्ट की पहचान और मेंटेनर अधिकार
- कुछ लोगों ने कहा कि “यदि पिछले योगदानकर्ताओं का सारा कोड हटा दिया गया हो, तो नया संस्करण स्वतंत्र हो सकता है”
- लेकिन इसके जवाब में यह तर्क भी आया कि “उसी नाम और प्रतिष्ठा का उपयोग करते रहना अनुचित है”
- यह राय भी सामने आई कि “कॉपीराइट अभिव्यक्ति की रक्षा करता है, नाम की नहीं”
- कुछ लोगों का मानना था कि अगर मेंटेनर ने सारा पुराना कोड हटा दिया हो, तो कानूनी उल्लंघन न भी हो, लेकिन इसका कोई स्पष्ट प्रमाण पेश नहीं किया गया
कम्युनिटी का समग्र दृष्टिकोण
- कई उपयोगकर्ताओं ने कहा कि Mark Pilgrim और Dan Blanchard दोनों के योगदान का सम्मान किया जाना चाहिए, और AI, कॉपीराइट, तथा ओपन सोर्स गवर्नेंस जैसे जटिल सवालों को समझना जरूरी है
- चर्चा का दायरा AI code generation की कानूनी जिम्मेदारी, प्रोजेक्ट लाइसेंस बदलने की वैधता, और ओपन सोर्स मेंटेनर अधिकारों की सीमाओं तक फैल गया
- कुछ लोगों ने “v7.0.0 को fork करके उसे फिर LGPL के तहत वापस ले चलें” जैसा सुझाव भी दिया
मुख्य मुद्दों का सार
- LGPL → MIT बदलाव की वैधता: अधिकांश की राय में मूल लेखक की सहमति के बिना यह संभव नहीं
- AI पुनर्लेखन की कॉपीराइट स्थिति: training data के संपर्क के आधार पर इसे व्युत्पन्न कार्य माना जा सकता है
- क्लीन रूम इम्प्लीमेंटेशन का प्रश्न: यह साबित करना होगा कि AI ने मूल कोड का संदर्भ नहीं लिया
- प्रोजेक्ट नाम और प्रतिष्ठा के उपयोग का मुद्दा: उसी नाम से पुनर्वितरण कानूनी और नैतिक विवाद पैदा कर सकता है
- AI code की विश्वसनीयता: साहित्यिक चोरी के जोखिम और supply chain स्थिरता को लेकर चिंता
यह मुद्दा AI-जनरेटेड कोड के कॉपीराइट और ओपन सोर्स लाइसेंस अनुपालन से जुड़ा एक प्रतिनिधि मामला माना जा रहा है, और आगे चलकर AI डेवलपमेंट टूल्स की कानूनी जिम्मेदारी की संरचना को प्रभावित कर सकता है
1 टिप्पणियां
Hacker News की राय
मेरा मानना है कि Pilgrim कॉपीराइट (clean room) की अवधारणा को गलत समझ रहा है
“पूरी तरह से फिर से लिखा गया” होने का दावा महत्वपूर्ण नहीं है। कानूनी रूप से स्वतंत्र implementation संभव है।
Clean room बस मुकदमेबाज़ी को सरल बनाने के लिए एक प्रक्रियात्मक तरीका है, यह कोई कानूनी शर्त नहीं कि मूल कोड के संपर्क में बिल्कुल न आया गया हो।
वास्तव में Linux भी Unix की आंतरिक संरचना जानता था, फिर भी उसका implementation स्वतंत्र था
JPlag में कम similarity यह दिखाने वाला काफ़ी मजबूत सबूत लगती है कि यह plagiarism नहीं है
“अगर codebase पता है, तो rewrite भी कॉपीराइट उल्लंघन है” यह दावा पूरी तरह सही नहीं है
अंदरूनी जानकारी patent का क्षेत्र है, कॉपीराइट का नहीं।
लेकिन अगर मूल कोड सामने रखकर सिर्फ वाक्य बदल दिए जाएँ, तो वह उल्लंघन है।
अगर AI मूल कोड देखकर मिलता-जुलता कोड बनाए, तो उसे व्यवहार में parallel copy माना जाने की संभावना काफ़ी है।
लेकिन अगर मूल देखे बिना पूरी तरह नया लिखा जाए, तो यह संभव है। बस कानूनी बचाव कठिन होगा, इसलिए कंपनियों को इसे जोखिम मानना चाहिए
patent में स्वतंत्र आविष्कार होने पर भी infringement हो सकता है, लेकिन copyright में रचना की स्वतंत्रता केंद्रीय है।
फिर भी, अगर आपने पहले से देखे गए काम जैसा ही परिणाम बना दिया, तो jury को मनाना मुश्किल होगा
आख़िरकार, समानता होने पर preponderance of evidence के मानक पर उल्लंघन माना जाने की संभावना काफ़ी है
वहीं अगर मूल रचना के बारे में कुछ पता ही न हो, तो उसे independent creation माना जाएगा
ideas स्वयं सुरक्षित नहीं होते, लेकिन expression सुरक्षित होता है।
अगर LLM ने training के दौरान मूल कोड देखा है, तो यह कानूनी gray area है
मुख्य मुद्दा LGPL उल्लंघन का है।
अगर नया कोड मूल पर आधारित है, तो उसे derivative work माना जाएगा और LGPL बनाए रखना होगा।
भले ही “पूरी तरह से rewrite” होने का दावा किया जाए, अगर मूल कोड के संपर्क में आया गया था, तो यह license violation हो सकता है
clean room सिर्फ मुकदमे में बचाव का एक प्रक्रियात्मक तरीका है, और सबूत का भार वादी पर होता है।
Linux और GNU tools भी Unix को जानते थे, फिर भी वैध थे
consulting के दौरान एक दिलचस्प मामला देखा।
एक SaaS कंपनी के engineer ने Claude Code से अपनी ही app का reverse engineering करके API-compatible backend एक हफ़्ते में बना लिया।
सवाल था, “अगर कोई competitor ऐसा करे, तो बचाव कैसे होगा?”
अगर कोड ही business का मूल है, तो जोखिम पहले से है।
competition की चिंता करने से ज़्यादा ज़रूरी बेहतर product बनाना है
अब “Slack या Drive को फिर से implement करें” जैसी बात अवास्तविक नहीं रही
API एक public interface है, इसलिए वह संरक्षित विषय नहीं है
IBM BIOS या DOS के reverse engineering मामलों की तरह, independent implementation वैध है
maintainer trustee है, मालिक नहीं।
उसे मूल लेखक के license को मनमाने ढंग से नहीं बदलना चाहिए।
अगर कोड सचमुच पूरी तरह नया है, तो नए नाम से project शुरू करना चाहिए।
“पुराने version पर freeze कर दो” जैसी बात community spirit के ख़िलाफ़ है
2021 की एक comment में पहले ही कहा गया था कि “chardet, LGPL पर आधारित है, इसलिए उसका relicense करना संभव नहीं है।”
यह जानते हुए भी rewrite किया गया, तो यह लापरवाह फ़ैसला था और मूल लेखक के प्रति असम्मान भी
अगर AI ने मूल कोड देखकर लिखा, तो वह clean room implementation नहीं है।
अगर दो AI teams हों, एक specification बनाए और दूसरी implementation करे, तो क्या वह ठीक होगा?
यह IBM दौर की मिसाल जैसा है, लेकिन अगर model पहले से ही मूल पर train है, तो समस्या फिर भी रहती है
लेकिन यह verify करना होगा कि specification में अभिव्यक्तिगत तत्व शामिल न हों
जहाँ training data में मूल मौजूद हो, वहाँ यह तुलना ही अर्थहीन हो जाती है
“अगर Wikipedia से copy-paste करके कुछ शब्द बदल दिए जाएँ, तो क्या वह ठीक है?” इस मज़ाक की तरह,
आख़िरकार जानबूझकर बच निकलना संभव नहीं है।
यह ऐसा दौर है कि dependency versions तक pin करनी पड़ती हैं क्योंकि भरोसा करना कठिन हो गया है
लेकिन कानून समग्र मूल्यांकन को महत्व देता है।
अदालतें “preponderance of evidence” के आधार पर फ़ैसला करती हैं, और सिर्फ शब्द बदल देने से कोई नई रचना नहीं बन जाती।
अगर मूल अनिवार्य था, तो derivative work माना जाने की संभावना अधिक है।
अगर training data में मूल शामिल है, तो copyright infringement lawsuit लगभग अपरिहार्य होगा, ऐसा अनुमान है
दूसरी ओर, Mark Pilgrim का फिर से सामने आना दिलचस्प है
उसके Wikipedia page में “इंटरनेट से गायब हो जाने” की कहानी है।
उसकी Python किताबें आज भी recommend करने लायक हैं
“अगर AI ने GPL कोड पर training ली है, तो क्या सारा AI code GPL taint नहीं हो गया?” इस पर आश्चर्य जताया गया
अमेरिका में clean room प्रक्रिया बस मुकदमा छोटा करने की रणनीति है