- Python कैरेक्टर encoding detection लाइब्रेरी chardet को AI की मदद से फिर से implement किया गया, और LGPL से MIT में बदले गए इस मामले ने open source ethics पर बहस छेड़ दी
- AI रीइम्प्लीमेंटेशन की वैधता को मानने वाली राय सामने आई, लेकिन लेख इस बात पर ज़ोर देता है कि कानूनी अनुमति और सामाजिक वैधता अलग चीज़ें हैं
- GNU और Linux के ऐतिहासिक रीइम्प्लीमेंटेशन निजी स्वामित्व से स्वतंत्रता की ओर विस्तार थे, लेकिन यह मामला commons की सुरक्षा को कमजोर करने वाली दिशा में काम करता है
- GPL की sharing शर्तें पाबंदी नहीं, बल्कि पारस्परिक sharing सुनिश्चित करने की व्यवस्था हैं, जबकि MIT-शैली की freedom एक ऐसी असममित संरचना पैदा करती है जिसमें लाभ ज़्यादा पूंजी वाले पक्ष की ओर बहता है
- ऐसे समय में जब AI के लिए copyleft को bypass करना आसान हो गया है, commons से पाने वाले को फिर commons को लौटाना चाहिए — यह सिद्धांत और भी महत्वपूर्ण हो जाता है
chardet 7.0 का AI रीइम्प्लीमेंटेशन और लाइसेंस बदलाव
- Python की chardet लाइब्रेरी को Anthropic के Claude का उपयोग करके पूरी तरह नए सिरे से लिखा गया
- नया version पहले से 48 गुना तेज़ है और इसमें multicore support जोड़ा गया है
- code similarity 1.3% से कम मापी गई, इसलिए इसे स्वतंत्र रचना माना गया
- पुराना LGPL लाइसेंस बदलकर MIT लाइसेंस कर दिया गया, जिससे source code प्रकाशित करने की बाध्यता खत्म हो गई
- मूल लेखक Mark Pilgrim ने GitHub issue के ज़रिए LGPL उल्लंघन की संभावना उठाई
- उनका तर्क है कि पुराने codebase के संपर्क में रही AI द्वारा किया गया रीइम्प्लीमेंटेशन ‘clean room’ तरीके के रूप में देखना कठिन है
open source हस्तियों की परस्पर विरोधी प्रतिक्रियाएँ
- Armin Ronacher(Flask के creator) ने relicensing का स्वागत किया और दावा किया कि GPL sharing की भावना के खिलाफ है
- Salvatore Sanfilippo(antirez, Redis के creator) ने AI रीइम्प्लीमेंटेशन की वैधता का समर्थन किया और GNU के इतिहास तथा copyright law को आधार बनाया
- दोनों ही कानूनी अनुमति को वैधता के बराबर मानते हैं, लेकिन लेख कानून और नैतिकता के बीच की दूरी को समस्या के रूप में उठाता है
GNU के इतिहास और दिशा का अंतर
- GNU का रीइम्प्लीमेंटेशन proprietary software को free software में बदलने की प्रक्रिया था
- इसका केंद्र कानूनी अनुमति नहीं, बल्कि commons के विस्तार की नैतिक दिशा थी
- इसके विपरीत chardet का मामला copyleft सुरक्षा को हटाने और commons की बाड़ को तोड़ने वाली दिशा में काम करता है
- chardet 7.0 पर आधारित derivatives अब source public करने की बाध्यता के अधीन नहीं होंगे
- antirez इस दिशात्मक विरोध को नज़रअंदाज़ करते हैं और GNU की मिसाल को गलत आधार के रूप में इस्तेमाल करते हैं
GPL और sharing का अर्थ
- Ronacher का कहना है कि GPL sharing को सीमित करता है, लेकिन लेख इसे मूलभूत गलतफहमी बताता है
- GPL source public करने की मांग सिर्फ distribution के समय करता है; निजी उपयोग पर कोई रोक नहीं
- यह sharing की पारस्परिकता सुनिश्चित करने की व्यवस्था है, sharing को दबाने की नहीं
- MIT लाइसेंस में code पाने वाला स्वतंत्र होता है, लेकिन योगदान वापस साझा करने की कोई बाध्यता नहीं होती
- नतीजतन, लाभ ज़्यादा पूंजी और मानव संसाधन वाले पक्ष में केंद्रित होने लगता है
- 1990 के दशक में GPL code के कंपनियों द्वारा absorb किए जाने के उदाहरण copyleft को मजबूत करने की ज़रूरत दिखाते हैं
आत्म-विरोधी उदाहरण: Vercel और Cloudflare
- Vercel ने AI से GNU Bash का रीइम्प्लीमेंटेशन किया, लेकिन जब Cloudflare ने Next.js को रीइम्प्लीमेंट किया तो उसने असहजता जताई
- Next.js, MIT लाइसेंस के अंतर्गत है, इसलिए कानूनी समस्या नहीं थी
- इससे यह विरोधाभास सामने आता है कि “GPL को MIT में बदलना sharing की जीत है”, लेकिन जब अपनी ही codebase का रीइम्प्लीमेंटेशन हो तो आपत्ति होती है
- Ronacher इसे मानते हुए भी अपना निष्कर्ष नहीं बदलते, इसलिए इसे तर्क से अधिक रुख के अनुरूप निष्कर्ष माना गया
वैधता और औचित्य का अंतर
- कानून सिर्फ उन कार्यों को परिभाषित करता है जो प्रतिबंधित नहीं हैं; वह किसी कार्य के सही होने की गारंटी नहीं देता
- tax avoidance या दवाओं की कीमत बढ़ाने जैसे कानूनी लेकिन असामाजिक व्यवहार मौजूद हैं
- chardet का LGPL सिर्फ कानूनी व्यवस्था नहीं था, बल्कि 12 साल पुराना एक सामाजिक वादा था
- “अगर आप इस code का उपयोग करेंगे, तो वही शर्तें रखकर साझा करेंगे” — यह विश्वास पर आधारित समझौता था
- भले ही AI रीइम्प्लीमेंटेशन कानूनी रूप से नई रचना हो, यह contributors के साथ बने भरोसे को तोड़ने वाला काम है
- FSF की Zoë Kooyman ने साफ कहा: “जो अधिकार आपको मिले, वही दूसरों को न देना असामाजिक आचरण है”
नज़रिए की असमानता
- antirez और Ronacher, open source के केंद्रीय चेहरे हैं, इसलिए AI रीइम्प्लीमेंटेशन उनके लिए अनुकूल माहौल का अर्थ रखता है
- लेकिन chardet contributors के लिए यह योगदान-सुरक्षा के नुकसान के रूप में काम करता है
- इस असमानता को नज़रअंदाज़ कर “कानूनी तौर पर इसमें समस्या नहीं है” कहना विश्लेषण नहीं, बल्कि तर्कसंगत ठहराना माना गया
copyleft का भविष्य और सामाजिक निर्णय
- Bruce Perens ने चेतावनी दी कि “software development की economics खत्म हो चुकी है”
- antirez ने कहा “हमें adapt करना चाहिए”, Ronacher ने कहा “यह दिलचस्प है”
- लेकिन असली सवाल यह है: “क्या copyleft को bypass करना जितना आसान होगा, वह उतना ही अधिक ज़रूरी भी होगा?”
- GPL code की scarcity नहीं, बल्कि users की freedom की रक्षा करता है
- AI से रीइम्प्लीमेंटेशन आसान होने पर copyleft हटाने की friction भी घट जाती है
- “commons से पाने वाले को commons को लौटाना चाहिए” — यह सिद्धांत समय या तकनीकी बदलाव से परे एक सामाजिक मानदंड है
- कानून धीरे बदलता है, लेकिन समुदाय का मूल्य-निर्णय पहले चलता आया है
- GPLv2→v3→AGPL का विकास भी कानून से पहले समुदाय के निर्णय को दिखाता है
- AI के दौर में test suite और API specification तक को copyleft सुरक्षा के दायरे में बढ़ाना चाहिए
- अंततः लेख इस बात पर ज़ोर देता है कि पहले सामाजिक निर्णय आना चाहिए, कानूनी फैसला बाद में, और
कानूनी वैधता, औचित्य की जगह नहीं ले सकती
1 टिप्पणियां
Hacker News की राय
अब अगर सिर्फ specification के आधार पर source code बनाया जा सकता है, तो GPL प्रोजेक्ट की मुख्य बौद्धिक संपदा specification में मौजूद मानी जाएगी
पहले हम इस बात के लिए लड़ते थे कि corporate software की नकल करना कानूनी रूप से स्वीकार्य रहे, लेकिन अब हालात ऐसे हैं कि हम खुद वही अधिकार छोड़कर बौद्धिक संपदा अधिकार धारकों को और ज़्यादा नियंत्रण देना चाहते दिख रहे हैं
यह रुझान किसी भी तरह anti-big-tech या sharing-friendly नतीजे तक नहीं पहुँचेगा। आखिरकार इस ताकत का इस्तेमाल बड़ी कंपनियाँ ही करेंगी
अब समय पूरी तरह बदल चुका है। उद्धृत दावा पहले से आलोचना झेल चुके तर्कों को ही दोहरा रहा है।
अगर आप इस बहस से सहमत हैं, तो मूल लेख खुद पढ़ना ज़रूर चाहिए
मुझे इसमें सबसे दिलचस्प बात यह लगती है कि क्या यह सिर्फ copyright से आगे बढ़कर बौद्धिक संपदा (IP) की पूरी अवधारणा को ही तोड़ सकता है
IP इस धारणा पर बना था कि ‘रचनात्मकता कठिन है’, लेकिन LLM अब गणितीय प्रमाण, नई दवा की डिज़ाइन जैसे लगभग हर तरह के ज्ञान सृजन को automate कर रहे हैं
तो फिर जिन रचनाओं को बनाना अब ‘कठिन’ नहीं रहा, उन पर एकाधिकार देने की क्या वजह बचती है? आखिर AI patents को भी सिर्फ constraints की तरह लेकर उनके आसपास रास्ता निकाल लेगा
अभी कानूनी रूप से AI output copyright protection के दायरे में नहीं आता, और सुरक्षा के लिए इंसानी हस्तक्षेप का पर्याप्त स्तर ज़रूरी है
इंसानों की मेहनत से बने काम को बड़ी कंपनियाँ मुफ़्त में उठा न ले जाएँ, इसके लिए सुरक्षा होनी चाहिए
बस उन्हें सुलझाने वाला कर्ता इंसान न भी हो सकता है
कंप्यूटर आते ही यह लगभग अर्थहीन हो जाना चाहिए था, लेकिन lobbying ने इसे ज़िंदा रखा।
अब AI शायद उसके ताबूत में आखिरी कील ठोक दे।
आखिरकार असली महत्व मॉडल के weights का है, और उन्हें सबकी पहुँच में खुला होना चाहिए, या ज़रूरत पड़े तो मजबूरन खुलवाना चाहिए
किसी न किसी को यह सच में आज़माना चाहिए
लीक हुआ Minecraft source code Copilot में डालकर किसी दूसरी भाषा में उसका पूरी तरह समान clone बनाना, और फिर उसे open source के रूप में जारी करना
देखना दिलचस्प होगा कि क्या Microsoft उसे copyright infringement कहेगा
इसके बजाय कहना चाहिए, “Minecraft को शुरू से implement करो।”
हाँ, textures या models दोबारा इस्तेमाल नहीं किए जा सकते, इसलिए AI को वे नए सिरे से बनाने होंगे
तुम्हारा उदाहरण उससे कहीं ज़्यादा स्पष्ट उल्लंघन-जोखिम वाला मामला है
अगर LLM का इस्तेमाल करके लीक हुआ Windows source code का license हटाकर WINE के लिए code बनाया जाए तो?
हाल में LLM आधारित binary decompilation की कोशिशों पर भी काफ़ी चर्चा हो रही है
open source समुदाय के दो लोग इस बहस में शामिल हुए, लेकिन दोनों में से कोई भी IP lawyer नहीं है
असली वकील Richard Fontana ने इसमें हिस्सा लिया, लेकिन उनका issue बंद कर दिया गया
उन्होंने GitHub issue में कहा कि “AI से बनी चीज़ें आमतौर पर copyright protection के दायरे में नहीं आतीं”
यानी अगर किसी इंसान ने सीधे code संपादित नहीं किया और सिर्फ prompt लिखा, तो उस code पर MIT license लगाना अपने आप में बड़ा कानूनी अर्थ रखता है
यह ज़्यादा photography जैसा मामला है। कैमरे के पास copyright नहीं होता, लेकिन इंसान के पास हो सकता है
जैसे pixel-level पर हस्तक्षेप किए बिना भी किसी काम को इंसानी रचना माना जा सकता है
GPL का इतिहास देखें तो यह copyright का इस्तेमाल copyright के खिलाफ करने की कोशिश थी
‘Copyleft’ नाम ही वही मतलब समेटे हुए है
लेकिन AI copyright को ही भीतर से घिस रहा है।
अब सिर्फ GPL प्रोग्राम ही नहीं, closed-source software भी AI से दोबारा implement किया जा सकता है
तो शायद GNU को GPL छोड़कर LLM को नया हथियार बना लेना चाहिए
इससे open source की आज़ादी और कमज़ोर होगी और ताकत बड़ी कंपनियों की ओर खिसकेगी
साथ ही LLM ने असंख्य volunteer developers के code पर training ली, लेकिन उसका लाभ बड़ी कंपनियाँ उठा रही हैं
नतीजा यह हो सकता है कि open source का आकर्षण घटे और licenses का सम्मान भी खत्म हो जाए
खासकर यह उपयोगकर्ता को अपने डिवाइस पर चल रहे software को बदलने का अधिकार देता है
लेकिन अगर कुछ tools, keys या specifications सीमित हों, तो reimplementation संभव नहीं रहता
कहीं ऐसा न हो कि हम आखिरकार ‘बुरी कंपनियों’ के हथियार उधार लेकर लड़ रहे हों
मुझे लगता है license violation तो पहले ही हो चुका है
ज़्यादातर बड़े models ने data collection के दौरान service terms तोड़े हैं
इसलिए GPL code पर trained models को open-license obligations से infected माना जा सकता है
कानूनी रूप से अहम बातें हैं ① data वैध तरीके से हासिल किया गया या नहीं, ② output मौलिक अभिव्यक्ति है या नहीं
इस मामले में 98.7% हिस्सा नया code पाया गया है
असली विवाद यह है कि output कितना transformative है।
यही NYT vs OpenAI मुकदमे का भी केंद्रीय प्रश्न है
Blanchard ने कहा कि “मैंने सिर्फ API और tests Claude में डाले और उसने नई implementation बना दी,”
लेकिन यह कुछ वैसा सुनाई देता है जैसे “मैंने आँख बंद करके canvas पर paint फेंका और उससे Mickey Mouse बन गया”
वह पहले से उस code का maintainer था, इसलिए उसे पूरी तरह स्वतंत्र कहना मुश्किल है
अगर उसने original code input करके clone बनवाने की व्यवस्था की, तो वह फिर भी copyright infringement ही होगा
अगर AI सिर्फ एक tool है, तो ज़िम्मेदारी user की होगी; और अगर वह स्वतंत्र agent है, तो वही उल्लंघन का कर्ता बनेगा
बशर्ते अभिव्यक्ति के तत्वों की सीधी नकल न की जाए
अगर Blanchard अपने सारे prompts सार्वजनिक कर दे, तो कोई भी वही नतीजा दोबारा हासिल कर सकेगा
मेरी समझ में उसने सिर्फ इतना कहा था कि Claude ने code नहीं देखा
लेख के अनुसार Claude को सिर्फ API और tests दिए गए थे और उसने library को दोबारा implement किया
लेकिन GPL2 testsuite को भी source code का हिस्सा मानता है
ऐसे में अगर Claude ने tests का इस्तेमाल किया, तो परिणाम LGPL 2.1 के तहत मूल पर आधारित derivative work माना जा सकता है
हाँ, tests को MIT license के तहत redistribute करना संभव न भी हो
इसलिए व्यावहारिक रास्ता यह हो सकता है कि code को MIT में जारी किया जाए और tests को LGPL के तहत साथ में वितरित किया जाए
test cases को भी API उपयोग का हिस्सा माना जा सकता है
हमारी कंपनी में लोग security team से approval न मिलने वाले tools के बदले AI reimplementation का इस्तेमाल करने लगे हैं
security team की policy ‘default deny’ है, जबकि engineering team की policy ‘AI का सक्रिय उपयोग’ है
नतीजतन एक अजीब incentive structure बन रहा है जिसमें AI से internal tools नए सिरे से बनाना ज़्यादा आसान लगने लगता है
अगर अलग नतीजा चाहिए, तो incentive design से शुरुआत करनी होगी
अगर AI बार-बार security-related code अच्छी तरह लिख सकता है,
तो फिर यह क्यों माना जाए कि वही AI third-party software की security verification नहीं कर सकता?
मैं पूछना चाहता हूँ कि production और analysis के बीच यह asymmetry क्यों मौजूद है
GPL की शर्तें सिर्फ distribution के समय सक्रिय होती हैं
जब आप modified code वितरित करते हैं या network service के रूप में उपलब्ध कराते हैं, तब source खोलना पड़ता है
हालाँकि network service उपलब्ध कराना distribution नहीं माना जाता, और इसी कमी को पूरा करने के लिए AGPL बनाया गया था