8 पॉइंट द्वारा GN⁺ 2026-03-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Python कैरेक्टर encoding detection लाइब्रेरी chardet को AI की मदद से फिर से implement किया गया, और LGPL से MIT में बदले गए इस मामले ने open source ethics पर बहस छेड़ दी
  • AI रीइम्प्लीमेंटेशन की वैधता को मानने वाली राय सामने आई, लेकिन लेख इस बात पर ज़ोर देता है कि कानूनी अनुमति और सामाजिक वैधता अलग चीज़ें हैं
  • GNU और Linux के ऐतिहासिक रीइम्प्लीमेंटेशन निजी स्वामित्व से स्वतंत्रता की ओर विस्तार थे, लेकिन यह मामला commons की सुरक्षा को कमजोर करने वाली दिशा में काम करता है
  • GPL की sharing शर्तें पाबंदी नहीं, बल्कि पारस्परिक sharing सुनिश्चित करने की व्यवस्था हैं, जबकि MIT-शैली की freedom एक ऐसी असममित संरचना पैदा करती है जिसमें लाभ ज़्यादा पूंजी वाले पक्ष की ओर बहता है
  • ऐसे समय में जब AI के लिए copyleft को bypass करना आसान हो गया है, commons से पाने वाले को फिर commons को लौटाना चाहिए — यह सिद्धांत और भी महत्वपूर्ण हो जाता है

chardet 7.0 का AI रीइम्प्लीमेंटेशन और लाइसेंस बदलाव

  • Python की chardet लाइब्रेरी को Anthropic के Claude का उपयोग करके पूरी तरह नए सिरे से लिखा गया
    • नया version पहले से 48 गुना तेज़ है और इसमें multicore support जोड़ा गया है
    • code similarity 1.3% से कम मापी गई, इसलिए इसे स्वतंत्र रचना माना गया
  • पुराना LGPL लाइसेंस बदलकर MIT लाइसेंस कर दिया गया, जिससे source code प्रकाशित करने की बाध्यता खत्म हो गई
  • मूल लेखक Mark Pilgrim ने GitHub issue के ज़रिए LGPL उल्लंघन की संभावना उठाई
    • उनका तर्क है कि पुराने codebase के संपर्क में रही AI द्वारा किया गया रीइम्प्लीमेंटेशन ‘clean room’ तरीके के रूप में देखना कठिन है

open source हस्तियों की परस्पर विरोधी प्रतिक्रियाएँ

  • Armin Ronacher(Flask के creator) ने relicensing का स्वागत किया और दावा किया कि GPL sharing की भावना के खिलाफ है
  • Salvatore Sanfilippo(antirez, Redis के creator) ने AI रीइम्प्लीमेंटेशन की वैधता का समर्थन किया और GNU के इतिहास तथा copyright law को आधार बनाया
  • दोनों ही कानूनी अनुमति को वैधता के बराबर मानते हैं, लेकिन लेख कानून और नैतिकता के बीच की दूरी को समस्या के रूप में उठाता है

GNU के इतिहास और दिशा का अंतर

  • GNU का रीइम्प्लीमेंटेशन proprietary software को free software में बदलने की प्रक्रिया था
    • इसका केंद्र कानूनी अनुमति नहीं, बल्कि commons के विस्तार की नैतिक दिशा थी
  • इसके विपरीत chardet का मामला copyleft सुरक्षा को हटाने और commons की बाड़ को तोड़ने वाली दिशा में काम करता है
    • chardet 7.0 पर आधारित derivatives अब source public करने की बाध्यता के अधीन नहीं होंगे
  • antirez इस दिशात्मक विरोध को नज़रअंदाज़ करते हैं और GNU की मिसाल को गलत आधार के रूप में इस्तेमाल करते हैं

GPL और sharing का अर्थ

  • Ronacher का कहना है कि GPL sharing को सीमित करता है, लेकिन लेख इसे मूलभूत गलतफहमी बताता है
    • GPL source public करने की मांग सिर्फ distribution के समय करता है; निजी उपयोग पर कोई रोक नहीं
    • यह sharing की पारस्परिकता सुनिश्चित करने की व्यवस्था है, sharing को दबाने की नहीं
  • MIT लाइसेंस में code पाने वाला स्वतंत्र होता है, लेकिन योगदान वापस साझा करने की कोई बाध्यता नहीं होती
    • नतीजतन, लाभ ज़्यादा पूंजी और मानव संसाधन वाले पक्ष में केंद्रित होने लगता है
  • 1990 के दशक में GPL code के कंपनियों द्वारा absorb किए जाने के उदाहरण copyleft को मजबूत करने की ज़रूरत दिखाते हैं

आत्म-विरोधी उदाहरण: Vercel और Cloudflare

  • Vercel ने AI से GNU Bash का रीइम्प्लीमेंटेशन किया, लेकिन जब Cloudflare ने Next.js को रीइम्प्लीमेंट किया तो उसने असहजता जताई
  • Next.js, MIT लाइसेंस के अंतर्गत है, इसलिए कानूनी समस्या नहीं थी
  • इससे यह विरोधाभास सामने आता है कि “GPL को MIT में बदलना sharing की जीत है”, लेकिन जब अपनी ही codebase का रीइम्प्लीमेंटेशन हो तो आपत्ति होती है
  • Ronacher इसे मानते हुए भी अपना निष्कर्ष नहीं बदलते, इसलिए इसे तर्क से अधिक रुख के अनुरूप निष्कर्ष माना गया

वैधता और औचित्य का अंतर

  • कानून सिर्फ उन कार्यों को परिभाषित करता है जो प्रतिबंधित नहीं हैं; वह किसी कार्य के सही होने की गारंटी नहीं देता
    • tax avoidance या दवाओं की कीमत बढ़ाने जैसे कानूनी लेकिन असामाजिक व्यवहार मौजूद हैं
  • chardet का LGPL सिर्फ कानूनी व्यवस्था नहीं था, बल्कि 12 साल पुराना एक सामाजिक वादा था
    • “अगर आप इस code का उपयोग करेंगे, तो वही शर्तें रखकर साझा करेंगे” — यह विश्वास पर आधारित समझौता था
  • भले ही AI रीइम्प्लीमेंटेशन कानूनी रूप से नई रचना हो, यह contributors के साथ बने भरोसे को तोड़ने वाला काम है
  • FSF की Zoë Kooyman ने साफ कहा: “जो अधिकार आपको मिले, वही दूसरों को न देना असामाजिक आचरण है”

नज़रिए की असमानता

  • antirez और Ronacher, open source के केंद्रीय चेहरे हैं, इसलिए AI रीइम्प्लीमेंटेशन उनके लिए अनुकूल माहौल का अर्थ रखता है
  • लेकिन chardet contributors के लिए यह योगदान-सुरक्षा के नुकसान के रूप में काम करता है
  • इस असमानता को नज़रअंदाज़ कर “कानूनी तौर पर इसमें समस्या नहीं है” कहना विश्लेषण नहीं, बल्कि तर्कसंगत ठहराना माना गया

copyleft का भविष्य और सामाजिक निर्णय

  • Bruce Perens ने चेतावनी दी कि “software development की economics खत्म हो चुकी है”
    • antirez ने कहा “हमें adapt करना चाहिए”, Ronacher ने कहा “यह दिलचस्प है”
  • लेकिन असली सवाल यह है: “क्या copyleft को bypass करना जितना आसान होगा, वह उतना ही अधिक ज़रूरी भी होगा?
    • लेख का उत्तर है: “हाँ
  • GPL code की scarcity नहीं, बल्कि users की freedom की रक्षा करता है
    • AI से रीइम्प्लीमेंटेशन आसान होने पर copyleft हटाने की friction भी घट जाती है
  • “commons से पाने वाले को commons को लौटाना चाहिए” — यह सिद्धांत समय या तकनीकी बदलाव से परे एक सामाजिक मानदंड है
  • कानून धीरे बदलता है, लेकिन समुदाय का मूल्य-निर्णय पहले चलता आया है
    • GPLv2→v3→AGPL का विकास भी कानून से पहले समुदाय के निर्णय को दिखाता है
  • AI के दौर में test suite और API specification तक को copyleft सुरक्षा के दायरे में बढ़ाना चाहिए
  • अंततः लेख इस बात पर ज़ोर देता है कि पहले सामाजिक निर्णय आना चाहिए, कानूनी फैसला बाद में, और
    कानूनी वैधता, औचित्य की जगह नहीं ले सकती

1 टिप्पणियां

 
GN⁺ 2026-03-10
Hacker News की राय
  • अब अगर सिर्फ specification के आधार पर source code बनाया जा सकता है, तो GPL प्रोजेक्ट की मुख्य बौद्धिक संपदा specification में मौजूद मानी जाएगी
    पहले हम इस बात के लिए लड़ते थे कि corporate software की नकल करना कानूनी रूप से स्वीकार्य रहे, लेकिन अब हालात ऐसे हैं कि हम खुद वही अधिकार छोड़कर बौद्धिक संपदा अधिकार धारकों को और ज़्यादा नियंत्रण देना चाहते दिख रहे हैं
    यह रुझान किसी भी तरह anti-big-tech या sharing-friendly नतीजे तक नहीं पहुँचेगा। आखिरकार इस ताकत का इस्तेमाल बड़ी कंपनियाँ ही करेंगी

    • यह पहले हुए Oracle vs Google API मुकदमे से बहुत मिलता-जुलता लगता है
    • लेकिन पहले के developers को अपने ही काम पर train किए गए generative AI से मुकाबला नहीं करना पड़ता था
      अब समय पूरी तरह बदल चुका है। उद्धृत दावा पहले से आलोचना झेल चुके तर्कों को ही दोहरा रहा है।
      अगर आप इस बहस से सहमत हैं, तो मूल लेख खुद पढ़ना ज़रूर चाहिए
  • मुझे इसमें सबसे दिलचस्प बात यह लगती है कि क्या यह सिर्फ copyright से आगे बढ़कर बौद्धिक संपदा (IP) की पूरी अवधारणा को ही तोड़ सकता है
    IP इस धारणा पर बना था कि ‘रचनात्मकता कठिन है’, लेकिन LLM अब गणितीय प्रमाण, नई दवा की डिज़ाइन जैसे लगभग हर तरह के ज्ञान सृजन को automate कर रहे हैं
    तो फिर जिन रचनाओं को बनाना अब ‘कठिन’ नहीं रहा, उन पर एकाधिकार देने की क्या वजह बचती है? आखिर AI patents को भी सिर्फ constraints की तरह लेकर उनके आसपास रास्ता निकाल लेगा

    • फिर भी मुझे लगता है कि इंसानों द्वारा बनाए गए परिणामों को अब भी सुरक्षा मिलनी चाहिए
      अभी कानूनी रूप से AI output copyright protection के दायरे में नहीं आता, और सुरक्षा के लिए इंसानी हस्तक्षेप का पर्याप्त स्तर ज़रूरी है
      इंसानों की मेहनत से बने काम को बड़ी कंपनियाँ मुफ़्त में उठा न ले जाएँ, इसके लिए सुरक्षा होनी चाहिए
    • Copyright मेहनत की मात्रा नहीं, बल्कि मौलिकता और अभिव्यक्ति से जुड़ा है। अमेरिकी कानून ‘Sweat of the Brow’ सिद्धांत को नहीं मानता
    • अब IP एक विकृत अवधारणा बन चुका है जिस पर elites का कब्ज़ा है। Disney के Mickey Mouse के बाद से सब कुछ ढलान पर ही गया है
    • शायद यह सिर्फ एक संक्रमणकाल है। जो समस्याएँ पहले कठिन थीं, वे आसान होंगी, और हम उससे भी कठिन समस्याओं की ओर ध्यान देंगे
      बस उन्हें सुलझाने वाला कर्ता इंसान न भी हो सकता है
    • सच कहें तो IP शुरू से ही संख्याओं पर स्वामित्व जैसा एक विरोधाभासी विचार था
      कंप्यूटर आते ही यह लगभग अर्थहीन हो जाना चाहिए था, लेकिन lobbying ने इसे ज़िंदा रखा।
      अब AI शायद उसके ताबूत में आखिरी कील ठोक दे।
      आखिरकार असली महत्व मॉडल के weights का है, और उन्हें सबकी पहुँच में खुला होना चाहिए, या ज़रूरत पड़े तो मजबूरन खुलवाना चाहिए
  • किसी न किसी को यह सच में आज़माना चाहिए
    लीक हुआ Minecraft source code Copilot में डालकर किसी दूसरी भाषा में उसका पूरी तरह समान clone बनाना, और फिर उसे open source के रूप में जारी करना
    देखना दिलचस्प होगा कि क्या Microsoft उसे copyright infringement कहेगा

    • लेकिन वह तो सिर्फ एक port होगा, इसलिए उल्लंघन की संभावना काफ़ी ज़्यादा होगी।
      इसके बजाय कहना चाहिए, “Minecraft को शुरू से implement करो।”
      हाँ, textures या models दोबारा इस्तेमाल नहीं किए जा सकते, इसलिए AI को वे नए सिरे से बनाने होंगे
    • बात सच में तब दिलचस्प होगी जब AI binary decompilation भी कर पाएगा
    • मुझे लगता है यह उनके हथियार को उन्हीं के खिलाफ मोड़ने का तरीका होगा
    • असली सवाल यह है कि अगर training data में copyrighted सामग्री थी, तो क्या उसका output उल्लंघन माना जाएगा
      तुम्हारा उदाहरण उससे कहीं ज़्यादा स्पष्ट उल्लंघन-जोखिम वाला मामला है
    • यही इस समय का सबसे अहम सवाल है।
      अगर LLM का इस्तेमाल करके लीक हुआ Windows source code का license हटाकर WINE के लिए code बनाया जाए तो?
      हाल में LLM आधारित binary decompilation की कोशिशों पर भी काफ़ी चर्चा हो रही है
  • open source समुदाय के दो लोग इस बहस में शामिल हुए, लेकिन दोनों में से कोई भी IP lawyer नहीं है
    असली वकील Richard Fontana ने इसमें हिस्सा लिया, लेकिन उनका issue बंद कर दिया गया
    उन्होंने GitHub issue में कहा कि “AI से बनी चीज़ें आमतौर पर copyright protection के दायरे में नहीं आतीं”
    यानी अगर किसी इंसान ने सीधे code संपादित नहीं किया और सिर्फ prompt लिखा, तो उस code पर MIT license लगाना अपने आप में बड़ा कानूनी अर्थ रखता है

    • लेकिन मुझे Fontana की दलील कमज़ोर लगती है
      यह ज़्यादा photography जैसा मामला है। कैमरे के पास copyright नहीं होता, लेकिन इंसान के पास हो सकता है
      जैसे pixel-level पर हस्तक्षेप किए बिना भी किसी काम को इंसानी रचना माना जा सकता है
  • GPL का इतिहास देखें तो यह copyright का इस्तेमाल copyright के खिलाफ करने की कोशिश थी
    ‘Copyleft’ नाम ही वही मतलब समेटे हुए है
    लेकिन AI copyright को ही भीतर से घिस रहा है।
    अब सिर्फ GPL प्रोग्राम ही नहीं, closed-source software भी AI से दोबारा implement किया जा सकता है
    तो शायद GNU को GPL छोड़कर LLM को नया हथियार बना लेना चाहिए

    • लेकिन high-performance LLM ऐसी तकनीक है जिसके लिए भारी capital चाहिए
      इससे open source की आज़ादी और कमज़ोर होगी और ताकत बड़ी कंपनियों की ओर खिसकेगी
      साथ ही LLM ने असंख्य volunteer developers के code पर training ली, लेकिन उसका लाभ बड़ी कंपनियाँ उठा रही हैं
      नतीजा यह हो सकता है कि open source का आकर्षण घटे और licenses का सम्मान भी खत्म हो जाए
    • Copyleft copyright का उलटा विचार नहीं, बल्कि उपभोक्ता को अधिकार देने वाली संरचना है
      खासकर यह उपयोगकर्ता को अपने डिवाइस पर चल रहे software को बदलने का अधिकार देता है
      लेकिन अगर कुछ tools, keys या specifications सीमित हों, तो reimplementation संभव नहीं रहता
    • यह भी सवाल है कि LLM सच में इतना स्वतंत्र रूप से इस्तेमाल किया जा सकने वाला tool है या नहीं
      कहीं ऐसा न हो कि हम आखिरकार ‘बुरी कंपनियों’ के हथियार उधार लेकर लड़ रहे हों
    • सच तो यह है कि आज का LLM खुद ही ‘बुरी software company’ का अवतार है
    • जब तक आम लोग आसानी से host कर सकें ऐसा open-source LLM नहीं आता, तब तक असली software freedom दूर ही रहेगी
  • मुझे लगता है license violation तो पहले ही हो चुका है
    ज़्यादातर बड़े models ने data collection के दौरान service terms तोड़े हैं
    इसलिए GPL code पर trained models को open-license obligations से infected माना जा सकता है

    • लेकिन training अपने आप में copyright infringement नहीं है। इसे fair use माना जाता है
      कानूनी रूप से अहम बातें हैं ① data वैध तरीके से हासिल किया गया या नहीं, ② output मौलिक अभिव्यक्ति है या नहीं
      इस मामले में 98.7% हिस्सा नया code पाया गया है
    • आखिरकार अदालत का फैसला चाहिए। लेकिन असली मुद्दा ‘fair use’ का सिद्धांत नहीं, बल्कि output की transformativity होगा
    • कई मिसालों में training की क्रिया को पहले ही fair use माना जा चुका है
      असली विवाद यह है कि output कितना transformative है।
      यही NYT vs OpenAI मुकदमे का भी केंद्रीय प्रश्न है
  • Blanchard ने कहा कि “मैंने सिर्फ API और tests Claude में डाले और उसने नई implementation बना दी,”
    लेकिन यह कुछ वैसा सुनाई देता है जैसे “मैंने आँख बंद करके canvas पर paint फेंका और उससे Mickey Mouse बन गया”
    वह पहले से उस code का maintainer था, इसलिए उसे पूरी तरह स्वतंत्र कहना मुश्किल है

    • लेकिन उसने सच में code देखा था या नहीं, यह निर्णायक नहीं है
      अगर उसने original code input करके clone बनवाने की व्यवस्था की, तो वह फिर भी copyright infringement ही होगा
      अगर AI सिर्फ एक tool है, तो ज़िम्मेदारी user की होगी; और अगर वह स्वतंत्र agent है, तो वही उल्लंघन का कर्ता बनेगा
    • मेरे हिसाब से code reimplementation अपने आप में वैध है और नैतिक रूप से भी ठीक है
      बशर्ते अभिव्यक्ति के तत्वों की सीधी नकल न की जाए
    • Oracle vs Google की तरह API reimplementation संभव है
      अगर Blanchard अपने सारे prompts सार्वजनिक कर दे, तो कोई भी वही नतीजा दोबारा हासिल कर सकेगा
    • क्या कोई यह ढूँढ सकता है कि Blanchard ने सच में ऐसा कहा था या नहीं?
      मेरी समझ में उसने सिर्फ इतना कहा था कि Claude ने code नहीं देखा
    • हालाँकि Mickey Mouse वाला मामला trademark का है, इसलिए कानूनी रूप से वह उपमा सटीक नहीं है
  • लेख के अनुसार Claude को सिर्फ API और tests दिए गए थे और उसने library को दोबारा implement किया
    लेकिन GPL2 testsuite को भी source code का हिस्सा मानता है
    ऐसे में अगर Claude ने tests का इस्तेमाल किया, तो परिणाम LGPL 2.1 के तहत मूल पर आधारित derivative work माना जा सकता है

    • लेकिन कानूनी रूप से इसे transformative use माना जा सकता है
      हाँ, tests को MIT license के तहत redistribute करना संभव न भी हो
      इसलिए व्यावहारिक रास्ता यह हो सकता है कि code को MIT में जारी किया जाए और tests को LGPL के तहत साथ में वितरित किया जाए
    • Google vs Oracle फैसले के अनुसार API का उपयोग fair use है
      test cases को भी API उपयोग का हिस्सा माना जा सकता है
  • हमारी कंपनी में लोग security team से approval न मिलने वाले tools के बदले AI reimplementation का इस्तेमाल करने लगे हैं
    security team की policy ‘default deny’ है, जबकि engineering team की policy ‘AI का सक्रिय उपयोग’ है
    नतीजतन एक अजीब incentive structure बन रहा है जिसमें AI से internal tools नए सिरे से बनाना ज़्यादा आसान लगने लगता है
    अगर अलग नतीजा चाहिए, तो incentive design से शुरुआत करनी होगी

    • “Not Invented Here” संस्कृति अब antibiotic resistance की तरह और मज़बूत होती जा रही है
      अगर AI बार-बार security-related code अच्छी तरह लिख सकता है,
      तो फिर यह क्यों माना जाए कि वही AI third-party software की security verification नहीं कर सकता?
      मैं पूछना चाहता हूँ कि production और analysis के बीच यह asymmetry क्यों मौजूद है
  • GPL की शर्तें सिर्फ distribution के समय सक्रिय होती हैं
    जब आप modified code वितरित करते हैं या network service के रूप में उपलब्ध कराते हैं, तब source खोलना पड़ता है
    हालाँकि network service उपलब्ध कराना distribution नहीं माना जाता, और इसी कमी को पूरा करने के लिए AGPL बनाया गया था