F/OSS को LLM training से रोकना नहीं, बल्कि training के नतीजे में बने model को मुक्त करना चाहिए
  • हाल की 〈Free and open-source software and training LLMs〉 पोस्ट F/OSS community की निराशा को अच्छी तरह व्यक्त करती है — AI कंपनियों की बदतमीज़ी, कानून की सीमाएँ, आदि
  • लेकिन लेखक द्वारा सुझाई गई वापसी की रणनीतियाँ, जैसे crawler block करना, GitHub छोड़ना, AI tools के users को बाहर करना, एक महत्वपूर्ण अवसर को खो देती हैं
समस्या training नहीं, enclosure है
  • असली समस्या यह नहीं कि हमारे code से LLM को train किया जा रहा है, बल्कि यह है कि उसका नतीजा proprietary model के रूप में निजी बना लिया जाता है
  • यह कोई नई समस्या नहीं है — F/OSS अब तक इसी समस्या से लड़ता आया है
    • साझा संसाधनों का निजीकरण
    • सामूहिक ज्ञान पर एकाधिकार
    • बहुसंख्यक से अल्पसंख्यक की ओर एकतरफा value flow
GPL का ऐतिहासिक पैटर्न: नई तकनीक → नया शोषण → नया license

F/OSS licensing तकनीकी बदलावों के साथ लगातार विकसित होती रही है:

  1. GPLv2 (1991) — केवल binary distribute करने पर रोक → source code सार्वजनिक करना अनिवार्य
  2. GPLv3 (2007) — Tivoization (hardware lock) पर रोक → installation information तक अनिवार्य
  3. AGPL (2007) — SaaS loophole बंद → network पर उपलब्ध कराना भी distribution माना गया

अब क्या हो रहा है? training loophole पैदा हो गया है:

  • कंपनियाँ F/OSS code को proprietary models के training data के रूप में इस्तेमाल करती हैं
  • लेकिन उन्हें model public करने या training source बताने की कोई बाध्यता नहीं है
  • यह शोषण का एक क्लासिक रूप है — reciprocity के बिना value extraction
समाधान: GPLv4 या TGPL (Training GPL) जैसी training copyleft

प्रस्तावित शर्तें:

  • training को स्पष्ट रूप से अनुमति दी जाए (यह F/OSS की स्वतंत्रता वाली बुनियादी सोच के अनुरूप है)
  • लेकिन नतीजे में बना model मुक्त होना चाहिए — weights को compatible copyleft license के तहत जारी करना होगा
  • training data का documentation अनिवार्य हो
  • fine-tuned models पर भी वही दायित्व लागू रहे
  • network use (API के रूप में उपलब्ध कराना) को भी distribution माना जाए

→ जैसे GPLv3 binary के साथ source code मांगता है, वैसे ही training copyleft trained system के लिए model weights की मांग करेगा

यह वापसी से ज्यादा महत्वपूर्ण क्यों है

वापसी की रणनीतियों की समस्याएँ:

  1. मैदान छोड़ देना — OpenAI/Anthropic पहले ही अपनी ज़रूरत की चीज़ें scrape कर चुके हैं। वापसी से रुकेंगे सिर्फ Llama/Mistral जैसे open-source LLM
  2. समस्या की गलत पहचान — समस्या तकनीक खुद नहीं है, बल्कि यह है कि उसका इस्तेमाल कौन और कैसे कर रहा है
  3. community में फूट — “अनैतिक tools” इस्तेमाल करने वालों को बाहर करना? इस्तेमाल की सीमा कहाँ तय होगी? ऐसी purity test केवल आंदोलनों को तोड़ती है
  4. F/OSS की मुख्य रणनीति छोड़ देना — GPL की प्रतिभा इस बात में थी कि उसने इस्तेमाल को नहीं रोका, बल्कि स्वतंत्रता को आगे पहुँचाना अनिवार्य किया। वापसी ठीक उलटी सोच है
यथार्थ को देखने का फर्क
  • antirez (Redis के संस्थापक): LLM को पलटा नहीं जा सकता → खुद को ढालो और market competition पर भरोसा करो
  • मूल लेख के लेखक: प्रतिरोध का अर्थ है → वापसी करो और access block करो
  • यह लेख: LLM को पलटा नहीं जा सकता → लेकिन मुद्दा यह है कि मालिक कौन होगा

सवाल यह नहीं कि LLM का इस्तेमाल होगा या नहीं, बल्कि:

  • models का मालिक कौन है?
  • जिन साझा संसाधनों से models को train किया गया, उससे लाभ किसे मिलता है?
  • क्या लाखों F/OSS developers के योगदान का नतीजा proprietary होना चाहिए?

→ मुद्दा यह है कि सामूहिक श्रम का फल सामूहिक ही रहे, या निजी संपत्ति बन जाए

अभी एक ऐतिहासिक अवसर है
  • इस समय AI training और model release को नियंत्रित करने वाले मानकों पर बातचीत चल रही है
  • community के भीतर बहस तेज़ है
  • open-source AI models बढ़ रहे हैं, और अभी यह तय नहीं हुआ है कि उन पर कौन-सा license लागू होगा

अगर F/OSS developers पीछे हट जाते हैं: 5 साल बाद कंपनियाँ और corporate-friendly courts सारे मानक तय कर देंगे → training loophole स्थायी हो जाएगा → open-source AI हमेशा के लिए नुकसान में रहेगा

अगर हम भाग लें: training copyleft को आगे बढ़ाएँ → code को ऐसे license में जारी करें जो model liberation की मांग करे → हम भविष्य बनाएँ

निष्कर्ष एक वाक्य में

crawler को block करने के बजाय crawling के नियम बदलने चाहिए। LLM को ठुकराना नहीं, वापस अपने हाथ में लेना चाहिए।

→ ऐतिहासिक भौतिकवादी नज़रिए से: नई productive force (LLM) नई production relations (training copyleft) की मांग करती है
→ जैसे Linus ने Linux को GPL के तहत जारी करते समय यह नहीं कहा था कि “कंपनियाँ इसका इस्तेमाल नहीं कर सकतीं”, बल्कि यह कहा था कि “कोई भी इस्तेमाल करे, लेकिन सुधार करे तो साझा करे”
→ जैसे code सबका है, वैसे ही उससे trained AI model भी सबके होने चाहिए — इसी भविष्य के लिए

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.