- Stack Overflow और OpenAI के समझौते के अनुसार, Stack Overflow के सभी प्रश्न और उत्तर GenerativeAI मॉडल के प्रशिक्षण में इस्तेमाल किए जाएंगे
- यह CC-BY-SA लाइसेंस के तहत आवश्यक attribution दिए बिना किया जाएगा
- CC-BY-SA लाइसेंस यह भी मांगता है कि derivative works को भी उसी लाइसेंस के तहत साझा किया जाए
- इसके जवाब में मैंने Stack Overflow से अपना डेटा हटाने का अनुरोध किया और अपना खाता बंद कर दिया
- Reddit पर भी मैंने यही कदम उठाया
- क्योंकि जिस डेटा को बनाने में मैंने योगदान दिया, वही LLM में बंद होकर मुझे फिर से बेचा जाएगा
- Stack Overflow ने एक ही झटके में अपने मुख्य competitive advantage के स्रोत, यानी community, को अलग-थलग कर दिया
- पहले लोग एक-दूसरे की मदद तब करते थे जब कर सकते थे, इस उम्मीद के साथ कि भविष्य में दूसरे लोग उनकी मदद करेंगे
- अब यह आदान-प्रदान नहीं रहा, बल्कि
#enshittification बन गया है
- अब programmers भी artists और copywriters की तरह उस स्थिति में हैं जहाँ उनके काम को GenAI solutions बनाने के लिए खींच लिया गया है
- अगर OpenAI, GitHub के Copilot की तरह code generate करने वाला LLM बनाता है, तो सवाल यह है कि AI मॉडल द्वारा लाए गए bugs के लिए मदद कहाँ से मिलेगी
- हाल की GitClear रिपोर्ट के अनुसार, ऐसे tools "code quality पर downward pressure" पैदा करते हैं
- यह
#enshittification का एक और उदाहरण है, और DevRel जिम्मेदार लोगों के लिए एक महत्वपूर्ण सबक है
- अगर community ही competitive advantage का स्रोत है, तो उन्हें नाराज़ नहीं करना चाहिए
14 टिप्पणियां
लगता है
enshittificationकोई नया गढ़ा गया शब्द है।<क्या इंसानों और AI के साथ अलग तरह से व्यवहार किया जाना चाहिए?>
मानव Hong Gildong इंटरनेट पर घूमता है, जिसमें Stack Overflow भी शामिल है। मान लीजिए कि वह कई लेख पढ़ता है और किसी खास विषय पर तरह-तरह का ज्ञान हासिल करता है। Gildong की आदत है कि जो कुछ वह सीखता है, उसे आसान ढंग से फिर से सामान्यीकृत और व्यवस्थित करके किसी बाहरी ब्लॉग पर लिखता है। इस स्थिति में CC लाइसेंस का कोई संबंध नहीं होता। attribution देने की भी कोई बाध्यता नहीं होती। क्योंकि यह उद्धरण नहीं, बल्कि सीखी हुई चीज़ है।
AI भी इंसानों की तरह neural network के जरिए सीखता है। यह कई sources को ज्यों का त्यों कॉपी करके नहीं बोलता। इंसानों की तरह यह भी अपने तरीके से ज्ञान का विश्लेषण करता है, अपनी समझ बनाता है, उसे फिर से व्यवस्थित करता है, और उसके आधार पर जवाब देता है।
बल्कि AI की स्वतंत्रता को सीमित करके उसे दूसरों की भाषा को ठीक वैसा ही "उद्धृत" करने के लिए मजबूर करना कुछ ज़्यादा कठिन है। इसके लिए RAG का इस्तेमाल करना आसान है, लेकिन उसे उद्धरण करने के लिए train करना उससे भी कठिन है।
लेकिन कभी-कभी AI से अलग से यह कहे बिना कि "अपनी बात मत कहो, किसी और की लिखी हुई बात (code) को ज्यों का त्यों उद्धृत करो", वह दूसरों की बात को कॉपी की तरह उगल देता है। ऐसा तब होता है जब वह source बेहद प्रसिद्ध हो। उदाहरण के लिए Shakespeare या फिल्मों के मशहूर dialogues इतने प्रसिद्ध होते हैं कि वे वैसे के वैसे निकल आते हैं। इंसान भी ऐसे प्रसिद्ध और बार-बार सामने आने वाले कंटेंट को वाक्यांशों समेत याद कर लेते हैं, और AI के साथ भी यही बात लागू होती है। ऐसे मामलों में, इंसानों की तरह AI भी आम तौर पर source अपने आप बता देता है।
निष्कर्ष यह है कि सीखकर कही गई बातों पर CC लाइसेंस और copyright का दावा किया जा सकता है या नहीं, इस पर संदेह है। पहले से ही 'learning' नहीं बल्कि 'inference' (यानी train हो चुके AI का उपयोग) के क्षेत्र में, ऊपर बताए गए कारणों से मूल source के copyright को लगभग मान्यता न देने की प्रवृत्ति दुनिया भर में एक trend बनती जा रही है।
अच्छी टिप्पणी के लिए धन्यवाद।
डेवलपर Hong Gil-dong, SO पर देखे गए जवाबों से 'सीख'कर ब्लॉग में लिख सकता है, लेकिन अगर शोध छात्र Hong Gil-dong ने किसी और के शोधपत्र से थोड़ा भी 'उद्धरण' लिया है, तो वह उसका स्रोत छोड़ेगा। अगर हमारी यह बातचीत दर्शन या आविष्कार नहीं, बल्कि programming की दुनिया के संदर्भ में हो रही है, तो सीखना क्या है और उद्धरण क्या है?
आम तौर पर स्रोत का उल्लेख किया जाता है, लेकिन इसके अपवाद भी हैं.
यह हिस्सा समय के साथ सुलझ भी सकता है, लेकिन यह विवाद तब शुरू हुआ था जब Copilot ने Quake का fast invert sqrt कोड ज्यों का त्यों उठा लिया था (https://news.ycombinator.com/item?id=27710287); वह कोड इतना मशहूर था कि लोगों को तुरंत पता चल गया, लेकिन इस तरह तथाकथित copy-paste हुआ कितना कोड "generate" किया गया है, यह कोई नहीं जानता.
वाकई बहुत दिलचस्प नज़रिया है। इससे बहुत मदद मिली।
काफ़ी दिलचस्प नज़रिया है।
कोरियाई नज़रिए से देखें तो यह कुछ वैसा लगता है जैसे "समुदाय का कैफ़े किसी कारोबारी को सौंप दिया गया हो", और साथ ही "वैसे भी यह secondary creation है, तो इसमें क्या?" जैसी भावना भी है।
लेकिन मुझे यह कुछ वैसा लगता है जैसे SNS पर डाली गई मेरी तस्वीर का व्यावसायिक इस्तेमाल हो रहा हो, इसलिए यह मुझे ज़्यादा अच्छा नहीं लगता।
> यह इंसान की तरह अपने तरीके से ज्ञान का विश्लेषण करता है, अपने विचार खुद व्यवस्थित करता है, और उन्हें फिर से क्रमबद्ध करके कहता है।
ऐसा लगता है कि आप यह दावा कर रहे हैं कि LLM के अपने मूल्य और विचार होते हैं—क्या आपका आशय यही है? निष्कर्ष पर इसका असर नहीं पड़ता, लेकिन तर्क प्रक्रिया पर copyright लागू नहीं किया जाना चाहिए, इसके आधार के रूप में यह उचित नहीं लगता।
हर शब्द को tokenization करके, उसकी embedding जानकारी को latent space में ठीक से डालकर व्यवस्थित करने की प्रक्रिया को अमूर्त रूप में देखें तो मुझे लगता है कि इसकी तुलना मूल्यों और विचारों से की जा सकती है।
साइबरनेटीकरण के संबंध में।
किसी की यह बात याद आती है, "सिर्फ़ मूल्यवान दिमाग ही सुरक्षित रखे जाएंगे।"
क्या SO की तरफ़ से वाकई ईमानदारी से delete किया जाएगा? या फिर सिर्फ़ Deleted फ़्लैग सेट करके बाद में यह घोषणा की जाएगी कि "तकनीकी गलती की वजह से इसे training में इस्तेमाल कर लिया गया था"?
> इसके अलावा, शुरुआत से ही अमेरिका ऐसा देश है जहाँ कोरिया या यूरोप के विपरीत 'भुला दिए जाने का अधिकार' पर विवाद कभी खत्म नहीं हो सकता...
मुझे इस विषय की पृष्ठभूमि की जानकारी नहीं थी, इसलिए मैंने थोड़ी देर खोजकर देखा। क्या ऐसा इसलिए है क्योंकि अभिव्यक्ति की स्वतंत्रता और भुला दिए जाने का अधिकार आपस में टकराते हैं? और क्योंकि अभी तक इस पर सहमति नहीं बनी है, इसलिए कानून भी नहीं बना है?
वाह, सच में ऐसा भी हो सकता है।
Stack Overflow और OpenAI ने पार्टनरशिप की
Stack Overflow यूज़र्स, OpenAI साझेदारी के बाद लगातार जवाब डिलीट कर रहे हैं