20 पॉइंट द्वारा xguru 2024-05-14 | 14 टिप्पणियां | WhatsApp पर शेयर करें
  • Stack Overflow और OpenAI के समझौते के अनुसार, Stack Overflow के सभी प्रश्न और उत्तर GenerativeAI मॉडल के प्रशिक्षण में इस्तेमाल किए जाएंगे
    • यह CC-BY-SA लाइसेंस के तहत आवश्यक attribution दिए बिना किया जाएगा
    • CC-BY-SA लाइसेंस यह भी मांगता है कि derivative works को भी उसी लाइसेंस के तहत साझा किया जाए
  • इसके जवाब में मैंने Stack Overflow से अपना डेटा हटाने का अनुरोध किया और अपना खाता बंद कर दिया
    • Reddit पर भी मैंने यही कदम उठाया
    • क्योंकि जिस डेटा को बनाने में मैंने योगदान दिया, वही LLM में बंद होकर मुझे फिर से बेचा जाएगा
  • Stack Overflow ने एक ही झटके में अपने मुख्य competitive advantage के स्रोत, यानी community, को अलग-थलग कर दिया
    • पहले लोग एक-दूसरे की मदद तब करते थे जब कर सकते थे, इस उम्मीद के साथ कि भविष्य में दूसरे लोग उनकी मदद करेंगे
    • अब यह आदान-प्रदान नहीं रहा, बल्कि #enshittification बन गया है
  • अब programmers भी artists और copywriters की तरह उस स्थिति में हैं जहाँ उनके काम को GenAI solutions बनाने के लिए खींच लिया गया है
  • अगर OpenAI, GitHub के Copilot की तरह code generate करने वाला LLM बनाता है, तो सवाल यह है कि AI मॉडल द्वारा लाए गए bugs के लिए मदद कहाँ से मिलेगी
    • हाल की GitClear रिपोर्ट के अनुसार, ऐसे tools "code quality पर downward pressure" पैदा करते हैं
  • यह #enshittification का एक और उदाहरण है, और DevRel जिम्मेदार लोगों के लिए एक महत्वपूर्ण सबक है
    • अगर community ही competitive advantage का स्रोत है, तो उन्हें नाराज़ नहीं करना चाहिए

14 टिप्पणियां

 
firea32 2024-05-20

लगता है enshittification कोई नया गढ़ा गया शब्द है।

 
iaesiiii 2024-05-16

<क्या इंसानों और AI के साथ अलग तरह से व्यवहार किया जाना चाहिए?>
मानव Hong Gildong इंटरनेट पर घूमता है, जिसमें Stack Overflow भी शामिल है। मान लीजिए कि वह कई लेख पढ़ता है और किसी खास विषय पर तरह-तरह का ज्ञान हासिल करता है। Gildong की आदत है कि जो कुछ वह सीखता है, उसे आसान ढंग से फिर से सामान्यीकृत और व्यवस्थित करके किसी बाहरी ब्लॉग पर लिखता है। इस स्थिति में CC लाइसेंस का कोई संबंध नहीं होता। attribution देने की भी कोई बाध्यता नहीं होती। क्योंकि यह उद्धरण नहीं, बल्कि सीखी हुई चीज़ है।

AI भी इंसानों की तरह neural network के जरिए सीखता है। यह कई sources को ज्यों का त्यों कॉपी करके नहीं बोलता। इंसानों की तरह यह भी अपने तरीके से ज्ञान का विश्लेषण करता है, अपनी समझ बनाता है, उसे फिर से व्यवस्थित करता है, और उसके आधार पर जवाब देता है।

बल्कि AI की स्वतंत्रता को सीमित करके उसे दूसरों की भाषा को ठीक वैसा ही "उद्धृत" करने के लिए मजबूर करना कुछ ज़्यादा कठिन है। इसके लिए RAG का इस्तेमाल करना आसान है, लेकिन उसे उद्धरण करने के लिए train करना उससे भी कठिन है।

लेकिन कभी-कभी AI से अलग से यह कहे बिना कि "अपनी बात मत कहो, किसी और की लिखी हुई बात (code) को ज्यों का त्यों उद्धृत करो", वह दूसरों की बात को कॉपी की तरह उगल देता है। ऐसा तब होता है जब वह source बेहद प्रसिद्ध हो। उदाहरण के लिए Shakespeare या फिल्मों के मशहूर dialogues इतने प्रसिद्ध होते हैं कि वे वैसे के वैसे निकल आते हैं। इंसान भी ऐसे प्रसिद्ध और बार-बार सामने आने वाले कंटेंट को वाक्यांशों समेत याद कर लेते हैं, और AI के साथ भी यही बात लागू होती है। ऐसे मामलों में, इंसानों की तरह AI भी आम तौर पर source अपने आप बता देता है।

निष्कर्ष यह है कि सीखकर कही गई बातों पर CC लाइसेंस और copyright का दावा किया जा सकता है या नहीं, इस पर संदेह है। पहले से ही 'learning' नहीं बल्कि 'inference' (यानी train हो चुके AI का उपयोग) के क्षेत्र में, ऊपर बताए गए कारणों से मूल source के copyright को लगभग मान्यता न देने की प्रवृत्ति दुनिया भर में एक trend बनती जा रही है।

 
roxie 2024-05-26

अच्छी टिप्पणी के लिए धन्यवाद।

डेवलपर Hong Gil-dong, SO पर देखे गए जवाबों से 'सीख'कर ब्लॉग में लिख सकता है, लेकिन अगर शोध छात्र Hong Gil-dong ने किसी और के शोधपत्र से थोड़ा भी 'उद्धरण' लिया है, तो वह उसका स्रोत छोड़ेगा। अगर हमारी यह बातचीत दर्शन या आविष्कार नहीं, बल्कि programming की दुनिया के संदर्भ में हो रही है, तो सीखना क्या है और उद्धरण क्या है?

 
bobcat 2024-05-17

आम तौर पर स्रोत का उल्लेख किया जाता है, लेकिन इसके अपवाद भी हैं.
यह हिस्सा समय के साथ सुलझ भी सकता है, लेकिन यह विवाद तब शुरू हुआ था जब Copilot ने Quake का fast invert sqrt कोड ज्यों का त्यों उठा लिया था (https://news.ycombinator.com/item?id=27710287); वह कोड इतना मशहूर था कि लोगों को तुरंत पता चल गया, लेकिन इस तरह तथाकथित copy-paste हुआ कितना कोड "generate" किया गया है, यह कोई नहीं जानता.

 
cosine20 2024-05-16

वाकई बहुत दिलचस्प नज़रिया है। इससे बहुत मदद मिली।

 
ng0301 2024-05-16

काफ़ी दिलचस्प नज़रिया है।
कोरियाई नज़रिए से देखें तो यह कुछ वैसा लगता है जैसे "समुदाय का कैफ़े किसी कारोबारी को सौंप दिया गया हो", और साथ ही "वैसे भी यह secondary creation है, तो इसमें क्या?" जैसी भावना भी है।
लेकिन मुझे यह कुछ वैसा लगता है जैसे SNS पर डाली गई मेरी तस्वीर का व्यावसायिक इस्तेमाल हो रहा हो, इसलिए यह मुझे ज़्यादा अच्छा नहीं लगता।

 
savvykang 2024-05-16

> यह इंसान की तरह अपने तरीके से ज्ञान का विश्लेषण करता है, अपने विचार खुद व्यवस्थित करता है, और उन्हें फिर से क्रमबद्ध करके कहता है।

ऐसा लगता है कि आप यह दावा कर रहे हैं कि LLM के अपने मूल्य और विचार होते हैं—क्या आपका आशय यही है? निष्कर्ष पर इसका असर नहीं पड़ता, लेकिन तर्क प्रक्रिया पर copyright लागू नहीं किया जाना चाहिए, इसके आधार के रूप में यह उचित नहीं लगता।

 
cosine20 2024-05-16

हर शब्द को tokenization करके, उसकी embedding जानकारी को latent space में ठीक से डालकर व्यवस्थित करने की प्रक्रिया को अमूर्त रूप में देखें तो मुझे लगता है कि इसकी तुलना मूल्यों और विचारों से की जा सकती है।

 
halfenif 2024-05-14

साइबरनेटीकरण के संबंध में।

किसी की यह बात याद आती है, "सिर्फ़ मूल्यवान दिमाग ही सुरक्षित रखे जाएंगे।"

 
secret3056 2024-05-14

क्या SO की तरफ़ से वाकई ईमानदारी से delete किया जाएगा? या फिर सिर्फ़ Deleted फ़्लैग सेट करके बाद में यह घोषणा की जाएगी कि "तकनीकी गलती की वजह से इसे training में इस्तेमाल कर लिया गया था"?

 
[यह टिप्पणी छिपाई गई है.]
 
savvykang 2024-05-14

> इसके अलावा, शुरुआत से ही अमेरिका ऐसा देश है जहाँ कोरिया या यूरोप के विपरीत 'भुला दिए जाने का अधिकार' पर विवाद कभी खत्म नहीं हो सकता...

मुझे इस विषय की पृष्ठभूमि की जानकारी नहीं थी, इसलिए मैंने थोड़ी देर खोजकर देखा। क्या ऐसा इसलिए है क्योंकि अभिव्यक्ति की स्वतंत्रता और भुला दिए जाने का अधिकार आपस में टकराते हैं? और क्योंकि अभी तक इस पर सहमति नहीं बनी है, इसलिए कानून भी नहीं बना है?

 
jayuloy 2024-05-14

वाह, सच में ऐसा भी हो सकता है।