क्या बड़े भाषा मॉडल डिजिटल सार्वजनिक संसाधनों के लिए खतरा बन सकते हैं?

kuroneko · 2023-07-18T15:33:20+09:00

ChatGPT के बाद Stack Overflow की गतिविधि के आधार पर वेब कंटेंट पर LLM के प्रभाव का विश्लेषण। ChatGPT के बाद Stack Overflow की गतिविधि 16%~25% तक घटी है। जितनी अधिक इस्तेमाल की जाने वाली और प्रसिद्ध भाषाएँ हैं, गिरावट उतनी ही अधिक है। यह आँकड़ा उन चीनी और रूसी साइटों, जहाँ ChatGPT अवरुद्ध है, या उन गणित-संबंधित साइटों की तुलना पर आधारित है जिन्हें AI के लिए बदलना कठिन है। पोस्ट पर वोटों की संख्या में बदलाव नहीं आया, इसलिए यह नहीं कहा जा सकता कि जवाबों की गुणवत्ता बेहतर हुई है। इसका मतलब है कि ChatGPT के बाद मानव-निर्मित डेटा कम हो रहा है। इसके चलते कई तरह की समस्याएँ पैदा हो सकती हैं। पूरे इंटरनेट में उपलब्ध सामग्री की मात्रा और गुणवत्ता घट सकती है, और AI training data की दक्षता भी कम हो सकती है। ChatGPT का डेटा OpenAI के एकाधिकार स्वामित्व में होने के कारण, कंपनियों के बीच तकनीकी अंतर और बढ़ सकता है। यह मनुष्यों की खोज की सीमा को संकुचित कर सकता है, और नए उत्पादों या उन भाषाओं के विकास को धीमा कर सकता है जिन्हें AI ने नहीं सीखा है। जिन देशों या आय-वर्गों को LLM के लाभ आसानी से नहीं मिलते, उनके बीच असमानता और बढ़ सकती है। टिकाऊ वेब और AI ecosystem के लिए यह एक ऐसा मुद्दा है जिस पर गंभीरता से विचार किया जाना चाहिए।

(arxiv.org)

11 पॉइंट द्वारा kuroneko 2023-07-18 | 5 टिप्पणियां | WhatsApp पर शेयर करें

ChatGPT के बाद Stack Overflow की गतिविधि के आधार पर वेब कंटेंट पर LLM के प्रभाव का विश्लेषण।
ChatGPT के बाद Stack Overflow की गतिविधि 16%~25% तक घटी है।
- जितनी अधिक इस्तेमाल की जाने वाली और प्रसिद्ध भाषाएँ हैं, गिरावट उतनी ही अधिक है।
- यह आँकड़ा उन चीनी और रूसी साइटों, जहाँ ChatGPT अवरुद्ध है, या उन गणित-संबंधित साइटों की तुलना पर आधारित है जिन्हें AI के लिए बदलना कठिन है।
पोस्ट पर वोटों की संख्या में बदलाव नहीं आया, इसलिए यह नहीं कहा जा सकता कि जवाबों की गुणवत्ता बेहतर हुई है।
इसका मतलब है कि ChatGPT के बाद मानव-निर्मित डेटा कम हो रहा है।
इसके चलते कई तरह की समस्याएँ पैदा हो सकती हैं।
- पूरे इंटरनेट में उपलब्ध सामग्री की मात्रा और गुणवत्ता घट सकती है, और AI training data की दक्षता भी कम हो सकती है।
- ChatGPT का डेटा OpenAI के एकाधिकार स्वामित्व में होने के कारण, कंपनियों के बीच तकनीकी अंतर और बढ़ सकता है।
- यह मनुष्यों की खोज की सीमा को संकुचित कर सकता है, और नए उत्पादों या उन भाषाओं के विकास को धीमा कर सकता है जिन्हें AI ने नहीं सीखा है।
- जिन देशों या आय-वर्गों को LLM के लाभ आसानी से नहीं मिलते, उनके बीच असमानता और बढ़ सकती है।
टिकाऊ वेब और AI ecosystem के लिए यह एक ऐसा मुद्दा है जिस पर गंभीरता से विचार किया जाना चाहिए।

5 टिप्पणियां

soupdog 2023-07-25

लगता है कि language models, Stack Overflow जैसी बातचीत की जगह लेते हुए, लोगों के आपसी संवाद से इंटरनेट पर साझा होने वाला ज्ञान धीरे-धीरे कम कर रहे हैं। अगर हम cathedral और bazaar के रूपक का सहारा लें, तो यह सही मायने में किसी के एकाधिकार वाले cathedral में बदलता हुआ लगता है।

laeyoung 2023-07-19

चिंता की बात तो है ही, लेकिन मैंने व्यक्तिगत रूप से जो सबसे बड़ी समस्या महसूस की है, वह यह है कि अर्थशास्त्र में जिस बात को "खराब मुद्रा अच्छी मुद्रा को बाहर कर देती है" कहा जाता है, वैसी स्थिति बन रही है।

ChatGPT आने से पहले Google ads की approval पाने के लिए, पिछले साल के अंत तक ब्लॉग पर लगभग 8 पोस्ट लिखना काफ़ी होता था। अब तो उसका दोगुना लिखने पर भी content की कमी या invalid content कहकर approval नहीं मिलता। जबकि वे सभी लेख मैंने खुद हाथ से लिखे थे।

AI से अपने-आप generated ब्लॉग बढ़ने लगे, तो AdSense approval के मानदंड ऊपर चले गए, और इसका अंत कहाँ है यह भी पता नहीं। इसी वजह से करीब 3 महीने तक movie reviews लिखने वाले अपने ब्लॉग के लिए मैंने AdSense approval लेना छोड़ दिया है।

जाँच करने वाली तरफ़ से यह पहचानना मुश्किल है कि यह अच्छी सामग्री है या नहीं (यानी इंसान ने लिखी है या नहीं), या खराब सामग्री है (AI से बनाई गई है, या AI से बनाकर बाद में संपादित की गई है)। इसलिए वे मानदंड और कड़े करने की दिशा में जाएंगे। आखिरकार, मुझे लगता है कि हम फिर वैसा ही दृश्य देख सकते हैं जैसा हमने इस साल की शुरुआत में देखा था, जब सिर्फ़ अपने-आप generated वेब पेज ही Google search results में ऊपर दिखाई दे रहे थे।

cosine20 2023-07-19

मैं तो इसे उलटे ज़्यादा सकारात्मक नज़रिए से देखता हूँ.
पारंपरिक information search के तरीके में दो चीज़ों की ज़रूरत होती थी: "search engine में सही search query डालने की क्षमता" और "search results में से वह नतीजा चुनने की क्षमता जो मैं वास्तव में चाहता था"। इससे होने वाली थकान काफ़ी ज़्यादा थी.
मैं सिर्फ़ कोई साधारण काम करने वाला code ढूँढना चाहता हूँ, लेकिन search results में दिखने वाली StackOverflow पोस्ट पर जाएँ तो तीन-चार answer code होते हैं; उनमें से कुछ पुराने language spec के होने की वजह से जटिल माने जाते हैं और downvote पाते हैं, कुछ accepted तो होते हैं लेकिन version upgrade के बाद अब ठीक से काम नहीं करते, इसलिए comments में लोग उत्साह से अपनी असुविधा जताते रहते हैं और आपस में समाधान खोजते रहते हैं। ऐसी चीज़ें सोचने से ज़्यादा बार होती रही हैं.

आख़िरकार बड़े परिप्रेक्ष्य में देखें तो information age के बाद से "जानकारी की बाढ़ में से वह जानकारी चुनने की क्षमता जिसकी मुझे सच में ज़रूरत है" अब भी उतनी ही ज़रूरी है, लेकिन मुझे मिलने वाले विकल्प इतने ज़्यादा हो गए हैं कि उनका आकलन करना झंझट भरा और थकाऊ लगता है.

इस लिहाज़ से, अच्छी तरह trained large language model लोगों द्वारा अक्सर खोजी जाने वाली बहुत trivial जानकारी से लेकर कुछ हद तक high-level जानकारी तक को एक तर्कसंगत UX में दे सकते हैं, इसलिए मुझे लगता है कि उलटे कुछ हद तक division of labor संभव हो सकता है.
LLM के लिए जिन चीज़ों में उचित जवाब पाना मुश्किल है—जैसे बिल्कुल ताज़ा जानकारी, या ऐसे जटिल सवाल जिनमें कई तरह के context आपस में उलझे हों—उन्हें StackOverflow जैसी Q&A services संभाल सकती हैं.

हालाँकि, मेरे विचार से यह अब भी एक चुनौती है कि क्या LLM उतनी ही सटीक जानकारी को स्पष्ट आधारों के साथ छाँटकर आम लोगों तक पहुँचा सकता है.

kuroneko 2023-07-18

HN थ्रेड

बेशक यह सिर्फ कुछ साइटों पर किया गया सीमित अध्ययन है, इसलिए इसमें पक्षपात की संभावना काफ़ी हो सकती है,
लेकिन आखिरकार कई मायनों में तकनीकी खाई और बढ़ सकती है, यह बात सचमुच जोखिम भरी लगती है।

टिप्पणियों में एक बात थी: "AI लोगों द्वारा लिखे गए कंटेंट के मूल्य से पैदा होने वाले पैसे को AI कंपनियों की ओर मोड़ देता है, जिससे संपत्ति का केंद्रीकरण होता है",
और यह बात काफ़ी सही लगती है।

jujumilk3 2023-07-18

अरे, emoji नहीं लग रहा है। मैं सहमत हूँ।

क्या बड़े भाषा मॉडल डिजिटल सार्वजनिक संसाधनों के लिए खतरा बन सकते हैं?

संबंधित पढ़ाई

5 टिप्पणियां