- ChatGPT के बाद Stack Overflow की गतिविधि के आधार पर वेब कंटेंट पर LLM के प्रभाव का विश्लेषण।
- ChatGPT के बाद Stack Overflow की गतिविधि 16%~25% तक घटी है।
- जितनी अधिक इस्तेमाल की जाने वाली और प्रसिद्ध भाषाएँ हैं, गिरावट उतनी ही अधिक है।
- यह आँकड़ा उन चीनी और रूसी साइटों, जहाँ ChatGPT अवरुद्ध है, या उन गणित-संबंधित साइटों की तुलना पर आधारित है जिन्हें AI के लिए बदलना कठिन है।
- पोस्ट पर वोटों की संख्या में बदलाव नहीं आया, इसलिए यह नहीं कहा जा सकता कि जवाबों की गुणवत्ता बेहतर हुई है।
- इसका मतलब है कि ChatGPT के बाद मानव-निर्मित डेटा कम हो रहा है।
- इसके चलते कई तरह की समस्याएँ पैदा हो सकती हैं।
- पूरे इंटरनेट में उपलब्ध सामग्री की मात्रा और गुणवत्ता घट सकती है, और AI training data की दक्षता भी कम हो सकती है।
- ChatGPT का डेटा OpenAI के एकाधिकार स्वामित्व में होने के कारण, कंपनियों के बीच तकनीकी अंतर और बढ़ सकता है।
- यह मनुष्यों की खोज की सीमा को संकुचित कर सकता है, और नए उत्पादों या उन भाषाओं के विकास को धीमा कर सकता है जिन्हें AI ने नहीं सीखा है।
- जिन देशों या आय-वर्गों को LLM के लाभ आसानी से नहीं मिलते, उनके बीच असमानता और बढ़ सकती है।
- टिकाऊ वेब और AI ecosystem के लिए यह एक ऐसा मुद्दा है जिस पर गंभीरता से विचार किया जाना चाहिए।
5 टिप्पणियां
लगता है कि language models, Stack Overflow जैसी बातचीत की जगह लेते हुए, लोगों के आपसी संवाद से इंटरनेट पर साझा होने वाला ज्ञान धीरे-धीरे कम कर रहे हैं। अगर हम cathedral और bazaar के रूपक का सहारा लें, तो यह सही मायने में किसी के एकाधिकार वाले cathedral में बदलता हुआ लगता है।
चिंता की बात तो है ही, लेकिन मैंने व्यक्तिगत रूप से जो सबसे बड़ी समस्या महसूस की है, वह यह है कि अर्थशास्त्र में जिस बात को "खराब मुद्रा अच्छी मुद्रा को बाहर कर देती है" कहा जाता है, वैसी स्थिति बन रही है।
ChatGPT आने से पहले Google ads की approval पाने के लिए, पिछले साल के अंत तक ब्लॉग पर लगभग 8 पोस्ट लिखना काफ़ी होता था। अब तो उसका दोगुना लिखने पर भी content की कमी या invalid content कहकर approval नहीं मिलता। जबकि वे सभी लेख मैंने खुद हाथ से लिखे थे।
AI से अपने-आप generated ब्लॉग बढ़ने लगे, तो AdSense approval के मानदंड ऊपर चले गए, और इसका अंत कहाँ है यह भी पता नहीं। इसी वजह से करीब 3 महीने तक movie reviews लिखने वाले अपने ब्लॉग के लिए मैंने AdSense approval लेना छोड़ दिया है।
जाँच करने वाली तरफ़ से यह पहचानना मुश्किल है कि यह अच्छी सामग्री है या नहीं (यानी इंसान ने लिखी है या नहीं), या खराब सामग्री है (AI से बनाई गई है, या AI से बनाकर बाद में संपादित की गई है)। इसलिए वे मानदंड और कड़े करने की दिशा में जाएंगे। आखिरकार, मुझे लगता है कि हम फिर वैसा ही दृश्य देख सकते हैं जैसा हमने इस साल की शुरुआत में देखा था, जब सिर्फ़ अपने-आप generated वेब पेज ही Google search results में ऊपर दिखाई दे रहे थे।
मैं तो इसे उलटे ज़्यादा सकारात्मक नज़रिए से देखता हूँ.
पारंपरिक information search के तरीके में दो चीज़ों की ज़रूरत होती थी: "search engine में सही search query डालने की क्षमता" और "search results में से वह नतीजा चुनने की क्षमता जो मैं वास्तव में चाहता था"। इससे होने वाली थकान काफ़ी ज़्यादा थी.
मैं सिर्फ़ कोई साधारण काम करने वाला code ढूँढना चाहता हूँ, लेकिन search results में दिखने वाली StackOverflow पोस्ट पर जाएँ तो तीन-चार answer code होते हैं; उनमें से कुछ पुराने language spec के होने की वजह से जटिल माने जाते हैं और downvote पाते हैं, कुछ accepted तो होते हैं लेकिन version upgrade के बाद अब ठीक से काम नहीं करते, इसलिए comments में लोग उत्साह से अपनी असुविधा जताते रहते हैं और आपस में समाधान खोजते रहते हैं। ऐसी चीज़ें सोचने से ज़्यादा बार होती रही हैं.
आख़िरकार बड़े परिप्रेक्ष्य में देखें तो information age के बाद से "जानकारी की बाढ़ में से वह जानकारी चुनने की क्षमता जिसकी मुझे सच में ज़रूरत है" अब भी उतनी ही ज़रूरी है, लेकिन मुझे मिलने वाले विकल्प इतने ज़्यादा हो गए हैं कि उनका आकलन करना झंझट भरा और थकाऊ लगता है.
इस लिहाज़ से, अच्छी तरह trained large language model लोगों द्वारा अक्सर खोजी जाने वाली बहुत trivial जानकारी से लेकर कुछ हद तक high-level जानकारी तक को एक तर्कसंगत UX में दे सकते हैं, इसलिए मुझे लगता है कि उलटे कुछ हद तक division of labor संभव हो सकता है.
LLM के लिए जिन चीज़ों में उचित जवाब पाना मुश्किल है—जैसे बिल्कुल ताज़ा जानकारी, या ऐसे जटिल सवाल जिनमें कई तरह के context आपस में उलझे हों—उन्हें StackOverflow जैसी Q&A services संभाल सकती हैं.
हालाँकि, मेरे विचार से यह अब भी एक चुनौती है कि क्या LLM उतनी ही सटीक जानकारी को स्पष्ट आधारों के साथ छाँटकर आम लोगों तक पहुँचा सकता है.
बेशक यह सिर्फ कुछ साइटों पर किया गया सीमित अध्ययन है, इसलिए इसमें पक्षपात की संभावना काफ़ी हो सकती है,
लेकिन आखिरकार कई मायनों में तकनीकी खाई और बढ़ सकती है, यह बात सचमुच जोखिम भरी लगती है।
टिप्पणियों में एक बात थी: "AI लोगों द्वारा लिखे गए कंटेंट के मूल्य से पैदा होने वाले पैसे को AI कंपनियों की ओर मोड़ देता है, जिससे संपत्ति का केंद्रीकरण होता है",
और यह बात काफ़ी सही लगती है।
अरे, emoji नहीं लग रहा है। मैं सहमत हूँ।