सारांश
-
बड़े भाषा मॉडल (LLM) का प्रभाव
बड़े भाषा मॉडल (LLM) में मानव-निर्मित डेटा और ज्ञान संसाधनों का विकल्प बनने की क्षमता है। लेकिन यह प्रतिस्थापन भविष्य के मॉडल विकास के लिए आवश्यक ट्रेनिंग डेटा में कमी की समस्या पैदा कर सकता है। इस अध्ययन में दस्तावेज़ित किया गया है कि ChatGPT के लॉन्च के साथ Stack Overflow की गतिविधि में गिरावट आई। -
ChatGPT का प्रभाव
ChatGPT के लॉन्च के 6 महीनों के भीतर Stack Overflow की गतिविधि, रूस और चीन के समान प्लेटफ़ॉर्म्स तथा गणित फ़ोरम्स की तुलना में 25% घट गई। इसे Stack Overflow पर ChatGPT के वास्तविक प्रभाव की निचली सीमा के रूप में समझा जाता है। सबसे अधिक उपयोग की जाने वाली प्रोग्रामिंग भाषाओं से जुड़े पोस्ट्स में गिरावट और अधिक थी। -
LLM का प्रतिस्थापन प्रभाव
LLM केवल दोहरावदार या कम-गुणवत्ता वाले कंटेंट का ही नहीं, बल्कि उच्च-गुणवत्ता वाले कंटेंट का भी स्थान ले रहे हैं। ChatGPT उपयोगकर्ताओं के Stack Overflow पर पोस्ट करने की संभावना कम होती है और वे प्लेटफ़ॉर्म पर नियमित रूप से भी नहीं आते। यह संकेत देता है कि LLM का तेज़ अपनाव, ट्रेनिंग के लिए आवश्यक सार्वजनिक डेटा के उत्पादन को कम कर सकता है, जिससे महत्वपूर्ण परिणाम सामने आ सकते हैं। -
प्रोग्रामिंग भाषाओं के अनुसार प्रभाव
Python और Javascript जैसी व्यापक रूप से उपयोग होने वाली भाषाओं में ChatGPT का प्रभाव अधिक बड़ा है। CUDA जैसी कुछ विशिष्ट भाषाओं में ChatGPT के लॉन्च के बाद पोस्ट्स बढ़े। यह दिखाता है कि AI-संबंधित सॉफ़्टवेयर में रुचि बढ़ रही है।
GN⁺ की टिप्पणी
- यह अध्ययन ChatGPT जैसे बड़े भाषा मॉडल्स का ऑनलाइन Q&A प्लेटफ़ॉर्म्स पर प्रभाव का विश्लेषण करके इस बात पर ज़ोर देता है कि AI का तेज़ अपनाव सार्वजनिक डेटा के उत्पादन पर नकारात्मक असर डाल सकता है।
- जैसे-जैसे ChatGPT का उपयोग बढ़ता है, Stack Overflow जैसे प्लेटफ़ॉर्म्स की गतिविधि घटती है, और इससे भविष्य के AI मॉडल्स के ट्रेनिंग डेटा की गुणवत्ता प्रभावित हो सकती है।
- ये बदलाव डिजिटल अर्थव्यवस्था और जानकारी तक पहुँचने के तरीकों पर महत्वपूर्ण प्रभाव डाल सकते हैं, और इससे AI ecosystem की sustainability को लेकर चिंताएँ उठती हैं।
- समान कार्यक्षमता वाले अन्य प्रोजेक्ट्स में GitHub की प्रोग्रामिंग भाषा-संबंधित repositories शामिल हैं।
1 टिप्पणियां
Hacker News की राय
आखिरकार असली सवाल यह है कि LLM किसे आधार बनाएगा। यह नई जानकारी बनाता नहीं, बल्कि मौजूदा जानकारी को दोहराकर और जोड़कर काम करता है, इसलिए ऐसे code में जहाँ public samples या Stack Overflow/Reddit answers पर्याप्त नहीं हैं, इसका प्रदर्शन काफी गिर जाता है
काम करने वाले समाधान तक पहुँचने के लिए कुछ बार आगे-पीछे करना पड़ा, लेकिन आखिरकार हो गया। इससे यह जिज्ञासा होती है कि AI ने इंटरनेट पर मौजूद obscure सामग्री को अच्छी तरह ढूँढकर समझा, या फिर उसने कठिन documentation को मुझसे बेहतर समझ लिया। अगर दूसरा सच है, तो public samples की ज़रूरत कम हो सकती है
झुकाव पहले से ही उन technologies की तरफ है जिन्हें LLM अच्छी तरह संभालता है, और थोड़ा बेहतर language या framework के लाभ से बड़ा फायदा यह है कि आप LLM से समस्या का 90% हल करवा सकते हैं। मुझे language के रूप में Python खास पसंद नहीं, लेकिन यह मानना मुश्किल है कि LLM Python में कई दूसरी भाषाओं से बहुत बेहतर काम करता है
मैं यह आँकड़ा गढ़ रहा हूँ, लेकिन इसे बचाव के साथ कह सकता हूँ: Stack Overflow की 90% जानकारी कहीं न कहीं किसी manual की दोहराई हुई बात है। समस्या यह है कि ज़रूरी जानकारी संबंधित docs में ढूँढना कठिन होता है, और मिल भी जाए तो पढ़ना मुश्किल हो सकता है, जबकि LLM docs पढ़ने और समझने में बहुत अच्छा है
एक-दो prompts से पूरा app तुरंत बना देने वाले tech demos कमज़ोर होते हैं। अगर उसे यह नहीं पता कि वह क्या कर रहा है, तो features जोड़ते समय वह API call का तरीका, state management का तरीका, और CSS library बार-बार बदल देगा। उदाहरण के लिए, किसी file में पहले से native
fetchfunction के 3 इस्तेमाल हों, फिर भी वह अचानक बिना कारणaxiosinstall करके इस्तेमाल करने को कह देगाकभी-कभी वह
{/* rest of your functions here*}जैसे हिस्से भी मिटा देता हैकुछ समय बाद लगता है कि इसे सिर्फ loops या
switchजैसे उबाऊ कामों में ही सुरक्षित रूप से इस्तेमाल किया जा सकता है, इसलिए developers की नौकरियाँ फिलहाल सुरक्षित दिखती हैंपेपर कहता है कि LLM public knowledge sharing को कम कर रहा है, और इसका असर सिर्फ duplicate, low-quality, beginner-level content को replace करने तक सीमित नहीं है, लेकिन दावा कमज़ोर है और प्रभाव भी शीर्षक जितना सनसनीखेज नहीं
पहली बात, LLM low-quality posts को replace कर रहा है—इस प्रस्तावित test के लिए सिर्फ Figure 3 दिखाया गया है, regression results नहीं। जबकि users को इस तरह मनमाने ढंग से अनुभवी मानने वाले test—जैसे किसी ने 10 posts किए हों—की रिपोर्ट दी गई है। यह सवाल उठता है कि post quality के हिसाब से test क्यों छोड़ा गया, लेकिन मनमाने “experience” buckets के नतीजे क्यों दिखाए गए
दूसरी बात, Figure 3 खुद अच्छे और neutral questions के trend changes दिखाता है। अच्छे सवाल गिरावट में थे और फिर सपाट हो गए, neutral सवाल बढ़ रहे थे और फिर सपाट हो गए। खराब सवाल लगातार घटते रहे और उनमें कोई खास trend change नहीं दिखा। यह तो उल्टा इस निष्कर्ष की ओर इशारा करता है कि LLM low-quality content को replace कर रहा है
नतीजे को और मजबूत भाषा की ज़रूरत थी, और अध्ययन सावधानीपूर्वक होने के बावजूद कम चौंकाने वाले परिणामों की भरपाई नहीं कर पाता। इसलिए लगता है कि सनसनीखेज शीर्षक और कुछ छूटे हुए-से नतीजे सामने आए हैं
लोग पहले की तरह public forums पर खुलकर जानकारी साझा नहीं कर रहे, बल्कि Discord जैसी services की ओर हटकर moat खोद रहे हैं और drawbridge उठा रहे हैं। इसके लिए उन्हें दोष देना भी आसान नहीं। कई forums और social media platforms ने धीरे-धीरे अधिक hostile design और monetization अपना लिया है, और AI/LLM हर जगह crawl करके सब कुछ सोख लेते हैं, फिर उसे paywall के पीछे रख देते हैं, जिससे मूल स्रोत के search में मिलने की संभावना घट जाती है। engagement बढ़ाने वाले algorithms कटुता और बहस को बढ़ाते हैं। आजकल HN एक दुर्लभ अपवाद है
नतीजा यह है कि खास रुचि या ज्ञान वाले लोग private communities में जाकर सिर्फ आपस में बात करते हैं, और नए लोगों के लिए प्रवेश और भी कठिन हो जाता है
लोगों का Stack Overflow में मुफ्त योगदान कम करना स्वाभाविक है। Stack Overflow OpenAI API contract और अनगिनत “AI” hype blog posts के जरिए contributors को बेच रहा है
मेरी नज़र में, open source projects से जुड़े काफ़ी सवाल GitHub और Discord पर चले गए हैं, इसलिए LLM के अलावा platform shift भी हुआ है
ज़्यादा सामान्य programming समस्याओं के लिए मैं Gemini से शुरू करना पसंद करता हूँ। वह अक्सर मेरी समस्या की terminology में सीधे जवाब दे देता है, इसलिए कई pages खंगालकर चीज़ें जोड़ने की ज़रूरत नहीं पड़ती, या अगर जवाब गलत भी हो तो कम-से-कम search शुरू करने के लिए बेहतर सुराग मिल जाता है। इससे उन Stack Overflow posts पर बार-बार click करने का समय बचता है जिनके titles मिलते-जुलते होते हैं लेकिन content में महत्वपूर्ण अंतर होता है
2024: Discord AI sludge generators में index नहीं होता, इसलिए अच्छा है
मैं कई तकनीकी subreddit सब्सक्राइब करता हूँ, और पिछले 2 सालों में मैंने एक ही सवाल को कई subreddit में फैलाया जाता बहुत देखा है। अकाउंट नए बनाए गए होते हैं, या सारे जवाब ऑटो-जनरेटेड जैसे दिखने वाले सामान्य एक-पंक्ति उत्तर होते हैं
मैं इन्हें AI training के लिए bot accounts मानता हूँ, और लंबा तकनीकी जवाब लिखने से पहले पहले यह जांच करता हूँ कि सवाल पूछने वाला सच में इंसान है या नहीं, तभी जवाब देता हूँ
आख़िरकार WWW के ज़रिए “उपहार संस्कृति”, “ज्ञान मुक्त होना चाहिए”, F/OSS आदि की सफलता शायद Stallman-शैली की पूरी hacker ethics को बुरा दिखाने लगेगी
हम सब IBM^H^H^HOpenAI के लिए काम कर रहे हैं, लेकिन अब हमें सहारा देने के लिए GPL जैसी कोई चीज़ नहीं है
अगर यह déjà vu जैसा लग रहा है, तो वजह यह है कि यह बात आलोचकों ने जुलाई 2023 में ही “Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow” के ज़रिए काफ़ी उभार दी थी: https://arxiv.org/abs/2307.07367
इस पर HN में भी चर्चा हुई थी: https://news.ycombinator.com/item?id=36763718
संबंधित रूप से https://meta.stackoverflow.com/questions/425635 और https://meta.stackoverflow.com/questions/422392 भी हैं
आख़िरकार large language models open source का अंत बनेंगे। इसे स्वीकार कर लेना चाहिए
large language models का इस्तेमाल intellectual property को aggregate और interpolate करने के लिए होता है। इस प्रक्रिया में न तो लेखकों या वंशानुक्रम की कोई मान्यता होती है, न attribution या citation। व्यवहार में, model training में इस्तेमाल की गई intellectual property एक अनाम shared commons बन जाती है
open source काम की प्रेरणा बनने वाले social rewards, जैसे credit और respect, कमजोर पड़ जाते हैं। और इसी तरह इसका अंत होगा
योगदान की लागत नाटकीय रूप से कम हो जाती है। उदाहरण के लिए, 100 डॉलर में GPT-3.5 के 20 करोड़ tokens मिलते हैं, यानी 20,000 लाइन वाले प्रोजेक्ट की हर लाइन विकसित करने पर 10,000 tokens खर्च करने जैसा
एक donation और आधे दिन के workflow framework प्रबंधन से संभव एक मध्यम आकार की परियोजना
अगर LLM open source का अंत हैं, तो वजह वही होगी जो आपने कही: वे intellectual property को aggregate और interpolate करते हैं, और लेखक, वंशानुक्रम, या attribution के बिना सीखी गई intellectual property को अनाम shared commons में बदल देते हैं
लेकिन अगर यह सच है और इसे जारी रहने दिया जाता है, तो copyright पर निर्भर हर तरह की intellectual property भी उसी तरह ख़तरे में है। यह सिर्फ open source की अनोखी समस्या नहीं है। अगर मतलब यह है कि non-open-source रचनाएँ “source” या उसके समकक्ष को गुप्त रखकर सुरक्षित रहेंगी, तो मुझे नहीं पता कि ऐसी blockbuster फ़िल्म से पैसे कैसे कमाए जाएँगे जिसे किसी को दिखाया ही न जा सके, या ऐसा उपन्यास जिसे किसी को पढ़ने ही न दिया जाए
credit और respect ही open source काम की एकमात्र प्रेरणा नहीं हैं, और मुझे संदेह है कि वे सबसे आम प्रेरणा भी हैं। ऐसे इनाम उस छवि के ज़्यादा करीब हैं जिसे open source को social network या gamify करने की कोशिश करने वाले लोग दिखाना चाहते हैं
और यह भी साफ़ नहीं है कि ये चीज़ें गायब क्यों हो जानी चाहिएँ। कैमरा के आविष्कार से portrait painters का कलात्मक आनंद ख़त्म नहीं हो गया था। शुद्ध रूप से आर्थिक प्रेरणाएँ चोट खा सकती हैं, लेकिन यह open source के लिए कोई विशिष्ट, अनोखी प्रेरणा नहीं है
LLM training में मूल्य पा चुके मानव-निर्मित text corpora को closed garden की तरह बनाए रखने की कोशिश हारने वाली लड़ाई है। शायद घोड़ा पहले ही अस्तबल से निकल चुका है
फिर भी, मुझे यह एक अस्थायी समस्या लगती है। LLM एक संक्रमणकालीन तकनीक है। कभी न कभी ऐसा समय आएगा जब Reddit का पूरा डेटा और अब तक लिखी गई हर चीज़ को एक साथ train करने की ज़रूरत नहीं रहेगी। इन statistical models की स्पष्ट सीमाएँ हैं, और इंसान ऐसे नहीं सीखते। किसी इंसान ने जीवन भर में सैकड़ों, शायद हज़ारों किताबें पढ़ी होंगी, लेकिन दस लाख किताबें नहीं, और उसकी ज़रूरत भी नहीं होती
दिलचस्प बात यह है कि यह मुद्दा साफ़ तौर पर चोरी होने के बावजूद, इसे डेटा “own” करने वाली sites या companies से चोरी की तरह देखा जाता है, न कि उसे बनाने वाले users से चोरी की तरह। user-generated content sites आख़िरकार विफल होने के लिए ही बनी लगती हैं। उनके प्रोत्साहन users से मेल नहीं खाते, और अंतहीन मुनाफ़ाखोरी अंततः users को दूर कर देती है
एक और समस्या यह है कि intellectual property का कितना उपभोग करने पर वह चोरी बन जाता है। अगर किसी LLM ने अब तक बनी हर फ़िल्म देख ली हो, तो शायद वह चोरी मानी जाएगी। लेकिन कितनी फ़िल्मों के बाद वह “बहुत ज़्यादा” हो जाता है? Apocalypse Now, Heart of Darkness पर loosely based या inspired थी, लेकिन कोई यह नहीं कह सकता कि किसी इंसान ने Heart of Darkness पढ़ ली तो वह “चोरी” है
जैसा कहा जाता है, सारी कला व्युत्पन्न होती है
यह कविता और साहित्य बना सकता है, और code, physics के जवाब, या car repair के जवाब भी लगभग उसी तरह generate कर सकता है। आजकल ऐसी क्षमता वाले इंसान बहुत दुर्लभ हैं
इसलिए मैं इस बात से सहमत हूँ कि LLM संक्रमणकालीन हैं, लेकिन उसी अर्थ में जैसे basal ganglia से neocortex तक जाने वाली दिमाग़ की संक्रमणशीलता। भविष्य के general AI brain में LLM दूसरे तत्वों के साथ शामिल हो सकता है, लेकिन यह ज़रूरी नहीं कि वह मानव मस्तिष्क की तरह ही evolve करे
LLM tools या libraries की official documentation पर train हो सकते हैं, लेकिन tech industry में बहुत आम अजीब समस्याओं पर खुद प्रयोग करके समाधान नहीं ढूँढ़ सकते। अगर लोग ऐसे समाधान एक-दूसरे के साथ साझा करना बंद कर दें, तो यह बड़ी समस्या बन सकती है
उदाहरण के लिए, क्या reinforcement learning और generative adversarial networks का इस्तेमाल करके ऐसा AI train किया जा सकता है जो documents के एक bundle के आधार पर IT tasks करे, और जिसकी fitness सिर्फ़ task की सीधी सफलता से नहीं बल्कि इस क्षमता से भी मापी जाए कि वह नए, ज़्यादा परिष्कृत documents बना सके, ताकि उसका कोई self-copy, जिसके पास कोई context ही न हो, वही task अच्छी तरह कर सके
अलग-अलग spiritual gurus को एक ही बात अलग शब्दों में कहते सुनना वैसा है जैसे kaleidoscope में उसी रंगीन काँच के टुकड़ों को फिर से सजाकर नया pattern बनते देखना
इसलिए अगर भविष्य का AI भी आज के ChatGPT की तरह औसत लोगों के लिए लगभग हर चीज़ पर सलाह लेने का माध्यम बना रहता है, तो मुझे लगता है कि अंततः उसे सब कुछ पढ़ना ही पड़ेगा
लोग वहाँ पोस्ट नहीं करते जहाँ लोग आते ही नहीं
प्रसिद्ध सामग्री, खासकर लोकप्रिय भाषाओं के लिए, लोग Stack Overflow पर इसलिए नहीं जाते क्योंकि perplexity.ai, ChatGPT, Claude वगैरह न सिर्फ़ Stack Overflow pages पढ़ने से बेहतर ढंग से सवालों के जवाब देते हैं, बल्कि सही हों या ग़लत, जवाब को और तेज़ी से copy-paste करने देते हैं
अगर आप सवाल पूछने के लिए Stack Overflow पर ही नहीं हैं, तो आप वहाँ जवाब भी नहीं देंगे। देखे गए रुझानों को समझाने के लिए किसी और वजह की ज़रूरत नहीं
बेशक, इसका मतलब यह है कि Stack Overflow और दूसरे Q&A forums को प्रतिस्पर्धा करनी है तो उन्हें answer usability, यानी जवाब को workflow में शामिल करने की सुविधा, को सर्वोच्च प्राथमिकता देनी होगी
AI वास्तव में “सवालों का बेहतर जवाब” नहीं देता। वह बस सवाल की व्याख्या करने और उसे जवाब जैसी दिखने वाली शब्द-सरणियों से मिलाने के बीच के चरण को काट देता है। यह अक्सर hallucination करता है, और आप क्या करने की कोशिश कर रहे हैं, इसकी कोई वास्तविक sanity check लगभग नहीं करता
Q&A forums की तुलना में speed और convenience में इसकी बढ़त का मुख्य कारण यह है कि उसे इस बात की बिल्कुल परवाह नहीं होती कि सवाल और जवाब बाद में किसी और के काम आ सकते हैं या नहीं। वह इस आवश्यकता की परवाह नहीं करता कि सामग्री search engines से मिल सके, दूसरे लोग उसे वही सवाल समझ सकें, और वह एक ही issue पर केंद्रित हो
वैसे भी उसे इसी तरह design नहीं किया गया, और ऐसा करने में उसका कोई लाभ भी नहीं है। अगली बार कोई और पूछेगा तो वही जवाब फिर किसी दूसरी low-quality शैली में generate कर देगा। मानव विशेषज्ञों के विपरीत, AI इस काम से थकता नहीं है