- ऑनलाइन विश्वकोश Wikipedia ने हाल ही में बताया कि AI खोज सारांश और सोशल मीडिया वीडियो के कारण लोगों की सीधे वेबसाइट पर जाने की संख्या कम हो रही है।
- Wikimedia Foundation ने बताया कि मानव विज़िटर पिछले वर्ष की तुलना में 8% घटी हैं, और यह बॉट डिटेक्शन सिस्टम के अपडेट के बाद सिर्फ वास्तविक मानव ट्रैफिक को गिने जाने का परिणाम है।
- जब जनरेटिव AI खोज परिणाम सीधे जवाब दे देते हैं, तो वेबसाइट क्लिक में गिरावट आती है; साथ ही नई पीढ़ी TikTok जैसे सोशल वीडियो प्लेटफॉर्म का उपयोग जानकारी खोजने के लिए अधिक करने लगी है।
- Wikipedia ने खुद AI सारांश फीचर पर प्रयोग रोक दिया है, और यह कहा है कि AI तथा सर्च इंजन कंपनियों को स्रोत उल्लेख और साइट विज़िट के लिए प्रेरित करने की जवाबदेही लेनी चाहिए।
- उसने यह भी कहा कि “AI द्वारा इस्तेमाल किए जाने वाले ज्ञान का स्रोत अभी भी मानव-निर्मित कंटेंट ही है”, और विश्वसनीय स्रोत सत्यापन तथा मानव-क्यूरेटेड ज्ञान के मूल्य को समझने पर जोर दिया।
Wikipedia ट्रैफिक में गिरावट की स्थिति
- Wikipedia को अक्सर अंतिम भरोसेमंद प्रतिनिधि इंटरनेट विश्वकोश के रूप में देखा जाता है।
- लेकिन Wikimedia Foundation की हालिया रिपोर्ट के मुताबिक, मानव उपयोगकर्ता पेज व्यू पिछले साल के समान अवधि की तुलना में लगभग 8% कम हुए।
- फाउंडेशन ने मानव और बॉट ट्रैफिक अलग करने के लिए मॉनिटरिंग सिस्टम को सुधारा; मई–जून के असामान्य रूप से ऊँचे ट्रैफिक का बड़ा हिस्सा ऐसा बॉट ट्रैफिक था जो डिटेक्शन से बच रहा था।
- फाउंडेशन के Marshall Miller के अनुसार, यह बदलाव AI खोज सारांश फीचर और सोशल मीडिया वीडियो उपभोग बढ़ने से उपजा एक संरचनात्मक परिवर्तन है।
- सर्च इंजन वेबसाइट लिंक दिखाने के बजाय सीधे AI जनित जवाब प्रदर्शित करने की दिशा में बढ़ रहे हैं।
- नई पीढ़ी ओपन वेब की जगह TikTok और YouTube Shorts जैसी वीडियो सेवाओं का उपयोग जानकारी खोजने के लिए करती है।
- Google ने इस पर कहा कि AI खोज ट्रैफिक को कम नहीं करती।
Wikipedia का दृष्टिकोण और प्रतिक्रिया
- Miller ने कहा कि “लोगों के लिए नए तरीके से ज्ञान प्राप्त करना सकारात्मक है”,
और कहा कि Wikipedia का ज्ञान अभी भी AI मॉडल ट्रेनिंग और सारांश निर्माण के स्रोत के रूप में इस्तेमाल हो रहा है।
- हालांकि, विज़िटर में गिरावट से सामग्री योगदान और उसका प्रबंधन करने वाले स्वयंसेवकों की संख्या घटने
तथा दान में कमी की ओर ले जा सकने वाला ठोस जोखिम भी मौजूद है।
- वास्तव में कुछ संपादकों ने AI द्वारा बनाए गए सारांशों की गुणवत्ता पर सवाल उठाए, और
फाउंडेशन ने AI सारांश पायलट प्रोग्राम को अस्थायी रूप से निलंबित कर दिया।
AI कंपनियों के साथ रिश्तों का पुनर्परिभाषण
- Miller ने कहा कि यदि AI, खोज और सोशल प्लेटफॉर्म Wikipedia की सामग्री का उपयोग करें,
तो उन्हें स्रोत का स्पष्ट उल्लेख और साइट विज़िट के लिए प्रेरित करने के माध्यम से पारिस्थितिकी तंत्र में योगदान देना चाहिए।
- Wikipedia कंटेंट सोर्स एट्रिब्यूशन फ्रेमवर्क विकसित कर रही है, और
नए पाठकों की भर्ती के लिए दो समर्पित टीमें चला रही है।
- इसके अलावा, स्वयंसेवी भागीदारी बढ़ाने के लिए एक कैंपेन भी चलाया जा रहा है।
भरोसेमंद ज्ञान की अहमियत
- Miller ने दोहराया कि “AI द्वारा संक्षिप्त की गई जानकारी का मूल स्रोत मानव ज्ञान श्रम ही है”।
- उपयोगकर्ताओं को खोज के दौरान उद्धरणों की जांच करके मूल स्रोत पर सीधे जाना चाहिए।
- भरोसेमंद मानव-क्यूरेटेड ज्ञान पारिस्थितिकी तंत्र के संरक्षण की जरूरत है।
- उन्होंने कहा कि “ज्ञान के पारदर्शी स्रोत और मानव भागीदारी की निरंतरता ही AI युग की मुख्य मूल्य है”।
3 टिप्पणियां
अगर AI मॉडल और उन्हें बनाने वाली कंपनियाँ भरोसा कायम करने के लिए कोई प्रयास नहीं करतीं, तो लंबे समय में शायद wiki को ज्यादा बढ़ने का मौका मिल सकता है।
लगता है यह साइट अब बस डेटा लूट ली गई एक वेबसाइट बनकर रह गई है।
Hacker News टिप्पणी
मुझे लगता है कि Wikipedia बहुत ज़रूरी है, और सिर्फ़ ट्रैफिक में गिरावट आना अपने-आप में ठीक है
कागज़ी विश्वकोश की जगह Wikipedia ने ले ली, लेकिन AI कभी उस जगह को पूरा नहीं ले सकता
AI सिर्फ़ पहुँच आसान करने वाला टूल है; Wikipedia का अलग अस्तित्व उद्देश्य और मूल्य है
विकिमीडिया फ़ाउंडेशन की फंड-सेवन रणनीति और लगातार बढ़ते वार्षिक खर्च को लेकर मैं हमेशा सशंकित रहा हूँ
अभी यही सही समय है कि खर्च में बचत और निवेश के जरिये इसे 1000 साल तक टिकाऊ बनाया जाए
Wikipedia सार्वजनिक हित के लिए मौजूद है और मुझे लगता है इसे उसी तरह चलना चाहिए
मुझे लगता है कि विकिमीडिया फ़ाउंडेशन का 1000 साल तक टिके रहना कठिन है
क्योंकि सामाजिक/आर्थिक सिस्टम खुद शायद इतना लंबा नहीं चलेगा
अमेरिकी सरकार पहले ही विकिमीडिया के प्रति असहज संकेत दे रही है
एक देश से दूसरे देश में शिफ़्ट करने पर भी इतना लंबा चलना मुश्किल होगा
तकनीकी सभ्यता और डेटा स्टोरेज की नाज़ुकता के कारण यह भी निश्चित नहीं कि Wikipedia इतना लंबा अस्तित्व रख पाएगा
संबंधित लेख
Wikipedia सार्वजनिक डेटा डंप उपलब्ध कराता है, इसलिए उसके ऑफ़लाइन कॉपीज़ बहुत होनी चाहिए
शायद विकिमीडिया के ट्रैफिक घटने की बात का कारण विज्ञापन राजस्व से जुड़ा कोई व्यवसायिक कारण नहीं, बल्कि
इंटरनेट उपयोगकर्ताओं की जानकारी खोजने की शैली बदल जाना है
जो साइट उपयोगकर्ताओं को विज्ञापन के लिए नहीं बेचती, उसके लिए ट्रैफिक में गिरावट कोई बड़ी समस्या नहीं
इसका यह मतलब नहीं कि उस साइट की जानकारी का मूल्य कम हो गया
लंबे समय तक टिकने के लिए जब संगठन तेज़ी से बढ़ रहा हो तब फंड और निवेश जोड़कर रखने की रणनीति पर हमेशा सवाल रहा है
अगर इसी से बाहरी आय बंद हो जाने पर भी ऑपरेशन चलता रहे,
तो क्वार्टरली परिणाम के दबाव से मुक्त होकर मूल विज़न और सही काम पर ध्यान दिया जा सकता है
धन कमाने का रास्ता हमेशा खुला रहेगा, लेकिन मूल आत्मा को बचाते हुए लंबे समय की संचालन रणनीति सोचना बेहतर है
Wikipedia सच में असाधारण है
दुनिया भर में कोई भी किसी भी विषय पर लेख लिख सकता है
इसलिए भरोसा रहता है कि आपको सबसे बेहतर जानकारी मिल रही है
विकिमीडिया फ़ाउंडेशन धन कहाँ खर्च कर रहा है यह समझना चाहता हूँ
खर्च लगातार बढ़ रहा है, यह मुख्यतः कहाँ जा रहा है?
क्या वे अभी भी अन्य प्रोजेक्ट्स में विस्तार की कोशिश कर रहे हैं?
वैश्विक बड़े प्लेटफ़ॉर्म पर होस्टिंग खर्च कम नहीं होता, यह समझ में आता है,
लेकिन क्या सच में इतना तेज़ बढ़ा है, यह सवाल है
यदि एक 501(c)(3) non-profit संस्था के लिए वेबसाइट ट्रैफिक का सीधे मुनाफे पर असर न के बराबर हो,
तो ट्रैफिक में गिरावट को खराब क्यों माना जाए—यह सवाल है
तेज़ वृद्धि का दबाव मुझे हमेशा VC या विज्ञापन-निर्भर कंपनियों तक सीमित लगता था
हक़ीक़त यह है कि Wikipedia भी काफी हद तक ट्रैफिक पर निर्भर है
उपयोगकर्ता कम हो रहे हैं, लेकिन AI crawlers भारी मात्रा में डेटा स्क्रैप कर रहे हैं, जिससे खर्च बढ़ रहा है
ट्रैफिक घटने से वॉलंटियर और दानदाता कम हो सकते हैं
सीधे आने वाले users घटने पर कंटेंट को सुधारने या सहयोग करने वालों की संख्या घटने की चिंता है
यह विज्ञापन राजस्व में गिरावट नहीं, बल्कि दान में गिरावट की शुरुआत हो सकती है
अभी कई लोग AI subscriptions पर खर्च तो कर रहे हैं, लेकिन Wikipedia देखे बिना ही काम चला लेते हैं
जानकारी का प्राथमिक स्रोत अब बीच के स्तर पर ही खप रहा है
यह पहले copyright विवाद जैसा लगता है, फर्क बस इतना कि पहले आम लोग थे, अब बड़ी लाभकारी कंपनियाँ हैं
मुझे लगता है LLM (Large Language Models) ने Wikipedia से खोजी जाने वाली करीब 90% जानकारी बदल दी है
क्योंकि यह कहीं ज़्यादा स्रोतों को एक साथ जोड़ सकता है
और मैं फिर भी Wikipedia में edits जारी रखता हूँ
जो जानकारी मैंने जोड़ी, वह Wikipedia पर हो या LLM के ज़रिए इस्तेमाल हो,
किसी न किसी व्यक्ति की मदद करे, यही मायने रखता है
लोग सीधे साइट पर जाएँ या न जाएँ, Wikipedia इसलिए खत्म नहीं होगा
जबकि LLM कंपनियाँ ऐसा नहीं करतीं
Google भी इसे नुकसान उठाकर चला रहा है
सच कहूँ तो इन्हें 'लोगों की मदद' कहना मुश्किल है, उल्टा नुकसान जैसा लगता है
वास्तविकता यह है कि LLM अंततः Wikipedia को पूरी तरह रिप्लेस कर देंगे—मेरा मानना यही है
Wikipedia की कठोर नौकरशाही, अति-निगरानी वाली editing और पक्षपात जैसी समस्याएँ अलग हैं
असल में Wikipedia एक human-centric summarization engine है जो secondary स्रोतों को संकलित कर consensus बनाता है
और यही वह क्षेत्र है जिसमें LLM सबसे अच्छे काम करते हैं
यदि high-quality किताबों पर ट्रेनिंग दी जाए तो Wikipedia की गुणवत्ता से बेहतर आउटपुट संभव है
AI-generated summary का पहला वाक्य ही अक्सर मुख्य विषय साफ़ कर देता है
जबकि Wikipedia में संपादकों की राजनीतिक खींचतान के कारण पहला वाक्य ही अनावश्यक रूप से जटिल हो सकता है
अगर यह सब सच भी हो, तब भी LLM को ऐसा repository चाहिए जहाँ ये secondary source summaries जमा हों
LLM हर समय हजारों secondary स्रोत खोजकर पढ़ नहीं सकते
बहुत-सी चीज़ें पहले से नष्ट हो चुकी हैं या अभी भी digitize नहीं हैं
भविष्य में संभावित है कि कुछ LLM लैब्स Wikipedia को दान दें और AI agents के जरिए edit suggestions + fact-check साथ में करें
मैं यह विश्वास इसलिए रखता हूँ कि Wikipedia जारी रहे
ताकि लोग आलोचनात्मक सोच विकसित करें और आसानी से भ्रमित न हों
मुझे यह दावा कि "बस अच्छी किताबों पर ट्रेनिंग दे दो" स्वीकार नहीं है
Wikipedia के कई topics पर तो ऐसी अच्छी किताबें मौजूद ही नहीं हैं
और यह भी सवाल है कि ऐसी किताबों का standard कौन तय करेगा
ट्रैफिक गिरना सिर्फ़ Wikipedia की समस्या नहीं, अन्य वेबसाइटों की भी है
AI, उन्हीं स्रोतों को मिटा भी रहा है जिन पर यह निर्भर है
यही AI का स्वर्णयुग है
आगे का दौर शायद कम अच्छी primary स्रोतों, अधिक AI-generated content और
ऐसी साइटों के बढ़ने का होगा जो LLMs को नुकसान पहुँचाने के लिए बनाई जाएँगी
संबंधित चर्चा
ज्ञान खुद में मौजूद कोई चीज़ नहीं, असल सवाल यह है कि लोग इसे कैसे संगठित करते हैं
AI पुराने ज्ञान को और सुविधाजनक बना कर दिखा सकता है,
लेकिन information और knowledge को organize करने का मूल तरीका शायद बहुत नहीं बदलेगा
फिर भी AI नीचे दिए क्षेत्रों में बदलाव ला सकता है
पहले से ही Wikipedia में कई bots बैकग्राउंड में काम करते हैं,
अगर ये सभी काम AI कर दे तब भी आख़िर में इंसान (या दूसरा AI) के judgment का ही क्षेत्र बचेगा
अगर किसी तथ्य पर अलग-अलग नज़रिए हों तो संतुलित प्रस्तुति कैसे दी जाए (सैकड़ों editor debates याद आती हैं)
स्मार्टफोन/सोशल मीडिया era में लाखों आम लोग इतिहास लिख रहे हैं; उसे कैसे summarize और curate करेंगे
इंसान और AI दोनों को उचित योगदान देने के लिए incentives कैसे design होंगे
Wikipedia की स्वतंत्रता कैसे बचेगी (geopolitical मुद्दा)
वैसे, पहले मैंने एक चीनी wiki service लीड की थी
वहाँ सबसे कठिन यह था कि केवल information खोज से आगे बढ़कर कोई गंभीरता से यह नहीं सोचता था कि wiki format क्यों चाहिए और कैसे टिकेगा
मुझे Wikipedia को बेहतर बनाने के लिए AI का उपयोग पसंद है
छोटे-छोटे कामों को सरल AI agents संभाल सकते हैं
उदाहरण के लिए, अंग्रेज़ी Wikipedia के सभी Spanish city pages पर जाकर
population, market names आदि की तुलना Spanish Wikipedia से कर सही डेटा से सुधारना
यदि ऐसा एजेंट केवल draft लिखे और human editor review करे,
तो सूक्ष्म अपडेट्स बहुत कुशलता से हो पाएँगे
जब Google AI summary देता है तो लगभग हर वेबसाइट पर यही pattern दिख रहा है
AI का असर तो समझ आता है, लेकिन "social video" का मतलब क्या है यह साफ़ नहीं
क्या इसका मतलब है लोग Wikipedia छोड़कर TikTok देखने लगे हैं,
या खोज करना ही छोड़ दिया है
फिलहाल सबसे ज़्यादा hot search engine शायद YouTube और TikTok ही हैं
Gen Alpha के लिए TikTok news और knowledge लेने का प्रमुख स्रोत बन गया है
मैं चाहता हूँ कि यह trend सभी SEO-fitted websites में भी दिखे
संबंधित चर्चा
यहाँ तक कि बिना ads वाली अच्छी साइटों पर भी AI crawlers अनावश्यक ट्रैफिक जोड़ते हैं
जिससे ऑपरेशनल खर्च और बढ़ता है
ऊपर से ऐसी साइटों की बाढ़ आ सकती है जो केवल LLMs को खराब करने के लिए बनाई जाएँगी
और आख़िरकार LLMs को भी ज़्यादा खर्च, या ads जोड़ने की ओर जाना पड़ेगा
मुझे लगता है Wikipedia में योगदानकर्ताओं की संख्या पहले से घट रही थी
यदि सीधे पढ़ने वाले users और कम हुए तो contributors और घटेंगे
यह निराशाजनक है, और जानना चाहता हूँ कि क्या Wikipedia को augment/validate करने वाले AI experiments हो रहे हैं
आगे शायद पुराने edit wars/डिस्कशन अलग रूप ले लें और कुछ हद तक सहयोग+प्रतिस्पर्धा वाली LLM-एजेंट लड़ाइयों में बदल जाएँ
contributors का बहुत सारा काम AI agents अधिक कुशलता से कर पाएँगे
मुख्य मुद्दा a) मानव भागीदारी और oversight, b) malicious behavior filtering systems का होना है
वर्तमान operational structure में समस्या है
जब contributor नया content जोड़ता है, spammer उसके सही लिंक हटा कर spam लिंक डाल देता है
Wikipedia bot वह बदलाव हटाता है
परिणाम: contributor eventually उदासीन हो जाता है
Wikipedia एक समय से आगे की magical चीज़ थी,
और आज भी यह सर्वोच्च information aggregator के रूप में बेहद मूल्यवान है
आगे भी एक लिंक-collection के तौर पर लंबे समय तक रहेगी
real-time (consume करते समय) curation कहीं बेहतर है,
लेकिन पहले यह कठिन था और अब सस्ता होने की वजह से संभव है,
इसलिए Wikipedia कई real-time curation tools के लिए source डेटाबेस बना रहेगा
केवल ऐसा source उपलब्ध होने से कई AI tools की utility ही बढ़ जाती है
editor bias की आलोचना करने वाली आवाज़ें बहुत हैं, मैं उन्हें समझता हूँ
लेकिन LLM के chat interface से interact करके context समझना और गहराई में जाना कहीं आसान हो जाता है
निजी तौर पर मुझे ऐसे खुले knowledge infrastructure को बनाने की प्रक्रिया में हिस्सा लेना अच्छा लगता है
छोटे-छोटे Wikipedia errors ठीक करने में भी मैं संतोष महसूस करता हूँ
सुधारने लायक कई चीज़ें आसान हैं
कोई गलत info डाल दे तो उसे पहचान कर तुरंत ठीक किया जा सकता है
document उदाहरण
लेकिन फोन में Wikipedia डालकर तुरंत खोज करना सच में बहुत सस्ता/हल्का है
LLM बहुत भारी होते हैं और अधिकांश users उनके लोकल रन की क्षमता नहीं रखते,
ऊपर से summary phase में data loss भी होता है
अगर दोनों ही मोबाइल पर रन करने लायक हों तो शानदार होगा,
लेकिन data ownership पर भी भारी चिंता बनी रहती है