2 पॉइंट द्वारा GN⁺ 2026-02-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Wiki Education ने 2025 के दौरान generative AI (ChatGPT आदि) का Wikipedia संपादन पर पड़ने वाले प्रभाव की व्यवस्थित जांच की
  • AI detection tool Pangram का उपयोग करके 2022 के बाद लिखे गए 3,078 लेखों का विश्लेषण करने पर, 178 लेख AI-लिखित होने के संदेह में पाए गए, जिनमें से दो-तिहाई से अधिक verification में विफल रहे
  • इसके जवाब में, संगठन ने प्रतिभागियों की training को मजबूत किया और AI उपयोग दिशानिर्देश तथा real-time detection system लागू किया, ताकि AI-जनरेटेड टेक्स्ट की सीधी copy-paste को रोका जा सके
  • AI लेख का draft लिखने के लिए उपयुक्त नहीं है, लेकिन सामग्री खोज, source ढूंढने, और content gaps पहचानने जैसे research चरणों में उपयोगी हो सकता है
  • Wiki Education ने जोर दिया कि AI detection automation और editor education का विस्तार Wikipedia की विश्वसनीयता बनाए रखने की कुंजी है

Generative AI और Wikipedia का संबंध

  • Wiki Education अंग्रेज़ी Wikipedia के नए सक्रिय editors में लगभग 19% का योगदान देता है, और उसने generative AI के प्रभाव और जोखिमों का विश्लेषण किया
    • ChatGPT, Gemini, Claude जैसे chatbots के आम होने के साथ Wikipedia संपादन में इनके उपयोग के प्रयास भी बढ़े
    • संगठन ने प्रतिभागियों के AI उपयोग व्यवहार का आकलन किया और उसके परिणाम साझा किए
  • निष्कर्ष के रूप में, उसने यह सिद्धांत रखा कि AI output को ज्यों का त्यों copy करके Wikipedia में paste नहीं करना चाहिए

AI detection और verification के परिणाम

  • 2022 में ChatGPT के लॉन्च के बाद लिखे गए लेखों में से 178 को Pangram ने AI-लिखित के रूप में detect किया
    • 2022 से पहले AI उपयोग के कोई संकेत नहीं मिले, और उसके बाद यह धीरे-धीरे बढ़ा
  • सिर्फ 7% ने fake sources का उपयोग किया, बाकी ने वास्तविक sources quote किए, लेकिन 2/3 से अधिक verification में विफल रहे
    • उद्धृत source में वह जानकारी मौजूद नहीं थी, इसलिए तथ्य की पुष्टि संभव नहीं थी
  • Wiki Education ने verification में विफल लेखों की सफाई के लिए काफी मानवीय संसाधन लगाए
    • कुछ लेखों को ‘stub’ बनाया गया, कुछ के लिए deletion proposal (PROD) दिया गया, और कुछ को पुनर्स्थापित करना असंभव माना गया

प्रोग्राम सुधार और AI detection system

  • Pangram के समर्थन से प्रतिभागियों के edits का real-time analysis करने वाली व्यवस्था बनाई गई
    • अपने Dashboard platform के जरिए edit tracking और automatic alert फीचर चलाया गया
  • नया training module “Using generative AI tools with Wikipedia” पेश किया गया
    • AI के अनुमत और निषिद्ध उपयोग क्षेत्रों को स्पष्ट रूप से अलग किया गया
    • “AI टेक्स्ट को copy-paste न करें” को मुख्य संदेश के रूप में जोर दिया गया
  • 2025 की दूसरी छमाही में 1,406 AI editing warnings में से केवल 22% ही वास्तविक article space में हुईं
    • अधिकांश का पता practice sandbox चरण में ही चल गया
  • Pangram ने formatting, lists जैसी non-sentence text में कुछ false positives दिखाए, लेकिन मुख्य लेखन वाक्यों के विश्लेषण में इसकी accuracy ऊंची रही

AI उपयोग व्यवहार और training का प्रभाव

  • 2025 के fall semester में 6,357 में से सिर्फ 5% में वास्तविक लेखों पर AI detect हुआ, और अधिकांश edits को manually या automatically revert कर दिया गया
    • प्रतिभागियों, instructors और wiki experts ने मिलकर AI-जनरेटेड टेक्स्ट हटाया
  • instructors ने छात्रों के काम का मूल्यांकन ‘verifiability’ के आधार पर किया
    • इससे पुष्टि हुई कि AI-जनरेटेड वाक्य fact verification के लिहाज से Wikipedia के लिए उपयुक्त नहीं हैं
  • Pangram-आधारित शुरुआती हस्तक्षेप से अनुमानित 25% से AI उपयोग दर को 5% तक घटाया गया

AI के सकारात्मक उपयोग की संभावना

  • AI लेखों में कमी की पहचान, sources की खोज, और सामग्री तक पहुंच के रास्ते सुझाने जैसे research चरणों में उपयोगी है
    • 7 classes में 102 उपयोग रिपोर्टों में से 87% ने इसे उपयोगी बताया
    • सबसे अधिक इस्तेमाल किया गया tool ChatGPT था, उसके बाद Grammarly
  • छात्रों ने AI का उपयोग sentence correction, category suggestions, और draft evaluation के लिए किया
    • हालांकि, AI से मुख्य लेखन तैयार करने का कोई मामला नहीं मिला
  • जोर दिया गया कि AI तभी मददगार है जब उसके परिणामों की आलोचनात्मक समीक्षा की जाए, और मानवीय judgment अनिवार्य है

Wiki Education के निष्कर्ष और आगे की योजना

  • मौजूदा स्तर का generative AI ऐसा टेक्स्ट बनाता है जिसे verify करना कठिन या असंभव होता है, इसलिए वह Wikipedia के मुख्य लेखन के लिए उपयुक्त नहीं है
    • AI-जनरेटेड वाक्यों को verify करने में सीधे लिखने से अधिक समय लगता है
  • हालांकि, सामग्री खोज और idea generation जैसे कामों में इसे सहायक tool के रूप में इस्तेमाल किया जा सकता है
  • Pangram detection system को 2026 में भी बनाए रखने और बेहतर करने की योजना है
  • प्रतिभागियों में AI literacy की कमी पाए जाने के बाद, large language model (LLM) education modules भी जोड़े जाएंगे
  • Princeton University आदि के साथ मिलकर AI अपनाने से पहले और बाद में छात्रों के edits में बदलाव पर शोध चल रहा है
    • इसमें पुष्टि हुई कि Pangram ने 2015~2022 के edits को 100% मानवीय लेखन के रूप में सही पहचाना

पूरे Wikipedia के लिए निहितार्थ

  • दुनिया भर के वयस्कों में 10% ChatGPT का उपयोग करते हैं, और उनमें से काफी लोग टेक्स्ट लिखने में इसका उपयोग करते हैं
    • इससे नए editors द्वारा AI-जनरेटेड सामग्री को बिना verification के जोड़ देने का जोखिम है
  • Pangram जैसे automatic detection tools Wikipedia की गुणवत्ता बनाए रखने के लिए आवश्यक हैं
    • फिलहाल सिर्फ manual banner display संभव है, लेकिन automated detection system की जरूरत है
  • नए editors के लिए AI उपयोग चेतावनी और source-केंद्रित editing training मजबूत करने का सुझाव दिया गया
    • Wikimedia Foundation का editing support software भी human-centered summary approach को प्राथमिकता दे
  • Wikipedia को तकनीकी बदलावों के साथ ढलते हुए अपनी विश्वसनीयता बनाए रखने के लिए AI युग के अनुरूप नीतियों और tools का विकास करना होगा

1 टिप्पणियां

 
GN⁺ 2026-02-02
Hacker News की राय
  • Wikipedia में पहले से ही source verification failure की समस्या व्यापक रही है
    हाल के समय में इसकी आवृत्ति बढ़ी है, ऐसा साबित करने वाला ठोस सबूत मिलना मुश्किल है
    ज़्यादातर लेखक शायद वह लिखते हैं जो उन्हें पता है, और बाद में बस नाममात्र के भरोसेमंद citation जोड़ देते हैं
    किसी पेज की विशेषज्ञता का स्तर या विषय कितना niche है, उसके अनुसार विश्वसनीयता बदलती हुई लगती है

    • हाल की Changelog podcast episode में इसका एक उदाहरण लाइव हुआ था
      होस्ट्स ने पाया कि उन्हें गलत तरीके से “GitHub alumni” बताया गया था, और रिकॉर्डिंग के दौरान ही गेस्ट ने Wikipedia citation ठीक किया
    • मैंने दो तरह की समस्याएँ देखी हैं। एक फर्जी citation है, और दूसरी वह जहाँ citation असली है लेकिन source किसी अविश्वसनीय व्यक्ति से आता है
      जब ऐसी समस्या की ओर इशारा किया जाता है, तो कुछ संपादक कहते हैं कि “Wikipedia भरोसेमंद है”
      जब तक यह सोच नहीं बदलती, सुधार मुश्किल लगता है
    • LLM इंसानों की तुलना में कहीं अधिक दर से बिना आधार वाले निष्कर्ष जोड़ सकते हैं
    • दरअसल ऐसे citation verification में AI अपने-आप पहचान कर सकता है और इंसानों की समीक्षा के लिए flag भी लगा सकता है
    • कई दस्तावेज़ों में citation लगभग नहीं होते, या गलत citation के कारण निष्कर्ष विकृत हो जाते हैं
      जैसे पानी के अणुओं के व्यवहार की गलत व्याख्या वाला मामला
  • लेख में तीन बार ज़ोर देकर कहा गया कि “generative AI का output copy-paste मत करो
    मेरा अनुभव भी कुछ ऐसा ही रहा है। शुरुआत में यह चौंकाने वाली हद तक विश्वसनीय लगता है, लेकिन जल्दी ही समझ आता है कि इसमें भ्रम और शोर बहुत है
    फिर भी idea generation या brainstorming में यह काफ़ी उपयोगी है

  • मैंने यह शीर्षक इसलिए चुना क्योंकि मैं लेख के मुख्य बिंदु को उभारना चाहता था
    “flag किए गए दस्तावेज़ों में से दो-तिहाई से ज़्यादा verification में fail हुए” — यह पंक्ति खास तौर पर प्रभावशाली लगी

    • राजनीतिक विषयों से जुड़े दस्तावेज़ों में यह समस्या पहले से आम रही है
      अगर citation को सीधे verify किया जाए, तो बेकार source बहुत मिलते हैं
      AI समस्या को और खराब कर सकता है, लेकिन इंसानों का दुर्भावनापूर्ण संपादन भी अब भी मौजूद है
    • मूल रूप से भेजा गया शीर्षक था “अधिकांश flag किए गए दस्तावेज़ verification में fail हुए”
      मुझे लगा कि वह अभिव्यक्ति सार को अच्छी तरह पकड़ती है
    • लोग भी बिना आधार की बातें लिखते हैं, लेकिन LLM speed और scale के मामले में कहीं आगे हैं
      मैं यह जानना चाहूँगा कि AI से पहले citation error rate कितना था
  • यह लेख पूरी Wikipedia के बारे में नहीं, बल्कि Wiki Edu program के जरिए किए गए संपादन के बारे में है
    यानी, यह उन दस्तावेज़ों की बात है जिन्हें कॉलेज छात्रों ने course assignment के रूप में लिखा था

    • जब छात्रों से Wikipedia editing ज़बरदस्ती कराई जाती है, तो बिना उत्साह के लिखे गए low-quality नतीजे आना स्वाभाविक है
      आख़िरकार समस्या Wikipedia से ज़्यादा विश्वविद्यालयों में AI इस्तेमाल की आदतों से जुड़ी लगती है
    • यह वैसा ही है जैसे छात्र शोधपत्र लिखते समय बस भरोसेमंद लगने वाले citation खोजकर चिपका देते हैं
      यहाँ तक कि PhD छात्र भी इस तरह लिखते दिखें, तो अफ़सोस होता है
    • कुछ Wiki Edu संपादन तो creative writing assignment जैसे लगते थे
      source पढ़ने पर दिखता था कि उन्हें अटपटा ढंग से गलत समझा या गलत सारांशित किया गया है
      LLM ऐसे “सिर्फ़ नंबर लाने वाली writing” के लिए बिल्कुल फिट tool है
  • Wikipedia की समस्या से आगे बढ़कर, दुनिया भर में लाखों लोग LLM से टेक्स्ट बनाते हैं और उसका कुछ हिस्सा तथ्य की तरह खपा दिया जाता है, यही बड़ी समस्या है
    LLM पर सच के प्रति कोई दायित्व नहीं होता, वे सिर्फ़ व्याकरणिक संगति बनाए रखने की कोशिश करते हैं

    • असल में LLM सिर्फ़ व्याकरणिक संगति भी नहीं, बल्कि लोकप्रिय चलन वाली शैली के अनुरूप होने की प्रवृत्ति रखते हैं
      कभी-कभी वह संयोग से सही पड़ जाता है, लेकिन हमेशा अस्थिर रहता है
  • सिर्फ़ कुछ दस्तावेज़ों को देखकर यह भी हो सकता है कि bot द्वारा लिखे गए हिस्सों का अनुपात असलियत से कम detect हुआ हो
    यानी संभव है कि सिर्फ़ verification में fail हुए दस्तावेज़ ही detect हुए हों

    • Pangram नाम का classification model एक text classification neural network है, जिसे इंसानों द्वारा लिखे गए टेक्स्ट और कई LLM द्वारा लिखे गए टेक्स्ट की तुलना पर train किया गया है
      अधिक जानकारी paper PDF में देखी जा सकती है
  • LLM provider के नज़रिए से यह shared resource pollution जैसी त्रासदी है
    Wikipedia training data का बड़ा हिस्सा है, फिर वे खुद इसे प्रदूषित क्यों करेंगे, यह सवाल उठता है
    अगर Wikipedia पर AI के उपयोग को रोकने वाली policy आ जाए तो दिलचस्प होगा

    • लेकिन समस्या के मुख्य कर्ता AI provider नहीं, बल्कि users हैं
      GitHub पर भी यही हो रहा है
    • फिर भी ऐसे citation error, LLM से पहले भी मौजूद थे
      सिर्फ़ Wikipedia ही नहीं, दूसरी जगहों पर भी ऐसे citation आम हैं जिनके source दावे से मेल नहीं खाते
    • आख़िर में, ऐसी समस्याएँ पैदा करने वाले व्यक्तिगत users ही हैं
  • सच में उपयोगी फीचर शायद editing guideline पूछने वाला chatbot होगा
    अभी तो अनुभवी संपादक भी discussion page पर नियमों की मनमानी व्याख्या करते हैं
    “पहले revert करो, बाद में कारण जोड़ो” वाली संस्कृति नए लोगों के लिए बड़ी बाधा बनती है
    ऐसे मामलों में bot तुरंत जवाब देकर पलट सकता है

  • एक और समस्या Grokipedia जैसी AI-आधारित wiki है
    ऊपर से यह Wikipedia से ज़्यादा polished और mobile-friendly दिखती है, लेकिन इसमें जानबूझकर विकृत की गई जानकारी भरी है
    हो सकता है कुछ बड़ी कंपनियाँ या राजनीतिक ताकतें लोकतांत्रिक सूचना स्रोतों को कमजोर करना चाहती हों
    सावधान रहना होगा कि Wikipedia ऐसे हमलों का निशाना न बने

  • AI spam से quality गिरती है, यह सही है, लेकिन मूल रूप से यह Wikipedia के quality control की समस्या है
    review process धीमा है, और नई जानकारी सही है या नहीं इसकी कोई गारंटी भी नहीं
    AI spam गायब भी हो जाए, तब भी अगर quality control नहीं सुधरा तो बात नहीं बनेगी
    Wikipedia को औसत पाठक के स्तर के हिसाब से साफ़ समझाने वाली दिशा में अपना quality control ढाँचा फिर से बनाना चाहिए