GPT से तैयार किए गए Google Scholar के फर्जी शोधपत्र: प्रमुख विशेषताएँ, प्रसार, और साक्ष्य में हेरफेर रोकने के निहितार्थ

(misinforeview.hks.harvard.edu)

7 पॉइंट द्वारा GN⁺ 2024-09-09 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Google Scholar में ऐसे कई संदिग्ध शोधपत्र आसानी से मिल रहे हैं जो आम तौर पर इस्तेमाल होने वाले GPT मॉडल से बनाए गए प्रतीत होते हैं
ऐसे शोधपत्र मुख्य रूप से व्यापक रूप से उपयोग होने वाले सामान्य-purpose AI applications, खासकर ChatGPT, का उपयोग करके बनाए जाते हैं और वैज्ञानिक लेखन की नकल करते हैं
Google Scholar ऐसे संदिग्ध शोधपत्रों को प्रतिष्ठित और गुणवत्ता-नियंत्रित research papers के साथ ही सूचीबद्ध करता है
Google Scholar में मिले संदिग्ध GPT-जनित वैज्ञानिक शोधपत्रों के नमूनों के विश्लेषण से पता चला कि कई शोधपत्र पर्यावरण, स्वास्थ्य, computing जैसे उन अनुप्रयोग क्षेत्रों से जुड़े हैं जो digital disinformation के प्रति संवेदनशील हैं
राजनीतिक रूप से अत्यधिक विवादित क्षेत्रों में दुर्भावनापूर्ण साक्ष्य-हेरफेर की संभावना बढ़ना एक बढ़ती हुई चिंताजनक समस्या है

निष्कर्ष

निष्कर्ष 1: GPT से जनित 139 संदिग्ध शोधपत्र Google Scholar search results में सामान्य शोधपत्रों की तरह सूचीबद्ध हैं। इनमें non-indexed journals की संख्या अधिक है

संदिग्ध शोधपत्रों में से अधिकांश non-indexed journals या working papers थे, लेकिन कुछ प्रतिष्ठित journals, publications, conferences, और repositories में भी मिले
कुल 139 ऐसे शोधपत्र मिले जिनमें ChatGPT या समान LLM applications का भ्रामक उपयोग होने का संदेह है
इनमें 19 indexed journals में, 89 non-indexed journals में, 19 university databases में छात्र शोधपत्र के रूप में, और 12 working papers के रूप में थे, जिनमें अधिकांश preprint DB में थे
पर्यावरण और स्वास्थ्य से जुड़े शोधपत्र नमूने का लगभग 34% हैं, और इनमें से 66% non-indexed journals में प्रकाशित हुए

निष्कर्ष 2: GPT-जनित संदिग्ध शोधपत्र online वितरित किए जा रहे हैं और scholarly communication infrastructure में व्यापक रूप से फैल चुके हैं, तथा अक्सर कई प्रतियों में मौजूद हैं। व्यावहारिक निहितार्थ वाले अनुप्रयोग क्षेत्र प्रमुख हैं

पर्यावरणीय मुद्दों से जुड़े 27 शोधपत्र 26 unique domains पर 56 URLs में मिले
स्वास्थ्य संबंधी मुद्दों से जुड़े 20 शोधपत्र 20 unique domains पर 46 URLs में मिले
पहचाने गए अधिकांश शोधपत्र कई प्रतियों में मौजूद हैं और पहले ही कई archives, repositories, और social media तक फैल चुके हैं
scholarly record से इन्हें हटाना कठिन या असंभव हो सकता है

निष्कर्ष 3: Google Scholar गुणवत्ता-नियंत्रित citation DB और गैर-नियंत्रित citation DB के परिणामों को एक ही interface में दिखाता है, इसलिए GPT-जनित संदिग्ध शोधपत्रों तक बिना किसी सीमा के पहुँचा जा सकता है

सार्वजनिक रूप से सुलभ scholarly communication infrastructure में Google Scholar की केंद्रीय स्थिति, और उसके inclusion criteria में standards, transparency, तथा accountability की कमी, विज्ञान पर जनता के भरोसे को गंभीर रूप से प्रभावित कर सकती है
इससे Google Scholar के evidence hacking के लिए दुरुपयोग की संभावना बढ़ती है, और फर्जी शोधपत्रों को मूल स्रोत से retract या delete करने की कोशिशों पर भी असर पड़ेगा
कोई भी समाधान scholarly communication infrastructure के पूरे तंत्र और अलग-अलग actors, interests, तथा motivations की परस्पर क्रिया को ध्यान में रखे बिना पर्याप्त नहीं होगा

GN⁺ की राय

यह समस्या निम्न कारणों से चिंताजनक है:

GPT-जनित शोधपत्र scholarly communication system पर हावी हो सकते हैं और वैज्ञानिक रिकॉर्ड की अखंडता को खतरे में डाल सकते हैं। इससे मौजूदा paper mill समस्या और गंभीर होगी।
AI से तैयार की गई वैज्ञानिक रूप से विश्वसनीय दिखने वाली सामग्री वास्तव में भ्रामक तरीके से उत्पन्न की गई हो सकती है। इससे वैज्ञानिक ज्ञान पर जनता का भरोसा कमज़ोर हो सकता है और गंभीर सामाजिक जोखिम पैदा हो सकते हैं।
Google Scholar के inclusion criteria अपारदर्शी हैं और accountability की कमी है। यह उस समस्या से जुड़ता है जिसमें standards का पालन करने वाले citation DB और न करने वाले DB को बिना भेदभाव search results में साथ दिखाया जाता है।
फर्जी शोधपत्र विभिन्न platforms पर फैल जाते हैं, इसलिए मूल प्रति को retract करने के बाद भी उन्हें ट्रैक करना और हटाना कठिन होता है। इससे संबंधित research fields पर लंबे समय तक नकारात्मक प्रभाव पड़ सकता है।
स्वास्थ्य, पर्यावरण जैसे सामाजिक रूप से संवेदनशील और महत्वपूर्ण विषयों पर GPT-जनित शोधपत्र बड़ी संख्या में मिल रहे हैं। इससे policy making में गंभीर भ्रम पैदा हो सकता है और इसका राजनीतिक दुरुपयोग भी संभव है।

इस समस्या से निपटने के लिए तकनीकी, शैक्षिक, और संस्थागत उपायों पर एक साथ विचार करना होगा। उदाहरण के लिए

academic search engines में peer-review जैसी शर्तों के आधार पर filter करने के विकल्प देना
evaluation tools को academic search engines के interface और crawlers में integrate करना
commercial कारणों के बजाय सार्वजनिक हित में संचालित मुफ्त academic search engine बनाना
policy makers, science communicators, और journalists के लिए educational initiatives

मूल रूप से इस समस्या को academic publishing system की खामियों, "publish or perish" संस्कृति, Google के monopoly, और information control को लेकर वैचारिक संघर्ष जैसे बड़े संदर्भ में समझना होगा। केवल तकनीकी समाधान पर्याप्त नहीं होंगे।

2 टिप्पणियां

xguru 2024-09-09

alphaXiv - arXiv के शोधपत्रों पर सार्वजनिक चर्चा करें

यह प्लेटफ़ॉर्म और यह लेख साथ में दिखें तो लगता है कि कहीं न कहीं कोई संबंध है

GN⁺ 2024-09-09

Hacker News की राय

APS March Meeting में एक scientific journal editor, LLM-generated papers की तुलना में LLM-generated reviews को लेकर ज़्यादा चिंतित थे
- LLM लंबी तार्किक reasoning की तुलना में content summary बनाने में ज़्यादा सक्षम है
- reviews सार्वजनिक नहीं होते, इसलिए शर्मिंदगी का अहसास कम होता है
लेखकों की Python script में bug हो सकता है
- अगर API response में 'bib' key न हो, तो data frame के columns mismatch हो सकते हैं
- flag array का उपयोग करके खराब results हटाए जा सकते हैं, लेकिन code में इसका इस्तेमाल नहीं हुआ
GPT scientific papers में हेरफेर को आसान बना सकता है, लेकिन इंसान भी AI के बिना यह काम अच्छी तरह करते आए हैं
- इससे जुड़ा एक दिलचस्प video link साझा किया गया
LLM-संबंधित papers में data collection method और अधिक परिष्कृत होना चाहिए
- LLM के उपयोग का प्रभाव सिर्फ proofreading से आगे बढ़कर science और society पर बड़ा है
- proofreading की सीमा हर व्यक्ति के लिए अलग होती है
संबंधित क्षेत्र के experts नकली results को आसानी से पहचान सकते हैं
- जिन सामग्रियों में नवीनता नहीं होती, उन्हें अलग करना मुश्किल है
- researchers की ईमानदारी का मुद्दा AI से पहले भी मौजूद था
- non-experts के लिए जानकारी की सच्चाई पहचानना कठिन है
पिछली चर्चा में जिन papers पर GPT उपयोग का संदेह किया गया था, वे वास्तव में OpenAI से पहले लिखे गए थे
ChatGPT सच्चाई को समझता नहीं है
- data lake से जुड़े एक research project में ChatGPT के उपयोग पर नकली links और marketing materials के summaries बहुत मिले
इस बात की सराहना की गई कि article image AI-generated नहीं है
GPT-generated papers ऐसे भी हो सकते हैं जिन्हें non-native English speakers ने अपनी English सुधारने के लिए लिखा हो
लगता है कि हम एक अंधेरे दौर में प्रवेश कर रहे हैं