GPT से तैयार किए गए Google Scholar के फर्जी शोधपत्र: प्रमुख विशेषताएँ, प्रसार, और साक्ष्य में हेरफेर रोकने के निहितार्थ
(misinforeview.hks.harvard.edu)- Google Scholar में ऐसे कई संदिग्ध शोधपत्र आसानी से मिल रहे हैं जो आम तौर पर इस्तेमाल होने वाले GPT मॉडल से बनाए गए प्रतीत होते हैं
- ऐसे शोधपत्र मुख्य रूप से व्यापक रूप से उपयोग होने वाले सामान्य-purpose AI applications, खासकर ChatGPT, का उपयोग करके बनाए जाते हैं और वैज्ञानिक लेखन की नकल करते हैं
- Google Scholar ऐसे संदिग्ध शोधपत्रों को प्रतिष्ठित और गुणवत्ता-नियंत्रित research papers के साथ ही सूचीबद्ध करता है
- Google Scholar में मिले संदिग्ध GPT-जनित वैज्ञानिक शोधपत्रों के नमूनों के विश्लेषण से पता चला कि कई शोधपत्र पर्यावरण, स्वास्थ्य, computing जैसे उन अनुप्रयोग क्षेत्रों से जुड़े हैं जो digital disinformation के प्रति संवेदनशील हैं
- राजनीतिक रूप से अत्यधिक विवादित क्षेत्रों में दुर्भावनापूर्ण साक्ष्य-हेरफेर की संभावना बढ़ना एक बढ़ती हुई चिंताजनक समस्या है
निष्कर्ष
निष्कर्ष 1: GPT से जनित 139 संदिग्ध शोधपत्र Google Scholar search results में सामान्य शोधपत्रों की तरह सूचीबद्ध हैं। इनमें non-indexed journals की संख्या अधिक है
- संदिग्ध शोधपत्रों में से अधिकांश non-indexed journals या working papers थे, लेकिन कुछ प्रतिष्ठित journals, publications, conferences, और repositories में भी मिले
- कुल 139 ऐसे शोधपत्र मिले जिनमें ChatGPT या समान LLM applications का भ्रामक उपयोग होने का संदेह है
- इनमें 19 indexed journals में, 89 non-indexed journals में, 19 university databases में छात्र शोधपत्र के रूप में, और 12 working papers के रूप में थे, जिनमें अधिकांश preprint DB में थे
- पर्यावरण और स्वास्थ्य से जुड़े शोधपत्र नमूने का लगभग 34% हैं, और इनमें से 66% non-indexed journals में प्रकाशित हुए
निष्कर्ष 2: GPT-जनित संदिग्ध शोधपत्र online वितरित किए जा रहे हैं और scholarly communication infrastructure में व्यापक रूप से फैल चुके हैं, तथा अक्सर कई प्रतियों में मौजूद हैं। व्यावहारिक निहितार्थ वाले अनुप्रयोग क्षेत्र प्रमुख हैं
- पर्यावरणीय मुद्दों से जुड़े 27 शोधपत्र 26 unique domains पर 56 URLs में मिले
- स्वास्थ्य संबंधी मुद्दों से जुड़े 20 शोधपत्र 20 unique domains पर 46 URLs में मिले
- पहचाने गए अधिकांश शोधपत्र कई प्रतियों में मौजूद हैं और पहले ही कई archives, repositories, और social media तक फैल चुके हैं
- scholarly record से इन्हें हटाना कठिन या असंभव हो सकता है
निष्कर्ष 3: Google Scholar गुणवत्ता-नियंत्रित citation DB और गैर-नियंत्रित citation DB के परिणामों को एक ही interface में दिखाता है, इसलिए GPT-जनित संदिग्ध शोधपत्रों तक बिना किसी सीमा के पहुँचा जा सकता है
- सार्वजनिक रूप से सुलभ scholarly communication infrastructure में Google Scholar की केंद्रीय स्थिति, और उसके inclusion criteria में standards, transparency, तथा accountability की कमी, विज्ञान पर जनता के भरोसे को गंभीर रूप से प्रभावित कर सकती है
- इससे Google Scholar के evidence hacking के लिए दुरुपयोग की संभावना बढ़ती है, और फर्जी शोधपत्रों को मूल स्रोत से retract या delete करने की कोशिशों पर भी असर पड़ेगा
- कोई भी समाधान scholarly communication infrastructure के पूरे तंत्र और अलग-अलग actors, interests, तथा motivations की परस्पर क्रिया को ध्यान में रखे बिना पर्याप्त नहीं होगा
GN⁺ की राय
यह समस्या निम्न कारणों से चिंताजनक है:
-
GPT-जनित शोधपत्र scholarly communication system पर हावी हो सकते हैं और वैज्ञानिक रिकॉर्ड की अखंडता को खतरे में डाल सकते हैं। इससे मौजूदा paper mill समस्या और गंभीर होगी।
-
AI से तैयार की गई वैज्ञानिक रूप से विश्वसनीय दिखने वाली सामग्री वास्तव में भ्रामक तरीके से उत्पन्न की गई हो सकती है। इससे वैज्ञानिक ज्ञान पर जनता का भरोसा कमज़ोर हो सकता है और गंभीर सामाजिक जोखिम पैदा हो सकते हैं।
-
Google Scholar के inclusion criteria अपारदर्शी हैं और accountability की कमी है। यह उस समस्या से जुड़ता है जिसमें standards का पालन करने वाले citation DB और न करने वाले DB को बिना भेदभाव search results में साथ दिखाया जाता है।
-
फर्जी शोधपत्र विभिन्न platforms पर फैल जाते हैं, इसलिए मूल प्रति को retract करने के बाद भी उन्हें ट्रैक करना और हटाना कठिन होता है। इससे संबंधित research fields पर लंबे समय तक नकारात्मक प्रभाव पड़ सकता है।
-
स्वास्थ्य, पर्यावरण जैसे सामाजिक रूप से संवेदनशील और महत्वपूर्ण विषयों पर GPT-जनित शोधपत्र बड़ी संख्या में मिल रहे हैं। इससे policy making में गंभीर भ्रम पैदा हो सकता है और इसका राजनीतिक दुरुपयोग भी संभव है।
इस समस्या से निपटने के लिए तकनीकी, शैक्षिक, और संस्थागत उपायों पर एक साथ विचार करना होगा। उदाहरण के लिए
- academic search engines में peer-review जैसी शर्तों के आधार पर filter करने के विकल्प देना
- evaluation tools को academic search engines के interface और crawlers में integrate करना
- commercial कारणों के बजाय सार्वजनिक हित में संचालित मुफ्त academic search engine बनाना
- policy makers, science communicators, और journalists के लिए educational initiatives
मूल रूप से इस समस्या को academic publishing system की खामियों, "publish or perish" संस्कृति, Google के monopoly, और information control को लेकर वैचारिक संघर्ष जैसे बड़े संदर्भ में समझना होगा। केवल तकनीकी समाधान पर्याप्त नहीं होंगे।
2 टिप्पणियां
alphaXiv - arXiv के शोधपत्रों पर सार्वजनिक चर्चा करें
यह प्लेटफ़ॉर्म और यह लेख साथ में दिखें तो लगता है कि कहीं न कहीं कोई संबंध है
Hacker News की राय
APS March Meeting में एक scientific journal editor, LLM-generated papers की तुलना में LLM-generated reviews को लेकर ज़्यादा चिंतित थे
लेखकों की Python script में bug हो सकता है
GPT scientific papers में हेरफेर को आसान बना सकता है, लेकिन इंसान भी AI के बिना यह काम अच्छी तरह करते आए हैं
LLM-संबंधित papers में data collection method और अधिक परिष्कृत होना चाहिए
संबंधित क्षेत्र के experts नकली results को आसानी से पहचान सकते हैं
पिछली चर्चा में जिन papers पर GPT उपयोग का संदेह किया गया था, वे वास्तव में OpenAI से पहले लिखे गए थे
ChatGPT सच्चाई को समझता नहीं है
इस बात की सराहना की गई कि article image AI-generated नहीं है
GPT-generated papers ऐसे भी हो सकते हैं जिन्हें non-native English speakers ने अपनी English सुधारने के लिए लिखा हो
लगता है कि हम एक अंधेरे दौर में प्रवेश कर रहे हैं