- नवंबर 2024 में arXiv पर “Artificial Intelligence, Scientific Discovery, and Product Innovation” पेपर का preprint प्रकाशित होने के बाद, इस शोध की सटीकता और सत्यनिष्ठा पर सवाल उठे
- MIT ने आंतरिक गोपनीय जांच की और पेपर की विश्वसनीयता अपर्याप्त मानते हुए औपचारिक रूप से arXiv और The Quarterly Journal of Economics से इसे वापस लेने का अनुरोध किया
- MIT की Committee on Discipline के नाम से जारी सार्वजनिक पत्र के अनुसार, पेपर के डेटा के स्रोत, विश्वसनीयता और सटीकता पर उसे बिल्कुल भरोसा नहीं है, और शोध परिणामों पर भी उसे विश्वास नहीं है
- arXiv की नीति के अनुसार केवल लेखक ही पेपर वापसी का अनुरोध कर सकता है, लेकिन लेखक द्वारा ऐसा न करने पर MIT ने स्वयं औपचारिक अनुरोध किया और चाहता है कि पेपर को जल्द से जल्द स्पष्ट रूप से वापस लिया हुआ चिह्नित किया जाए
पेपर का प्रभाव और MIT की प्रतिक्रिया
- preprint पेपर वह शोध होता है जो अभी peer review से नहीं गुजरा होता
- यह पेपर AI और विज्ञान क्षेत्र की अकादमिक चर्चाओं पर काफी प्रभाव डाल रहा है
- MIT, पेपर की गलत सामग्री से चर्चा पर पड़ने वाले दुष्प्रभाव को कम करने के लिए औपचारिक वापसी की प्रक्रिया आगे बढ़ा रहा है
- लेखक अब MIT से संबद्ध नहीं है
शोध सत्यनिष्ठा का महत्व
- शोध सत्यनिष्ठा MIT का एक मुख्य मूल्य है और संस्थान के मूल मिशन का हिस्सा है
- MIT ने research misconduct के मामलों पर तेजी से प्रतिक्रिया देने के लिए गोपनीय प्रक्रियाएँ और संबंधित नीतियाँ तैयार कर रखी हैं
- संबंधित नीतियाँ और प्रक्रियाएँ MIT की आधिकारिक वेबसाइट पर देखी जा सकती हैं
फैकल्टी का आधिकारिक रुख
- प्रोफेसर Daron Acemoglu और प्रोफेसर David Autor का इस पेपर में फुटनोट के रूप में उल्लेख किया गया था, और उन्होंने निम्नलिखित आधिकारिक बयान जारी किया
- यह पेपर अर्थशास्त्र विभाग के पूर्व दूसरे वर्ष के PhD छात्र का काम है, और अभी तक किसी peer-reviewed journal में प्रकाशित नहीं हुआ है, फिर भी AI और विज्ञान से संबंधित साहित्य में इस पर सक्रिय चर्चा हो रही है
- समय के साथ शोध की वैधता पर सवाल उठे और मामला संबंधित विभागों को रिपोर्ट किया गया
- फरवरी 2024 में MIT ने अपनी आंतरिक नीति के तहत गोपनीय जांच शुरू की
- सूचना प्रकटीकरण पर प्रतिबंध के कारण परिणामों की घोषणा करना कठिन है, लेकिन उन्होंने फिर दोहराया कि डेटा और शोध के स्रोत, विश्वसनीयता और सत्यनिष्ठा पर उन्हें बिल्कुल भरोसा नहीं है
- इस जानकारी को सार्वजनिक करने का कारण यह है कि पेपर अभी प्रकाशित न होने के बावजूद AI का विज्ञान पर प्रभाव विषयक चर्चा को प्रभावित कर रहा है
- MIT सटीक research record को अत्यंत महत्वपूर्ण मानता है, और यह स्पष्ट करता है कि अकादमिक जगत तथा सार्वजनिक विमर्श में इस पेपर के निष्कर्षों पर निर्भर होकर चर्चा करना उचित नहीं है
निष्कर्ष और सिफारिशें
- MIT ने अकादमिक जगत और आम जनता से इस पेपर को अकादमिक संदर्भ सामग्री के रूप में उपयोग न करने की सिफारिश की
- शोध की सटीकता और विश्वसनीयता सुनिश्चित करना सर्वोच्च प्राथमिकता है
1 टिप्पणियां
Hacker News की राय
मैं समझ रहा हूँ कि arXiv पर पेपर वापस लेने का अनुरोध केवल लेखक ही कर सकता है, और MIT की स्थिति यह है कि उसने लेखक से वापसी का अनुरोध किया है लेकिन अभी तक वह हुआ नहीं है, इसलिए वह इसे एक स्पष्टीकरणात्मक बयान के रूप में पेश कर रहा है। मुझे लगता है कि MIT ने निजता की उचित रक्षा करते हुए भी घटनाक्रम के बारे में कुछ जानकारी सामने लाने का जो तरीका अपनाया है, वह ठीक है। यह अटकल भी लगाई गई कि लेखक ने शायद पेपर को वहीं छोड़कर MIT स्वेच्छा से छोड़ दिया हो और उम्मीद की हो कि इससे उसे नए मौके मिलेंगे, और उसने शायद नहीं सोचा होगा कि MIT इस पर आधिकारिक बयान जारी करेगा
यह दावा है कि MIT सारी जिम्मेदारी छात्र पर डालकर अपनी लापरवाही छिपा रहा है। लेखक को प्रसिद्ध और संपन्न MIT प्रोफेसरों की सिफारिश मिली थी, और यह मानना कठिन है कि दूसरे वर्ष का एक PhD छात्र उद्योग में संपर्कों के बिना इतना बड़ा धोखाधड़ी वाला शोध अकेले कर सकता था। पेपर के abstract में दिए गए आँकड़े—"AI ने 44% अधिक नए materials खोजे, patent filings में 39% वृद्धि हुई, और downstream innovation 17% बढ़ा"—उद्योग अनुसंधान की वास्तविकता को देखते हुए केवल संख्याएँ देखकर ही संदिग्ध लगते हैं। राय यह है कि इतने बड़े आँकड़ों को देखकर बुनियादी समझ रखने वाला भी इसे फर्जी मान सकता है
यह भी पुष्टि की गई कि लेखक ने अपने निशान छिपाने के लिए नकली वेबसाइट बनाई थी, और ऐसा दिखाने के लिए कि वह Corning नाम की कंपनी में काम करता था, डोमेन तक रजिस्टर किया था। इसके कारण Corning को WIPO के जरिए डोमेन का जबरन ट्रांसफर कराना पड़ा, यह घटना भी जोड़ी गई
लेखक द्वारा Zoom पर अपने पेपर का सेमिनार देने वाला वीडियो भी साझा किया गया। पीछे मुड़कर देखने पर, यह बात ध्यान खींचती है कि झूठ बोलते समय वह न स्क्रीन की ओर देख रहा था न कैमरे की ओर, और यह चिंता भी जताई गई कि शायद इस तरह के तत्काल झूठ बोलना उसके लिए पहले से रोजमर्रा की आदत बन चुका था
पहली नज़र में यह महसूस हुआ कि पेपर के plot data बहुत ज़्यादा साफ-सुथरे दिखते हैं, इसलिए वे वास्तविक डेटा के बजाय हेरफेर किए हुए लगते हैं। खासकर मई 2022 में, जब chatGPT दुनिया में आए सिर्फ 6 महीने बाकी थे, उस समय दूसरे वर्ष का एक PhD छात्र किसी बड़ी कंपनी की materials experimental lab को हज़ार लोगों के स्तर का प्रयोग चलाने के लिए कैसे मना सका—यह समझाया नहीं गया है। मॉडल का विवरण भी GAN+diffusion वगैरह कहकर सतही रूप से आगे बढ़ जाता है और उसमें ठोस विवरण नहीं है; और बड़ी कंपनियों के वास्तविक कामकाजी अनुभव के आधार पर यह साफ कहा गया कि इतने बड़े पैमाने की adoption इतनी कम अवधि में कभी नहीं होती
पेपर का experimental design वास्तविकता में संभव नहीं लगता, इसलिए इसकी तुलना Michael LaCour के पेपर fraud से की गई। वहाँ भी survey panel responses और दोबारा response rates जैसी चीजें सामान्य समझ से परे थीं, और जिन कंपनियों के पास वास्तव में ऐसा experiment चलाने की क्षमता थी, उन्होंने भी कहा था कि वे ऐसी प्रक्रिया नहीं कर सकतीं—इस समानता पर ध्यान दिलाया गया
यह भी इंगित किया गया कि पेपर के लेखक ने कहा था कि उसे MIT IRB से human-subjects approval मिला था और उसने उसका नंबर तक बताया था, लेकिन उस समय वह PhD program में दाखिल भी नहीं हुआ था
Q&A session में लेखक ने दावा किया कि उसने GAN नहीं बल्कि GNN (graph neural network) इस्तेमाल किया था, लेकिन यह भी साझा किया गया कि प्रस्तुति सुनने वाले लोग भी पेपर की वैधता पर गहराई से सवाल उठाने वाले माहौल में नहीं थे
जब किसी पेपर की replication मुश्किल हो और पूरा क्षेत्र ही बहुत विशाल हो, तो सवाल उठता है कि आखिर ऐसे पेपर की वास्तविक जाँच कब हो सकेगी, और इस क्षेत्र में ऐसे कितने fraud papers हैं, इस पर और सोचना चाहिए। व्यक्तिगत अनुभव के आधार पर यह भी कहा गया कि ML क्षेत्र में संख्याएँ गढ़ने वाले लोग वास्तव में काफी रहे हैं
वैज्ञानिकों के मासिक कार्य-समय आवंटन का डेटा automated text analysis से साल भर लगभग एक-सा निकाल लेना शुरू से ही असंभव-सा लगता है। अगर ऐसा डेटा हो, तो उसकी quality कल्पना से भी बेहतर होनी चाहिए, जबकि वास्तविकता में यह स्तर संभव नहीं है
कहा गया कि MIT के कुछ प्रतिष्ठित अर्थशास्त्री पेपर की विश्वसनीयता पर सवाल उठाने वालों के पक्ष में थे, और एक वास्तविक materials कंपनी के innovation cases की जाँच करते हुए मतभेद दूर नहीं कर पाए, इसलिए MIT से जाँच करानी पड़ी। यह केवल छात्र को बाहर निकाल देने से समाप्त होने वाली बात नहीं है; जिन प्रोफेसरों ने पेपर को सक्रिय रूप से आगे बढ़ाया, अगर वे सच में शोध में शामिल थे, तो उन्हें कम-से-कम यह तो जाँचना चाहिए था कि क्या वह रहस्यमय हज़ार-लोगों वाली लैब सचमुच मौजूद थी, और क्या वास्तविक AI tools का उपयोग हुआ था
acknowledgements list में दर्ज 21 लोगों में से किसी एक ने भी डेटा के स्रोत पर संदेह नहीं किया—इस पर तंज किया गया। उनमें से एक ने तो इस शोध पर एक लोकप्रिय Twitter thread भी लिखा था, लेकिन जब हाल की घटना के बारे में बताया गया, तो उसका जवाब सिर्फ इतना था कि "पेपर का डेटा शायद भरोसेमंद नहीं लगता"
यह भी शिकायत की गई कि अकादमिक जगत में बहुत से ऐसे प्रोफेसर हैं जिनकी प्रतिष्ठा बड़ी है लेकिन वे पेपर ठीक से पढ़ते भी नहीं, और व्यक्तिगत रूप से भी ऐसी वास्तविकता का सामना करने की बात कही गई। नाम नहीं बताए जा सकते, लेकिन कठिन परिस्थितियों के बावजूद एक अच्छे co-advisor के होने से कुछ सकारात्मक सोच बनी हुई है
जब पूछा गया कि यह जानकारी किस स्रोत से ली गई है, तो जवाब दिया गया कि यह Washington Post और WSJ के लेखों से है
इस बात पर ध्यान दिलाया गया कि पेपर को पहले ही लगभग 50 बार cite किया जा चुका है। पुराने पारंपरिक journals में कम-से-कम पेपर की समस्या से जुड़ा कोई संदेश छोड़ा जा सकता था, लेकिन arXiv में पेपर का पीछा करने पर विवाद या बहस के बारे में पता ही नहीं चलता, और इससे preprint server की एक कमजोरी उजागर होती है
यह भी बताया गया कि इन 50 citations में से अधिकांश arXiv जैसे preprints या ResearchGate जैसी जगहों पर हैं। वास्तव में peer-reviewed journals में हुई citation संख्या ही अधिक यथार्थवादी पैमाना है। arXiv को review के बिना PDF blog जैसा बताया गया, जहाँ बस थोड़ा-सा invitation system है, इसलिए उसकी रक्षा-व्यवस्था कमजोर लगती है। इस संदर्भ में पुराने कुछ अजीब cryptography papers का भी ज़िक्र किया गया
कहा गया कि यह कमजोरी review की अनुपस्थिति से आती है; arXiv में कुछ moderation तो है, लेकिन भरोसे के स्तर की वास्तविक जाँच नहीं। किसी पेपर पर भरोसा करने का मतलब है या तो लेखक पर भरोसा करना या स्वयं समीक्षा करना, और retraction के समय भी कारण अलग से नहीं छोड़ा जाता, इसलिए लोगों को खुद ही ट्रैक करना पड़ता है। उदाहरण के तौर पर, एक वापिस लिए गए पेपर का संदेश उद्धृत किया गया जिसे वक्ता ने स्वयं देखा था
यह भी साझा किया गया कि इस पेपर पर कुछ महीने पहले भी HN में चर्चा हुई थी
इस बात पर जोर दिया गया कि तब से ही कुछ लोगों ने इसे संदिग्ध पहचान लिया था, और साथ में लिंक भी जोड़ा गया
चर्चा वाली पोस्ट का शीर्षक और लिंक जोड़कर अतिरिक्त जानकारी दी गई
राय यह थी कि पेपर को पूरी तरह हटाने के बजाय research preprint पर समस्याओं और संभावित fraud के बारे में एक नोट जोड़ना बेहतर होगा। चूँकि इसे पहले ही cite किया जा चुका है, आगे कभी इसके वास्तविक प्रभाव की जाँच करनी पड़े तो पेपर के गायब हो जाने से केवल खालीपन रह जाएगा—इस चिंता का उल्लेख किया गया
यह भी कहा गया कि पेपर के पुराने versions वैसे भी बने रहते हैं, और MIT ने वापसी का अनुरोध किया है—यह तथ्य भी उल्लेखित है। साथ ही यह इंगित किया गया कि media headlines थोड़ी भ्रामक हो सकती हैं
यह भी माना गया कि ताकि आपराधिक या फर्जी पेपर आगे cite न होते रहें, citations देने वाले papers पर भी warning mark जैसे संकेत होने चाहिए, जिससे fraud का प्रभाव अंत तक बना न रहे
यह इच्छा भी व्यक्त की गई कि arXiv पर कम-से-कम ऐसा एक पेज हो जिस पर लिखा हो, "यहाँ कभी एक पेपर था, लेकिन उसे वापस ले लिया गया"
MIT के इस रुख पर सवाल उठाया गया कि वह केवल PhD छात्र की गलती की बात कर रहा है और VC funding, backroom dealing, या संगठित भ्रष्टाचार की संभावना को पूरी तरह नकार रहा है। दृष्टिकोण यह है कि अगर संबंधित पेपर के पकड़े जाने की संभावना पहले से जानते हुए भी AI बाज़ार की valuation और hype को बढ़ाकर लाभ लिया गया, और विवाद बढ़ने पर थोड़ी-सी कीमत देकर माफ़ी माँग ली गई, तो अंततः बड़ा फायदा तो मिल ही जाता है। यह भी कहा गया कि दवा कंपनियाँ कभी-कभी बाज़ार में ऐसी रणनीतियाँ अपनाती हैं। इसलिए भरोसेमंद संस्थानों या publications में भी झूठे या थोड़े विकृत papers हो सकते हैं, और केवल किसी news article में citation होने से तार्किक वैधता की गारंटी नहीं मिलती—यह सतर्कता भी जताई गई
यह भी इंगित किया गया कि MIT का आधिकारिक बयान बहुत कम विवरण देता है, और WSJ के लेख में अपेक्षाकृत अधिक जानकारी है, लेकिन फिर भी विशिष्ट विवरणों की कमी है। दोबारा बताया गया कि जिन अर्थशास्त्रियों ने इस पेपर को सक्रिय रूप से प्रचारित किया था, बाहरी computer scientists की आपत्ति के बाद MIT की आंतरिक जाँच शुरू हुई
यह राय व्यक्त की गई कि केवल "दूसरे वर्ष के PhD से पूर्व" जैसी पहचान सामने आना ही इस बात का संकेत है कि उसे निकाल दिया गया है