- डीप लर्निंग मॉडल का उपयोग करने वाले enzyme function prediction पेपर को बहुत ध्यान और citations मिलते हैं, जबकि fact-check के ज़रिये त्रुटियाँ दिखाने वाले पेपर को लगभग कोई ध्यान नहीं मिलता
- Transformer-आधारित मॉडल से 22 million enzyme data पर training करके 450 unverified enzyme functions की prediction करने वाला शोध Nature Communications में प्रकाशित हुआ
- लेकिन बाद के पेपर में सैकड़ों गलत predictions, data duplication, और biologically impossible conclusions सामने आए
- विशेषज्ञों के गहन विश्लेषण के बिना AI results की reliability का मूल्यांकन करना कठिन है, और गलत data के लगातार फैलते रहने का जोखिम बढ़ जाता है
- चमकदार AI models से अधिक बुनियादी data validation और domain knowledge integration के महत्व पर फिर से ज़ोर दिया गया
Deep learning gets the glory, deep fact checking gets ignored
- डीप लर्निंग-आधारित एंजाइम फ़ंक्शन प्रेडिक्शन शोधपत्र ने 22 million enzyme data पर training करके Transformer model से 450 unverified enzyme functions की prediction की, Nature Communications में छपा, और बहुत ध्यान आकर्षित किया
- लेकिन follow-up paper में सैकड़ों गलत predictions, existing database के साथ duplication, biologically impossible results, और बार-बार होने वाली errors बड़ी संख्या में मिलीं
- उदाहरण के लिए, E. coli के एक specific gene function को AI ने गलत predict किया, जबकि पहले के शोध में यह साबित हो चुका था कि उसका वह function नहीं है
- इन त्रुटियों को उजागर करने वाला पेपर bioRxiv में प्रकाशित हुआ, लेकिन views और citations बहुत कम रहे, जिससे publication incentive structure की समस्या सामने आई
- विशेषज्ञों ने AI modeling से अधिक data validation और domain expertise की ज़रूरत पर ज़ोर दिया और गलत जानकारी के databases के माध्यम से फिर से फैलने के जोखिम की चेतावनी दी
The Problem of Determining Enzyme Function
- enzyme जीवों के भीतर महत्वपूर्ण reactions को catalyze करते हैं, और विभिन्न functions को Enzyme Commission(EC) number से classify किया जाता है
- amino acid sequence से EC number predict करना ऐसा काम माना जाता है जिसमें input और output स्पष्ट होते हैं, इसलिए यह machine learning के लिए उपयुक्त समझा जाता है
- UniProt database में 22 million से अधिक enzymes और उनके EC numbers व्यवस्थित हैं, इसलिए training data प्रचुर मात्रा में उपलब्ध है
An Approach with Transformers (AI model)
- शोधकर्ताओं ने Transformer, convolution layer, linear layer से बने model का उपयोग करके unverified enzymes के functions predict किए
- एक उल्लेखनीय बात यह थी कि model interpretability के लिए यह विश्लेषण किया गया कि high attention region जैविक रूप से अर्थपूर्ण हैं या नहीं
- 450 unverified enzymes में से केवल 3 को experiment (in vitro) से validate करके सही होने का दावा किया गया
The Errors
- Nature paper में प्रकाशित 450 'नए' results में से 135 results पहले से existing databases में मौजूद थे
- 148 results में repetition बहुत अधिक थी; जैसे एक ही enzyme function को कई बार predict किया गया, और ऐसे biologically impossible errors बड़ी संख्या में पाए गए
- कई मामलों में ऐसे synthesis enzymes की prediction की गई जो E. coli बनाता ही नहीं, या results existing experiments से टकराते थे
- data leakage की संभावना भी उठाई गई, और जिन क्षेत्रों में वास्तविक ground truth नहीं था, वहाँ predictions में बार-बार errors देखी गईं
The Microbiology Detective
- follow-up paper की Dr. de Crécy-Lagard ने पुष्टि की कि Nature paper की predicted enzymes में से एक, yciO, पिछले शोध के स्पष्ट रूप से विपरीत था
- yciO और TsaC evolutionary रूप से जुड़े हैं, लेकिन वास्तविक experiments में बार-बार दिखाया गया कि yciO, TsaC का function replace नहीं कर सकता
- इससे केवल structural similarity के आधार पर function को समान मानने वाली algorithmic limitation सामने आई
- enzyme function पहचानने के लिए gene के आस-पास का context, substrate binding, metabolic pathway जैसे अनेक प्रमाणों को साथ में देखना पड़ता है
Hundreds of Likely Erroneous Results
- follow-up paper team ने पुष्टि की कि Nature paper की 450 predictions में से 135 पहले से database में registered थीं
- 148 मामलों का विश्लेषण यह बताता है कि समस्याएँ एक ही function की repeated prediction, data bias, features की कमी, और architecture limitations के कारण हुईं
- कई results को biological context या existing literature review के आधार पर गलत साबित किया गया
Rethinking Enzyme Classification and “True Unknowns”
- enzyme function prediction में known function propagation और true unknown function discovery जैसी दो अलग चुनौतियाँ आपस में मिल जाती हैं
- Supervised ML में वास्तव में अज्ञात functions की prediction करने की मूलभूत सीमा होती है
- गलत predictions जब UniProt जैसे databases में दर्ज हो जाती हैं, और फिर वही data models को दोबारा train करने में इस्तेमाल होता है, तब errors का चक्र बन जाता है
Need for Domain Expertise
- AI research के विपरीत, data validation और domain experts के गहन विश्लेषण के लिए incentives कम हैं, इसलिए शोधकर्ताओं का ध्यान इस ओर कम जाता है
- पेपर में यह भी सामने आया कि high-risk AI projects की विफलता के कारणों में से एक domain knowledge का अपर्याप्त उपयोग है
- अधिकतर deep learning papers domain experts की सूक्ष्म validation से नहीं गुजरते, इसलिए ऊपर से प्रभावशाली दिखने वाले papers में भी वास्तव में बहुत errors हो सकती हैं
निष्कर्ष और सुझाव
- चमकदार AI model development से अधिक मूलभूत data validation और domain knowledge integration के महत्व पर ज़ोर दिया गया
- यह तर्क दिया गया कि research incentives और support को व्यावहारिक validation research पर अधिक केंद्रित होना चाहिए
- यह संकेत मिलता है कि error verification और data quality improvement लंबे समय में AI के विकास में अधिक बड़ा योगदान दे सकते हैं
1 टिप्पणियां
Hacker News राय
मेरा मानना है कि लोग अक्सर यह भूल जाते हैं कि data leakage संभव है। जब तक यह दिखाने के लिए बहुत मज़बूत सबूत न हों कि data leakage नहीं है, तब तक हमेशा मानकर चलना चाहिए कि leakage है, और उल्टा यह साबित करने की ज़िम्मेदारी लेखकों पर होनी चाहिए कि leakage नहीं है। छोटे datasets में leakage और भी आसान समस्या है, क्योंकि डेटा को सीधे पूरा देखकर काम किया जा सकता है, इसलिए यह और आसानी से हो सकता है। मामूली सी गलती से डेटा खराब हो जाना बहुत आम बात है। अब datasets इतने विशाल हो गए हैं कि इंसान पूरा का पूरा review नहीं कर सकता, इसलिए सबको पता है कि filtering अपूर्ण है, फिर भी यह मान लेना संभव नहीं कि leakage नहीं है। यह कहा जा सकता है कि filtering की गई, लेकिन यह सच में नहीं कहा जा सकता कि leakage बिल्कुल नहीं है। जिन datasets तक हमारी वास्तव में पहुँच है, उनमें भी हम अक्सर समस्याएँ पाते हैं। ऐसा बार-बार देखने के बावजूद लोग क्यों मानते रहते हैं कि डेटा ठीक-ठाक है, यह समझ नहीं आता। शायद यह अतिशय अपेक्षाओं में फँसा आत्म-छल है। समस्या को ठीक करना है तो वास्तविकता को सही तरह से देखना होगा
हर system में defects होते ही हैं। असली सवाल यह है कि कितनी defect rate तक हम स्वीकार कर सकते हैं। उदाहरण के लिए, Medicare और Medicade में fraud cases 7.66% थे; रकम के हिसाब से यह बहुत बड़ा है, लेकिन इससे यह नहीं निकलता कि system पूरी तरह विफल था, क्योंकि बाकी 93% ठीक चल रहा था। AI models पर भी यही बात लागू होती है: अगर error rate 10% है, तो इसका मतलब यह नहीं कि पूरा system खराब है, बल्कि इस पर चर्चा होनी चाहिए कि क्या इतना अनुपात स्वीकार्य है। संदर्भ सामग्री देखें
यह तर्क कि proof burden कहाँ है, उतना guiding principle नहीं बनता जितना बहुत लोग सोचते हैं
मेरा मानना है कि AI को research करने से पहले कम-से-कम existing research को reproduce करना आना चाहिए। उदाहरण के लिए, अगर किसी deep learning paper को AI को देकर उसका implementation कराया जाए, तो उसकी असली क्षमता का आकलन किया जा सकता है। अगर यह बुनियादी चीज़ नहीं होती, तो नए ideas की उम्मीद करना मुश्किल है
मैंने पहले सोचा था कि कोई यह प्रस्ताव रखेगा: "paper का सिर्फ शुरुआती हिस्सा AI को दो और बाकी AI से पूरा कराओ।" अगर इस स्तर की validation भी अभी संभव नहीं है, तो मुझे नहीं लगता कि AI innovative discoveries कर सकता है
OpenAI ने इस संबंध में एक benchmark बनाया है: paperbench लिंक
एक पूरी तरह पारदर्शी, सत्यापित किए जा सकने वाले record system की ज़रूरत है, और यह भी सुनिश्चित होना चाहिए कि paper पहले से dataset में exposed न रहा हो। papers में academic misconduct दुर्लभ है, लेकिन कभी-कभी होता है, और LLM बिना झिझक झूठी जानकारी बना सकता है
उदाहरण के तौर पर, किसी paper के experimental statistics को AI को देकर raw data reproduce करवाना भी संभव हो सकता है
यह idea न सिर्फ काफ़ी दिलचस्प है, बल्कि reproducibility verification की समस्या को भी कुछ हद तक हल कर सकता है। हालाँकि, AI द्वारा reproduce किए गए research की भी अंततः इंसानों द्वारा बारीकी से जाँच होनी ही चाहिए। व्यावहारिक रूप से अभी भी कई भूमिकाएँ हैं जहाँ LLM उपयोगी हो सकता है, जैसे peer review प्रक्रिया में data processing code की verification में मदद करना, literature survey में सहायता देना, और idea brainstorming में काम आना
"Nature Communications" और "Nature" का stature पूरी तरह अलग है। दोनों को एक जैसा मानना ठीक नहीं। और altmetrics बहुत अर्थपूर्ण metric नहीं है। जब तक उद्देश्य public buzz को मापना न हो, इसका scientific citations से ज़्यादा संबंध नहीं है
ज़्यादातर deep learning papers को देखें तो domain experts द्वारा outputs की बहुत बारीक verification कम ही होती है। मुझे संदेह है कि प्रभावशाली दिखने वाले बहुत से papers सख्त verification से नहीं गुजर पाएँगे। लेकिन मेरे अपने field में AI papers को मैं खुद पढ़ता हूँ और दूसरे experts भी काफ़ी जाँचते हैं। हालाँकि, computer science या software वाले outputs biology की तुलना में verify करना आसान लगता है (या शायद मुझे bio कम समझ आता है, इसलिए ऐसा लगता है)
biology में labels की validity verify करने में ही कई साल लग जाते हैं। OP ने जो उदाहरण दिया, वह संयोग से ऐसा मामला है जहाँ किसी ने पहले ही कई साल लगाकर किसी खास prediction को validate कर दिया था; यह बहुत lucky example है। ज़्यादातर लोग 3–5 साल अपनी career दाँव पर लगाकर किसी random model prediction को validate करने नहीं जाते
मेरे field में, जब papers में ऐसी techniques इस्तेमाल होती हैं, तो लोग बारीकी से जाँचते हैं और आलोचना भी सामने रखते हैं। समस्या यह है कि दूसरी fields के लोग ऐसी आलोचनाओं को अक्सर गंभीरता से नहीं लेते
यह तर्क दिया गया कि AI को एक 'reality checker' subsystem चाहिए। LLM कुछ-कुछ ऐसा है जैसे हमारा अवचेतन लगातार बकबक जैसा शोर पैदा करता रहता हो। वास्तव में हमारे दिमाग में एक तरह का internal filter होता है जो यह छानता है कि "जो मैंने कहा, क्या वह falsifiable truth है?" और झूठ को रोकता है। (हालाँकि मज़ाक में यह भी जोड़ा गया कि यह सब पर लागू नहीं होता)
पूरी तरह सहमत। कुछ महीने पहले, देर रात आधी नींद में मैंने महसूस किया कि मेरा दिमाग लगातार तरह-तरह के phrases और विचार बना रहा था। कई बार साफ़ महसूस हुआ कि ये सारे ideas filter होकर वाक्यों में ढल रहे हैं। यह मेरा निजी अजीब अनुभव है, लेकिन मुझे लगता है कि AI में भी ऐसा algorithm ज़रूरी है। अगर मैं PhD करूँ, तो इसे research topic बनाना चाहूँगा
इंसानी 'reality checker' system, GAN के discriminator जैसा है, लेकिन उस पर emotions का बहुत गहरा असर होता है। psychology research के अनुसार, इंसानों की truth-evaluation circuitry हमेशा emotional signals से शुरू होती है, और उसकी जड़ beliefs में होती है। जब कोई व्यक्ति मेरी मान्यताओं से बहुत अलग बात कहता है, तो पहले emotional reaction आता है, बाद में rational judgment शामिल होता है
एक researcher के रूप में LLM के साथ मेरा अनुभव इससे मेल खाता है। मैंने text understanding और generation की क्षमता पर गहरा आश्चर्य महसूस किया, लेकिन कहीं अधिक कठिन और unsolved problems पर इसका तुरंत जवाब दे देना हमेशा निराशाजनक लगा। जटिल सवालों पर समय लेकर सोचना चाहिए, लेकिन LLM बिना उस गहराई या विचार के भी बहुत आत्मविश्वास से जवाब दे देता है, चाहे जवाब पूरी तरह गलत ही क्यों न हो
Rachel Thomas का यह शानदार लेख है। यह फिर दिखाता है कि deep learning आखिरकार [generative] information retrieval tool ही है। training data वास्तविक domain को reflect करता है, लेकिन मूलतः यह बहुत high-loss dataset होता है। उदाहरण के लिए, gene data/labels biology की वास्तविक संरचना का पूरी तरह प्रतिनिधित्व नहीं करते, इसलिए नतीजे भी अक्सर गलत या बेमानी हो सकते हैं। बल्कि जब चीज़ें अजीब तरह से बहुत अच्छी तरह match करती दिखें, तो design के हिसाब से information retrieval tool (LLM) होने के कारण data leakage की संभावना भी हो सकती है। information theory के नज़रिए से dataset की सीमाएँ हर model के लिए एक साझा अज्ञात risk factor हैं। निष्कर्षतः, यह algorithm की नहीं बल्कि training dataset की समस्या है। हम natural language वाले domain में बहुत लचीले ढंग से काम करते हैं, और कोई छोटा बच्चा भी लिखी चीज़ पढ़कर समझ सकता है कि बात समझ में आती है या नहीं। NLP में LLM की सफलता ऐसे ही data की वजह से है। इसके विपरीत, जिन जटिल fields में source data अपनी मूल प्रकृति को ईमानदारी से capture नहीं करता, वहाँ सीमाएँ और ज़्यादा हैं
यह चिंता है कि misinformation अब science में भी घुस रही है। बिना आधार वाले उत्तेजक दावे, वास्तविक research support की तुलना में ज़्यादा ध्यान पा रहे हैं; यह social media की वास्तविकता की तरह अब science में भी दिखाई दे रहा है। लेकिन Twitter और Nature journal को एक ही स्तर पर नहीं रखा जा सकता, और प्रतिष्ठित journals तथा peer review system को अब तक इस समस्या के खिलाफ 'last line of defense' माना जाता था। तो क्या इस मामले को Nature की विफलता कहना सही होगा?
यह याद रखना चाहिए कि high-impact journals में paper retractions और unverified work का अनुपात अधिक होने के आँकड़े मौजूद हैं। इस समस्या का मूल कारण विवादास्पद हो सकता है, लेकिन कोई एक paper सत्य सिद्ध नहीं करता; असली भरोसे का आधार यह है कि अलग-अलग institutions और कई research groups स्वतंत्र रूप से परिणामों की पुष्टि करें
science में misinformation की समस्या अभी अचानक बड़ी नहीं हुई; कुछ वर्षों से 'reproducibility crisis' पर बहस चलती आ रही है
ML Quantum Wormhole paper के उदाहरण की तरह, गलत research अब सिर्फ लोकप्रिय science articles तक सीमित नहीं रही, बल्कि प्रतिष्ठित journals में भी छप रही है—यह निराशाजनक है। यह सिर्फ गलती नहीं लगती, बल्कि ऐसे बहुत से मामले हैं जहाँ researchers और reviewers दोनों ने उचित verification छोड़ दी। निजी तौर पर मैं पहले से पारंपरिक journal system को लेकर संशय में था और अधिक स्वतंत्र academic publishing चाहता था, लेकिन अब लगता है कि journals खुद ही अपनी साख कम कर रहे हैं। सबसे बड़ी चिंता यह है कि इससे science पर जनता का भरोसा और कमज़ोर होगा। science के भीतर की सूक्ष्म बहसें आम लोगों के लिए समझना कठिन हैं, और ऐसी घटनाएँ anti-science पक्ष को बस एक और बहाना दे देती हैं
इससे Bullshit asymmetry principle (Brandolini's law) याद आता है: इस सिद्धांत का लिंक
हम अक्सर ML/AI की किसी एक शानदार सफल घटना का ज़ोरदार प्रचार करते हैं, और विफल रही दर्जनों कोशिशों को नज़रअंदाज़ कर देते हैं