- प्लाज़्मा भौतिकी शोध में AI के उपयोग को लेकर अपेक्षाओं के विपरीत, वास्तविक अनुप्रयोग के नतीजे बढ़ा-चढ़ाकर पेश की गई उपलब्धियों और सीमाओं के इर्द-गिर्द रहे
- AI का उपयोग करके PDE (आंशिक अवकल समीकरण) हल करने के तरीके, जैसे PINN, विश्वसनीयता और प्रदर्शन के मामले में पारंपरिक संख्यात्मक विधियों पर स्पष्ट बढ़त देने में नाकाम रहे
- कमज़ोर baseline और reporting bias की वजह से AI के प्रदर्शन पर अधिकांश शोधपत्र वास्तविकता से कहीं अधिक सकारात्मक मूल्यांकन पेश करते हैं
- विज्ञान में AI का उपयोग तेज़ी से बढ़ रहा है, लेकिन इसे वैज्ञानिक प्रगति को बदल देने वाले औज़ार की बजाय क्रमिक और सीमित योगदान देने वाले साधन के रूप में देखने के अधिक कारण हैं
- वैज्ञानिक शोधपत्रों की संरचना और शोधकर्ताओं के incentives के कारण विफलताओं को प्रकाशित न करना और उपलब्धियों को बढ़ा-चढ़ाकर बताना बार-बार दोहराया जाता है, इसलिए विज्ञान पर AI के प्रभाव का आकलन करते समय मूलभूत संशयवादी दृष्टि की ज़रूरत है
परिचय और शोध पृष्ठभूमि
- लेखक Nick McGreivy ने Princeton से प्लाज़्मा भौतिकी में PhD पूरी करने के बाद इस उम्मीद से मशीन लर्निंग आधारित शोध की ओर रुख किया कि AI वैज्ञानिक अनुसंधान, खासकर भौतिकी, में क्रांतिकारी योगदान दे सकता है
- वे इस सवाल में रुचि रखते थे कि क्या AI इलेक्ट्रॉनिक्स, इंटरनेट और integrated circuits जैसी एक सामान्य-उद्देश्य तकनीक बनकर पूरे विज्ञान को बदल सकता है
- लेकिन वास्तविकता में, AI आधारित PDE (आंशिक अवकल समीकरण) solving पर काम करते हुए, प्रसिद्ध शोधपत्रों में प्रकाशित दावों की तुलना में उन्हें व्यावहारिक उपयोग में अपेक्षा से कमज़ोर नतीजे मिले
PINN (Physics-Informed Neural Network) लागू करने का अनुभव
- AI के माध्यम से PDE solving के क्षेत्र में PINN एक प्रमुख विधि के रूप में तेज़ी से उभरा, और लेखक ने भी इसे प्रयोग के तौर पर अपनाया
- पहले के शोधपत्रों में कहा गया था कि PINN ने classical fluids, quantum mechanics और reaction-diffusion systems सहित कई PDE समस्याओं में प्रभावी समाधान दिए, लेकिन व्यवहार में लेखक ने पाया कि बहुत सरल PDEs, जैसे 1D Vlasov, पर भी परिणाम अस्थिर थे या उनकी विश्वसनीयता काफ़ी कम थी
- साधारण tuning से सुधार नहीं हुआ, और अधिक जटिल PDEs, जैसे 1D Vlasov-Poisson, में तो उचित समाधान निकालना ही असफल रहा
- आसपास के शोधकर्ताओं ने भी ऐसी ही विफलताएँ देखीं, लेकिन ऐसे नकारात्मक परिणाम लगभग कभी शोधपत्रों के रूप में प्रकाशित नहीं हुए
PINN प्रयोगों से मिली सीख
- प्रभावशाली शुरुआती शोधपत्रों के लेखक भी जानते थे कि कुछ settings में PINN विफल हो जाता है, लेकिन उन्होंने केवल वे परिणाम प्रकाशित किए जो काफ़ी भरोसेमंद दिखते थे
- वैज्ञानिक शोधपत्रों के ecosystem में सकारात्मक परिणामों पर केंद्रित reporting और AI से जुड़े असफल प्रयोगों को न प्रकाशित करने की प्रवृत्ति survivorship bias को और गहरा करती है
- PINN का विचार संख्यात्मक रूप से आकर्षक है, लेकिन अस्थिरता, fine-tuning की कठिनाई और धीमी processing speed जैसी व्यावहारिक सीमाओं के कारण लेखक ने इसे छोड़ दिया
- मूल शोधपत्र को 14,000 से अधिक citations मिले और वह numerical methods क्षेत्र के सबसे अधिक cited papers में से एक है, फिर भी वास्तविक PDE solving में यह पारंपरिक विधियों पर प्रतिस्पर्धी बढ़त नहीं दे पाया
- हाल के वर्षों में यह तर्क भी दिया गया है कि PINN inverse problems जैसे कुछ विशिष्ट क्षेत्रों में उपयोगी हो सकता है, लेकिन इस पर शोधकर्ताओं के बीच बहस जारी है
अनुपयुक्त तुलना मानकों से पैदा हुआ अतिरंजित आशावाद
- इसके बाद लेखक ने एक deep learning approach आज़माई, जिसमें पारंपरिक numerical techniques की तरह PDE solutions को grid या graph pixels के सेट के रूप में माना जाता है
- कई शोधपत्रों में दावा किया गया कि AI, PDE को पारंपरिक तरीकों से हज़ारों से लेकर दसियों हज़ार गुना तेज़ हल कर सकता है, लेकिन व्यवहार में अक्सर जिस baseline से तुलना की गई, वह खुद ही कमज़ोर तरीका निकला
- प्रतिनिधि शोधपत्रों के विश्लेषण में पाया गया कि जिन 76 papers में AI को मज़बूत बताया गया, उनमें से 60 (79%) ने पर्याप्त रूप से सक्षम पारंपरिक numerical methods के साथ निष्पक्ष तुलना नहीं की
- ऐसे कमज़ोर comparison standards और नकारात्मक परिणामों को प्रकाशित न करने की वजह से "AI ने क्रांतिकारी उपलब्धि हासिल की" जैसी धारणाएँ वास्तविकता से अधिक बढ़ी-चढ़ी दिखाई देती हैं
- इन निष्कर्षों ने academia और industry दोनों में बहस छेड़ी; कुछ लोगों ने इसे भविष्य के शोध की दिशा और AI की संभावनाओं को मज़बूत करने वाला कहा, जबकि कुछ ने वर्तमान overvaluation की समस्या को लेकर और अधिक सावधानी बरतने की बात की
विज्ञान में AI की भूमिका और सीमाएँ
- प्रमुख सफल उदाहरणों में AlphaFold की protein folding prediction, मौसम पूर्वानुमान में सटीकता का 20% तक सुधार, और drug discovery में clinical Phase 1 success rate का बढ़ना शामिल है, लेकिन व्यापक क्रांति की बजाय ये अधिकतर मौजूदा तकनीकों के पूरक और क्रमिक सुधार हैं
- वैश्विक Big Tech, मीडिया और academia अक्सर AI को "वैज्ञानिक नवाचार का औज़ार" या "विज्ञान की paradigm को बदल देने वाली परिवर्तनकारी शक्ति" के रूप में पेश करते हैं, लेकिन मौजूदा स्तर के AI में अपेक्षित मूलभूत क्रांति लाने की स्पष्ट सीमाएँ मौजूद हैं
AI अपनाने की प्रेरणा और शोध ecosystem की संरचनात्मक समस्याएँ
- वैज्ञानिकों द्वारा AI अपनाने का मुख्य कारण अक्सर स्वयं विज्ञान की प्रगति से अधिक व्यक्तिगत उपलब्धियाँ होती हैं, जैसे अधिक वेतन, करियर उन्नति, citations और research funding हासिल करना
- वास्तव में, AI का उपयोग करने वाले शोधकर्ताओं को उच्च citation वाले papers और शोध प्रतिस्पर्धा के संदर्भ में सामान्य वैज्ञानिकों की तुलना में अधिक अनुकूल माहौल मिलता है
- AI आधारित शोध में अक्सर शोधकर्ता पहले "कौन-सी वैज्ञानिक समस्या हल करनी है" यह तय नहीं करते, बल्कि पीछे से यह खोजते हैं कि "कौन-सा काम AI से हल कराया जा सकता है"
- इसके परिणामस्वरूप, कई बार वास्तविक वैज्ञानिक प्रगति की बजाय AI की क्षमता दिखाने पर ज़ोर रह जाता है, और अंत में पहले से हल समस्याएँ या केवल गौण प्रभाव ही सामने आते हैं
शोधपत्र reporting की संरचनात्मक सीमाएँ और विज्ञान में आशावादी bias
- नकारात्मक परिणामों के अप्रकाशित रहने, यानी survivorship bias, की वजह से AI की सफलताओं के उदाहरण तो लगातार सामने आते हैं, लेकिन असफलताएँ नहीं, जिससे समग्र प्रभाव का आकलन विकृत हो जाता है
- शोधपत्रों की संरचना में data leakage, कमज़ोर baseline, cherry-picking, और non-reporting जैसी व्यवस्थित त्रुटियाँ या biases बार-बार उत्पन्न होते हैं
- जब evaluator और हितधारक एक ही समुदाय के भीतर हों, तो उपलब्धियों का मूल्यांकन सीधे हितों से जुड़ी conflict of interest वाली संरचना में होने लगता है
- ऐसी स्थिति यह संकेत देती है कि विज्ञान में AI के प्रभाव का आकलन करते समय "पोषण विज्ञान के किसी एक शोधपत्र के निष्कर्ष पर आँख बंद करके भरोसा न करने" जैसी मूलभूत संशयशीलता और आलोचनात्मक सत्यापन की आदत ज़रूरी है
निष्कर्ष
- कम से कम निकट भविष्य में AI को विज्ञान में क्रांति लाने वाले revolutionary tool की बजाय, मौजूदा तरीकों के क्रमिक और चुनिंदा पूरक साधन के रूप में देखना अधिक यथार्थवादी लगता है
- शोध ecosystem के संरचनात्मक incentives, overhype, विफलताओं के अप्रकाशन, और कमज़ोर comparison baselines जैसी समस्याओं के कारण, AI की वास्तविक वैज्ञानिक उपलब्धियों का मूल्यांकन हमेशा आलोचनात्मक और संशयपूर्ण नज़रिए से किया जाना चाहिए
- संदेश साफ़ है कि AI आधारित आदर्श नवाचार के लिए संरचनात्मक सुधार, जैसे चुनौतीपूर्ण benchmark तय करना, विफलताओं को प्रकाशित करना, और निष्पक्ष comparison frameworks विकसित करना, साथ-साथ आगे बढ़ने चाहिए
1 टिप्पणियां
Hacker News राय
शीर्षक बदला गया है या नहीं, इसे लेकर भ्रम हुआ; मौजूदा शीर्षक है "I got fooled by AI-for-science hype—here's what it taught me"
शीर्षक वास्तव में मूल से बदला गया है, और व्यक्तिगत रूप से यह बदलाव मुझे और खराब लगता है; मूल शीर्षक बेहतर था, और मुझे नहीं लगता कि इस पेपर के मूल शीर्षक में कोई समस्या थी। यह एक PhD छात्र द्वारा उन संदिग्ध उदाहरणों का आलोचनात्मक विश्लेषण है जहाँ दावा किया जाता है कि AI वैज्ञानिक शोध में योगदान दे रहा है।
नहीं, यह भ्रम नहीं था; शीर्षक सचमुच बदला गया था, और उदाहरण के तौर पर archive लिंक भी दिया गया।
AI-आधारित FEM-स्टाइल structural analysis solver इस्तेमाल करने का “सौभाग्य” मिला था। छोटे linear deformation problems में यह किसी तरह काम चलाऊ था, लेकिन समस्या जटिल होते ही प्रदर्शन बहुत गिर जाता है। जहाँ पारंपरिक तरीका 5 मिनट में सटीक हल देता है, वहाँ यह 30 सेकंड में बस एक मोटा-सा हल देता है। nonlinear cases में तो पूरी तरह विफल हो जाता है। इसे बहुत high-level concept selection तक सीमित रूप से इस्तेमाल किया जा सकता है, लेकिन वहाँ भी यह कमजोर है। कुछ मॉडल तो बस curvature detector जैसे लगते हैं: सीधी रेखा नीली, ज्यादा curvature लाल, बाकी बस interpolation।
आखिरकार यह "second principles" solver के ज्यादा करीब लगता है; जिन परिस्थितियों को इसने पहले नहीं देखा, उन्हें यह बिल्कुल नए तरीके से हल नहीं कर पाता।
जिज्ञासा है कि क्या ऐसे मॉडल iterative methods में preconditioner की तरह इस्तेमाल किए जा सकते हैं।
नए और हॉट tech को जरूरत से ज्यादा ध्यान मिलने में हमेशा खतरा होता है। लेख की एक महत्वपूर्ण पंक्ति है: “ज्यादातर वैज्ञानिक जानबूझकर दूसरों को गुमराह नहीं करना चाहते, लेकिन अनुकूल परिणाम दिखाने का दबाव इतना मजबूत होता है कि अंततः वे भटका सकते हैं।” किसी के incentives को समझना, जानकारी की व्याख्या करने में बहुत उपयोगी है।
आखिर में यह academia की पुरानी बीमारी का ही दोहराव है: सत्य की खोज से ज्यादा citations और करियर उन्नति पर ध्यान। AI बस ऐसा ही एक विषय है।
मैं बहुत सामान्यीकरण नहीं करना चाहता, लेकिन जर्मनी के कुछ HPC centers में घूमते हुए जो पैटर्न देखा, वह यह था कि वहाँ ऐसे लोग काफी थे जिन्होंने physics पढ़ी थी लेकिन उसमें खास सफलता नहीं मिली, और AI से जुड़ा बजट भी अक्सर वही ले जाते हैं, जिससे ML4Science जैसे projects की भरमार हो जाती है। HPC centers सिर्फ physicists के लिए नहीं बने, इसलिए बजट का यह झुकाव खटकता है। लगता है कि जर्मनी को AI के मूलभूत research में ज्यादा निवेश करना चाहिए।
वास्तविक रूप से करियरवाद की समस्या academia द्वारा धीरे-धीरे private market logic अपनाने का दुष्प्रभाव है। software developer के रूप में मैंने यही सीखा है कि लगभग हर निर्णय self-interest और career के हिसाब से होता है। हर कोई बस अपनी उपलब्धियों की परवाह करता है, और काम खत्म होते ही जिम्मेदारी किसी और पर डाल देता है। अगर आप इस mindset का मुकाबला नहीं करते, तो उल्टा आप ही नुकसान में रहते हैं। अंत में सब वही करते हैं, और नुकसान सिर्फ आपका होता है।
सच कहूँ तो समझ नहीं आता कि "no longer" वाला expression क्यों इस्तेमाल किया गया।
“कई हफ्तों की असफलता के बाद, मैंने दूसरे विश्वविद्यालय के एक दोस्त से संपर्क किया, और उसने भी बताया कि उसे PINNs के साथ अच्छे परिणाम नहीं मिले” — इस हिस्से से महसूस होता है कि research में, AI से अलग भी, लगातार collaboration कितना महत्वपूर्ण है। इससे लोग दूसरों की पहले से असफल राह पर दोबारा चलने से बचते हैं।
यह जरूरत उठती है कि शोधकर्ताओं को असफल प्रयोग भी papers के रूप में प्रकाशित करने चाहिए।
यही एक और वजह है कि मुझे scientific AI agent का विचार ज्यादा विश्वसनीय नहीं लगता। शोध मूलतः बहुत सहयोग-आधारित प्रक्रिया है। चाहे literature review कितना भी अच्छा हो, अगर आप लोगों से मिलते-जुलते और बात नहीं करते, तो क्या आप सच में अच्छे researcher हो सकते हैं?
मैं AI booster नहीं हूँ, लेकिन negative results का publish न होना, और papers में हर कोई अपने काम को बढ़ा-चढ़ाकर पेश करना, सिर्फ AI की समस्या नहीं है। यह वैज्ञानिकों के मूल्यांकन के तरीके और journal industry की संरचना की समस्या है। पारंपरिक media की तरह यहाँ भी audience खींचने का जुनून है। फिर भी, लगता है कि winter आने वाला है।
अक्सर AI papers का सार यही होता है: “अगर अरबों GPU और असीमित समय दे दो, तो जादू हो जाएगा” या “हमने private real-world dataset पर test किया और state of the art पाया।” बड़ी कंपनियों के papers में साफ खामियाँ हों, तब भी उन्हें अनदेखा करना मुश्किल होता है। अंततः यह resources की लड़ाई है। मेरे जैसे कम बजट वाले university researchers के लिए replication करना संभव नहीं, और paper में दिए गए numbers पर भरोसा करना मजबूरी बन जाता है।
15 साल पहले मैंने AI के practical use पर एक paper लिखा था, फिर दूसरे क्षेत्र में चला गया, और हाल में वापस लौटा हूँ। यह समस्या हर क्षेत्र में है, लेकिन AI में खास तौर पर वे शोधकर्ता ज्यादा आते हैं जो fame और money का पीछा कर रहे होते हैं। बढ़ा-चढ़ाकर किए गए दावे और चुना हुआ data भी यहाँ ज्यादा दिखता है। जिम्मेदार researchers को भी compete करने के लिए कुछ हद तक hype करना पड़ता है।
AI बस मौजूदा फैशन का चुंबक है, इसलिए समस्याएँ इसमें ज्यादा साफ दिखाई देती हैं।
AI खास तौर पर “विश्वसनीय दिखने वाले papers” लिखना आसान बना देता है।
हैरानी होती है कि HN पर AI/ML को लेकर राय इतनी ध्रुवीकृत क्यों है। यह सचमुच एक नया क्षेत्र है जैसा पहले कभी नहीं देखा गया। सिर्फ text input से code तक बन जाना पहले संभव नहीं था। हाल ही में मैंने claude से image segmentation script, UI सहित, बनवाई और उसने 1 मिनट में तैयार कर दी। ऐसे innovative examples एक-दो नहीं हैं। image generation भी एक नई दुनिया जैसा है। इस ब्लॉग लेख में अतिशयोक्ति है, लेकिन researchers के लिए सिर्फ AI से code productivity बढ़ना भी बड़ी efficiency है। और भी दिलचस्प बात data को लेकर सोच में बदलाव है। पहले कहा जाता था “internet कभी नहीं भूलता,” लेकिन अब सच में pages delete हो जाते हैं, cache features भी गायब हो रहे हैं, और हमने data handle करना जैसे भूल ही दिया था। लेकिन AI के आने के बाद data की value फिर उभरकर सामने आई है। हम feedback देने और उसे परिणामों में शामिल करने वाले reinforcement के युग में प्रवेश कर रहे हैं। hardware, algorithms, data, tools, protocols — हर दिशा में प्रगति हो रही है। अभी और experiments, GPU, और बड़े data centers की जरूरत है; फिलहाल bottleneck है। बड़ी कंपनियाँ हफ्तों और महीनों तक बड़े models को train कर रही हैं।
“इसने image segmentation code बना दिया” वाली बात असल में बस Stack Overflow के data को चमकदार तरीके से copy-paste करने जैसी है। पहले लोग यही काम Google से जानकारी ढूँढकर करते थे। ऊपर से यह नया और प्रभावशाली लगे, फिर भी मूल रूप से यह GIS में restaurant ढूँढने जितना ही है। वास्तविक दुनिया में इसमें reasoning नहीं, सिर्फ data-आधारित correlation output है। फिर भी उपयोगी है, लेकिन इसकी सीमाएँ साफ हैं।
HN पर AI/ML को लेकर माहौल दूसरी technologies की तुलना में इतना बँटा हुआ क्यों है, इसे हर व्यक्ति के अपने तर्कसंगत दृष्टिकोण से समझना चाहिए। इसे क्रांतिकारी मानना भी तर्कसंगत है, और data theft व privacy की अनदेखी को लेकर चिंता करना भी। पहले यह स्वीकार करना जरूरी है कि अलग-अलग दृष्टिकोण मौजूद हैं, और कुछ देर के लिए अपनी स्थिति छोड़कर सामने वाले की स्थिति को सही तरह से समझने की कोशिश करनी चाहिए।
programmer की मूल भूमिका मानव भाषा को computer language में बदलना है। LLM उस सीमा में साफ तौर पर प्रवेश कर चुके हैं। वे कितनी गहराई तक जाएँगे, यह अनिश्चित है, लेकिन दीवार पहले ही टूट चुकी है। इस स्थिति को डर से लेकर संकट-बोध तक कई तरह से देखा जा सकता है। वर्षों से तराशी गई high-income skill पर यह सीधा खतरा है। भले programmers पूरी तरह replace न हों, लेकिन अगर बात सिर्फ सैकड़ों हजार डॉलर की salary किसी तरह बचाए रखने तक पहुँच जाए, तो भी यह पर्याप्त खतरा है।
HN पर हमेशा यह बहस चलती रही है कि “क्या यह trendy technology सचमुच असली है या सिर्फ भ्रम?” अलग-अलग technologies में ऐसी बहसें बार-बार लौटती हैं। कभी-कभी मेरा खुद का रुख भी बदला है। आखिर में लगता है कि यह उतना अलग नहीं है जितना ऊपर से दिखता है।
इसके उलट, “AI विज्ञान में क्रांति ला देगा” वाला नैरेटिव सबूतों से बहुत आगे निकल गया लगता है।
लेख की शुरुआत में ऐसा लग सकता है कि पूरा AI बढ़ा-चढ़ाकर पेश किया गया है, लेकिन वास्तव में आलोचना PINN नाम की एक specific architecture पर केंद्रित है। आखिर में DL models द्वारा PDEs को तेज़ी से हल करने की उपलब्धियों का भी उल्लेख है।
यह सिर्फ PINN की समस्या नहीं, बल्कि इससे कहीं व्यापक बात है। PINN कमजोर हैं, यह लंबे समय से जाना जाता है, लेकिन physical problems में ML के सामान्य असफल उदाहरण भी बहुत हैं। ML तब अच्छी तरह काम करता है जब (1) data बहुत अधिक हो और domain बहुत संकीर्ण हो, जैसे MLIP, या (2) बहुत विशाल data और बड़े models उपलब्ध हों, जैसे Alphafold। लेकिन physics problems में ML के अधिकांश प्रयास इन दोनों के बीच कहीं अटके होते हैं: experimental data कम होता है, simulations महँगे होते हैं, और dataset/model size भी अजीब-सी मध्य स्थिति में होता है। नतीजा यह कि लोग कोशिश करते हैं, असफल होते हैं, फिर भी paper प्रकाशित कर देते हैं। अगर lab मशहूर हो, PI बड़ा नाम हो, या चीज़ कुछ अनोखी लगे, तो अच्छे journals में जगह मिल जाती है और citations बढ़ जाते हैं। अंत में मॉडल data के सिर्फ एक हिस्से की नकल कर पाता है, और बाकी लोगों को generalization सुधारने पर मेहनत करनी पड़ती है।
लेखक का काम सिर्फ PINN तक सीमित नहीं था; उसने कई models का व्यवस्थित विश्लेषण करने वाला paper भी लिखा, और उस पर अलग section भी है।
PINN की जगह कोई भी AI solution रख दें, तब भी hype के तत्व मिल जाएँगे। अब तक AI की वास्तविक उपयोगिता का सबसे यथार्थ मूल्यांकन यही लगता है: “experts के simple tasks का automation, और फिर भी triple-checking की जरूरत।”
बेहतरीन विश्लेषण और उदाहरण। एक और समस्या यह है कि AI papers भले ही बहुत बार नए हों और “औपचारिक” journals में कम छपते हों, फिर भी उन्हें citations खूब मिलते हैं। reproduction या दावों की verification वास्तव में बहुत कठिन है, क्योंकि research methods और data हर साल बदलते रहते हैं। यह भी अस्पष्ट रहता है कि निष्कर्ष किसी पुराने model की विशेषताओं की वजह से था, या वास्तव में सामान्यीकृत किया जा सकने वाला निष्कर्ष है।
ब्लॉग के मालिक का नाम (“Timothy B. Lee”) देखकर मैं चौंक गया कि 70+ साल के HTTP और web के आविष्कारक भी ऐसा cutting-edge blog चलाते हैं।