विज्ञान के लिए AI के बढ़ा-चढ़ाकर किए गए दावों से मैं क्या सीख पाया

(understandingai.org)

3 पॉइंट द्वारा GN⁺ 2025-05-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Princeton में plasma physics पर शोध कर रहे लेखक ने 2018 में यह सोचकर दिशा बदली कि AI भौतिकी अनुसंधान को तेज कर सकता है, लेकिन वास्तव में PDE solving के लिए AI उम्मीद से कहीं अधिक कमजोर निकला
PINN एक सरल और सामान्य approach जैसा लगा, लेकिन आसान examples में थोड़ा-सा बदलाव करने पर भी सटीक समाधान पाना मुश्किल था और tuning से भी stability सुनिश्चित नहीं हो पाई
fluid dynamics PDE पर 76 शोधपत्रों की समीक्षा में पाया गया कि standard numerical analysis से बेहतर होने का दावा करने वाले papers में 60 papers, 79% ने कमजोर baselines इस्तेमाल किए थे, और बड़े speedup के दावे unfair comparisons पर टिके थे
विज्ञान में AI का उपयोग 2015 में 2% से बढ़कर 2022 में लगभग 8% हो गया, लेकिन यह बढ़ोतरी विज्ञान से ज्यादा citation, career, और funding incentives से जुड़ी हो सकती है
AI protein folding, weather prediction, और drug discovery में परिणाम दे सकता है, लेकिन विज्ञान को क्रांतिकारी रूप से तेज करने वाली सामान्य दलीलों को survivorship bias, data leakage, weak baselines, और cherry-picking की वजह से सावधानी से देखना चाहिए

plasma physics से AI की ओर रुख बदलने की वजह

2018 में Princeton में plasma physics के PhD के दूसरे साल में लेखक ने अपना research focus machine learning की ओर मोड़ लिया
- कोई ठोस project तय नहीं था, लेकिन उन्हें लगा कि AI से physics research को तेज करके वे ज्यादा बड़ा impact डाल सकते हैं
- उन्होंने यह भी स्वीकार किया कि AI क्षेत्र की ऊंची salaries भी एक motivation थीं
बाद में Yann LeCun द्वारा “pretty hot topic” कहे गए AI से partial differential equations (PDE) हल करने के सवाल को उन्होंने अपना research topic बनाया
PDE वे mathematical equations हैं जो physical systems को model करती हैं, और computational physics व engineering simulations में महत्वपूर्ण हैं
- लेखक की lab fusion reactor के अंदर और interstellar medium में plasma के behavior को model करने के लिए PDE का उपयोग करती थी
PDE solving में इस्तेमाल किए जाने वाले AI models, ChatGPT की तुलना में AlphaFold जैसे specialized deep learning models के अधिक करीब थे

PINN experiments में सामने आई कमजोरियां

लेखक ने पहली बार physics-informed neural network(PINN) को आजमाया
- PINN में PDE solution को pixel grid के रूप में दिखाने के बजाय solution को neural network से represent किया जाता है और equation को loss function में डाला जाता है
- शुरुआती PINN paper ने fluid, quantum mechanics, reaction-diffusion systems, और nonlinear shallow water waves जैसी classic problems पर प्रभावी होने का दावा किया था और उसे पहले ही सैकड़ों citations मिल चुके थे
यह एक सरल, elegant, और general method जैसा दिखा, लेकिन असली experiments ने अलग तस्वीर दिखाई
- शुरुआती प्रभावशाली paper के examples में से एक 1D Burgers’ को दूसरे सरल PDE 1D Vlasov से बदलते ही सटीक दिखने वाला solution नहीं मिला
- काफी tuning के बाद कुछ ठीक-ठाक results मिले, लेकिन 1D Vlasov-Poisson जैसे थोड़ा अधिक जटिल PDE पर भी संतोषजनक solution नहीं मिला
- दूसरे विश्वविद्यालय में पढ़ रहे एक मित्र ने भी बताया कि PINN से उन्हें अच्छे results नहीं मिले
ऐसा लगता है कि मूल PINN paper के authors ने भी देखा था कि कुछ specific settings एक equation पर impressive results देती हैं लेकिन दूसरी पर fail हो सकती हैं
- लेकिन paper में PINN की failure cases शामिल नहीं थीं
- लेखक ने भी अपने failed experiments को paper के रूप में प्रकाशित नहीं किया, बल्कि सिर्फ एक कम-ज्ञात conference poster में पेश किया

PINN से मिले सबक और मौजूदा मूल्यांकन

पहला सबक यह था कि AI research results को face value पर नहीं लेना चाहिए
- ज़्यादातर वैज्ञानिक किसी को धोखा देने की कोशिश नहीं करते, लेकिन favorable results दिखाने की incentives इतनी मजबूत होती हैं कि पाठक mislead हो सकते हैं
- लेखक ने निष्कर्ष निकाला कि जितना अधिक किसी high-impact paper का result impressive लगे, उतना ही अधिक skepticism रखना चाहिए
दूसरा सबक यह था कि AI methods के failures लगभग कभी प्रकाशित नहीं होते
- PINN के failure modes पर paper आने में 2 साल लगे, और उस paper को अब 1,000 से अधिक citations मिल चुके हैं
- इससे संकेत मिलता है कि कई researchers ने PINN के साथ इसी तरह की समस्याएं झेली होंगी
तीसरा निष्कर्ष यह था कि PINN वह approach नहीं था जिसे लेखक वास्तव में इस्तेमाल करना चाहते थे
- उनके अनुसार PINN सरल और elegant था, लेकिन बहुत unstable, नाज़ुक, और धीमा था
मूल PINN paper अब 6 साल बाद 14,000 citations तक पहुंच चुका है
- लेखक के अनुसार यह 21वीं सदी के numerical analysis papers में सबसे ज्यादा cited paper है, और संभवतः 1-2 साल में overall दूसरा सबसे ज्यादा cited numerical analysis paper बन सकता है
PDE को सीधे हल करने के संदर्भ में अब व्यापक रूप से माना जाता है कि PINN सामान्यतः standard numerical methods से प्रतिस्पर्धी नहीं है, लेकिन inverse problems में इसकी performance अभी भी विवादित है
- समर्थक कहते हैं कि inverse problems में PINN खास तौर पर प्रभावी है
- कुछ researchers इस विचार का कड़ा विरोध करते हैं
- लेखक निश्चित नहीं हैं कि कौन सही है, और उन्हें लगता है कि भविष्य में PINN को एक बड़े citation bubble के रूप में भी देखा जा सकता है

कमजोर baselines से पैदा हुआ जरूरत से ज्यादा आशावाद

अपने doctoral thesis में लेखक ने ऐसे deep learning models पर ध्यान दिया जो traditional solvers की तरह PDE solutions को grid या graph पर pixels के समूह के रूप में treat करते हैं
- यह approach, lab की रुचि वाले complex time-dependent PDEs पर, PINN की तुलना में अधिक promising लगी
- कई papers ने दावा किया कि वे standard numerical methods से कई orders of magnitude तेज़ी से PDE solve कर सकते हैं
खासकर Navier-Stokes equations जैसे fluid dynamics PDE के examples ने लेखक और उनके advisor को उत्साहित किया
- fusion reactor के plasma को describe करने वाली equations में भी मिलती-जुलती mathematical structure थी, इसलिए वैसी ही speedup की उम्मीद थी
- सैद्धांतिक रूप से इससे बड़े systems की simulation, तेज़ design optimization, और तेज research progression संभव हो सकती थी
लेकिन AI models की reliability और robustness गंभीर समस्या बन सकती थी
- अगर तेज़ simulation कम भरोसेमंद हो, तो यह देखना ज़रूरी था कि ऐसा trade-off वाजिब है या नहीं
- models को ज्यादा reliable बनाने की कोशिशें ज्यादातर असफल रहीं, और लेखक को PDE acceleration में AI की संभावनाओं पर ही संदेह होने लगा
high-profile papers ने दावा किया कि AI ने Navier-Stokes equations को standard numerical methods से कई orders of magnitude तेज़ हल किया, लेकिन उनका baseline सबसे तेज़ numerical method नहीं था
- अधिक उन्नत numerical methods से तुलना करने पर AI या तो तेज़ नहीं था, या बहुत हुआ तो थोड़ा-बहुत ही तेज़ था

76 papers की समीक्षा: 79% में कमजोर baseline

लेखक और उनके advisor ने fluid dynamics PDE हल करने के लिए AI के उपयोग पर studies की systematic review करके यह paper प्रकाशित किया
standard numerical methods से बेहतर होने का दावा करने वाले 76 papers में से 60 papers, 79% ने weak baselines का इस्तेमाल किया
- या तो उन्होंने अधिक advanced numerical methods से तुलना नहीं की
- या समान conditions में तुलना नहीं की
कमजोर baseline का अनुपात: {p:79}
जिन papers ने बड़े speedups दिखाए, वे सभी weak baselines के मुकाबले में थे
- जितना result प्रभावशाली था, उतनी ही संभावना लगती थी कि comparison unfair था
review ने reporting bias की समस्या भी दोबारा उजागर की
- researchers negative results की reporting कम करते हैं
- weak baselines जरूरत से ज्यादा positive results बनाते हैं, और reporting bias negative outcomes की underreporting को बढ़ाता है
इस paper ने computational science और engineering में AI को लेकर बहस छेड़ दी
- Lorena Barba ने इसे AI hype और unscientific optimism को लेकर चिंताओं का समर्थन करने वाला सबूत माना
- Google Research के Stephan Hoyer ने कहा कि यह paper अच्छी तरह बताता है कि उन्होंने AI for PDEs से weather prediction और climate modeling की ओर रुख क्यों किया
- Johannes Brandstetter ने जवाब दिया कि अधिक complex industrial applications में AI बेहतर results दे सकता है और इस क्षेत्र का future अब भी promising है

PDE क्षेत्र में किस तरह की validation की जरूरत है

PDE solving से जुड़े कुछ specific applications में AI कभी उपयोगी हो सकता है
फिलहाल आशावादी होने की वजह कम है
- AI methods के पास standard numerical methods जैसी theoretical guarantees नहीं हैं
- और empirically validated robustness भी कम है
दो दिशाओं में ज्यादा प्रयास की जरूरत है
- numerical methods के स्तर की reliability हासिल करने वाला research
- AI methods की आक्रामक जांच करने वाला red teaming
funding agencies को वैज्ञानिकों को PDE के लिए challenge problems बनाने के लिए incentives देने चाहिए
- protein folding में 30 साल तक research को synchronize और focus करने वाली biennial competition CASP को एक संभावित model के रूप में पेश किया गया

विज्ञान को तेज करने में AI के वास्तविक examples और सीमाएं

protein folding, AI-आधारित scientific innovation का सबसे प्रमुख उदाहरण है
- इसे 2024 Nobel Prize in Chemistry की press release से जुड़े उदाहरण के रूप में लिया गया
और भी कुछ सफलता के उदाहरण हैं
- weather prediction: AI forecasts, traditional physics-based forecasts की तुलना में accuracy में अधिकतम 20% बेहतर थे, लेकिन resolution अभी भी कम है
- drug discovery: शुरुआती data से पता चला कि AI द्वारा खोजी गई दवाएं phase 1 clinical trials में अधिक सफल थीं, लेकिन phase 2 में ऐसा नहीं था
- अगर यह trend बना रहता है, तो drug approval तक की overall success rate लगभग दोगुनी हो सकती है
AI कंपनियां, academia, government agencies, और media अब AI को सिर्फ एक उपयोगी scientific tool नहीं बल्कि विज्ञान पर “transformational impact” डालने वाली technology के रूप में पेश करने लगे हैं
फिलहाल LLMs, DeepMind के शब्दों में, उस गहरी creativity और reasoning में अब भी संघर्ष करते हैं जिस पर human scientists निर्भर करते हैं
अगर भविष्य में कोई काल्पनिक उन्नत AI system पूरी scientific process को automate कर सके, तो वह विज्ञान को बदल और तेज कर सकता है, लेकिन लेखक को नहीं लगता कि ऐसा जल्द होने वाला है या शायद होगा भी

वैज्ञानिक AI को क्यों अपना रहे हैं

सिर्फ विज्ञान में AI के बढ़ते उपयोग से यह तय करना कठिन है कि AI वास्तव में विज्ञान के लिए उपयोगी है
वैज्ञानिकों के AI की ओर जाने की वजह यह भी हो सकती है कि इससे विज्ञान से ज्यादा स्वयं वैज्ञानिकों को लाभ मिलता है
- लेखक ने भी 2018 में ईमानदारी से सोचा था कि AI plasma physics के लिए उपयोगी हो सकता है, लेकिन ऊंची salary, अच्छे job prospects, और academic prestige भी मजबूत motivations थे
- उनके अनुसार labs के senior लोग कई बार technical concerns से ज्यादा AI की funding खींचने की क्षमता में रुचि रखते थे
बाद के research से संकेत मिला कि AI इस्तेमाल करने वाले वैज्ञानिकों के top-cited papers प्रकाशित करने की संभावना ज्यादा होती है, और उन्हें औसतन 3 गुना अधिक citations मिलते हैं
भले AI विज्ञान के भीतर प्रभावशाली results दे, इसका मतलब यह नहीं कि उसने सीधे विज्ञान के लिए उपयोगी काम किया ही हो
- कई मामलों में वह सिर्फ ऐसी potential दिखाता है जो आगे चलकर उपयोगी बन सकती है
AI पर काम करने वाले वैज्ञानिक अक्सर problems ढूंढने और solutions खोजने के बजाय, पहले से मान लेते हैं कि AI ही solution है, और फिर उसके लिए problem खोजते हैं
- यह “hammer in search of a nail” approach ऐसे problems तक ले जा सकती है जो पहले से हल हैं या जो नया scientific knowledge पैदा नहीं करतीं

survivorship bias और reproducibility crisis

AI-for-science की सफलता का आकलन करने के लिए असली science को देखना चाहिए, लेकिन सिर्फ scientific literature पर भरोसा करना मुश्किल है
पहली समस्या survivorship bias है
- ऐसा माना जाता है कि AI research में negative results लगभग कभी प्रकाशित नहीं होते
- जब failures गायब रहते हैं, तो AI के विज्ञान पर प्रभाव का आकलन विकृत हो जाता है
यह replication crisis में दिखी समस्याओं जैसा है
- जब statistically insignificant results literature से बाहर रह जाते हैं, तो treatment effects जैसी चीजों का overestimate हो जाता है
- medical research में z-values के distribution में -1.96 और 1.96 के आसपास तेज discontinuity यह संकेत देती है कि significance threshold से नीचे के results शायद प्रकाशित नहीं हुए या data में adjustment हुआ
AI-for-science में selection criterion statistical significance नहीं, बल्कि यह होता है कि proposed method ने दूसरी approaches को हराया या किसी नए task में सफलता पाई या नहीं
- इसलिए सफल AI cases बार-बार report होते हैं, जबकि असफल results लगभग कभी प्रकाशित नहीं होते
Princeton के Arvind Narayanan और Sayash Kapoor ने 30 domains के 648 papers में data leakage नाम की methodological error की सूची बनाई
- हर case में data leakage ने जरूरत से ज्यादा optimistic results दिए
- उनका मानना है कि AI-driven science reproducibility crisis का सामना कर रही है

जरूरत से ज्यादा आशावाद पैदा करने वाले चार जाल

प्रकाशित success cases भी AI की scientific potential को बढ़ाकर दिखाने वाले निष्कर्ष दे सकते हैं
अलग-अलग क्षेत्रों में इन समस्याओं का रूप और गंभीरता अलग हो सकती है, लेकिन मुख्य traps को चार categories में बांटा जा सकता है
- data leakage
  - training और evaluation data के गलत तरीके से मिल जाने पर model performance वास्तविकता से बेहतर दिखती है
- weak baselines
  - AI को state-of-the-art numerical methods के बजाय कमजोर comparison targets के खिलाफ खड़ा करने पर performance gap बढ़ा-चढ़ाकर दिखता है
- cherry-picking
  - सिर्फ सफल settings चुनकर दिखाने से failure modes और applicability limits literature से गायब हो जाते हैं
- misreporting
  - AI models का evaluation करने वाले लोगों का उसी evaluation से लाभ पाना, यानी conflict of interest, एक केंद्रीय समस्या बनी रहती है
  - DeepMind ने 2023 में 2.2 million crystal structures खोजने और मानवता को ज्ञात stable materials की संख्या को single-digit multiple से बढ़ाने का दावा किया
  - बाद में materials scientists ने उन compounds का analysis करके उन्हें “mostly junk” कहा, और विनम्रता से सुझाव दिया कि उस paper ने नए materials report नहीं किए
  - MIT graduate student Aidan Toner-Rodgers का AI-based new materials discovery paper शुरुआती draft में success case के रूप में शामिल था, लेकिन MIT द्वारा research integrity concerns के कारण उसे वापस लेने की प्रक्रिया शुरू करने की घोषणा के बाद उसे हटा दिया गया
  - स्पष्ट fraud के आरोप, इस लेख में चर्चा की गई सूक्ष्म methodological समस्याओं से अलग हैं, लेकिन इस paper को media में मिला भारी ध्यान यह दिखाता है कि AI techniques के प्रभाव को बढ़ा-चढ़ाकर पेश करने के लिए कितने तरह के incentives मौजूद हैं

निष्कर्ष: क्रांति से ज्यादा असमान और क्रमिक tool

scientific research में AI का उपयोग तेज़ी से बढ़ रहा है
- कुल scientific publications में AI usage 2015 के 2% से बढ़कर 2022 में लगभग 8% हो गया
- AI usage rate: {l:2,8}
- यह अपनापन सिर्फ computer science में नहीं, बल्कि physics, chemistry, biology, medicine, और social sciences में भी तेज़ी से बढ़ा है
यह मानना संभव है कि AI scientific breakthroughs ला सकता है
- चिंता breakthrough की scale और frequency को लेकर है
- क्या इसने वास्तव में इतना potential दिखाया है कि talent, education, time, और funding को बड़े पैमाने पर एक ही paradigm की ओर मोड़ना उचित हो, यह अब भी अनिश्चित है
हर scientific field AI को अलग तरह से अनुभव करती है, इसलिए generalization में सावधानी जरूरी है
फिर भी लेखक के अनुभव से निकले तीन सबक कई क्षेत्रों पर लागू हो सकते हैं
- AI adoption बढ़ने का एक कारण यह है कि इससे विज्ञान से ज्यादा वैज्ञानिकों को फायदा मिलता है
- negative results लगभग प्रकाशित नहीं होते, इसलिए AI-for-science survivorship bias से ग्रस्त है
- प्रकाशित positive results अक्सर AI की potential को जरूरत से ज्यादा optimistic तरीके से पेश करते हैं
AI scientific productivity में गिरावट और scientific progress की मंदी को उलट पाएगा या नहीं, यह स्पष्ट नहीं है
- किसी बड़े advanced AI breakthrough के बिना, AI शायद क्रांतिकारी tool से ज्यादा क्रमिक और असमान scientific progress के लिए एक साधारण tool साबित होगा

1 टिप्पणियां

GN⁺ 2025-05-21

Hacker News की रायें

दिलचस्प लेख है। किसी नई उभरती तकनीक को उसकी वास्तविक वैल्यू से ज़्यादा अत्यधिक ध्यान मिलने का जोखिम हमेशा रहता है
लेख में मुख्य वाक्य यह है: “ज़्यादातर वैज्ञानिक किसी को धोखा देने की कोशिश नहीं कर रहे होते, लेकिन अनुकूल नतीजे दिखाने के लिए मजबूत प्रोत्साहन होते हैं, इसलिए पाठक के गुमराह होने का जोखिम फिर भी रहता है।” लोग किस incentive structure के भीतर बोल रहे हैं, यह समझना उनकी बात की व्याख्या करते समय अक्सर मददगार होता है
- कुछ लोगों ने समझ लिया है कि AI शब्द जोड़ने से बहुत पैसा कमाया जा सकता है और research funding भी मिल सकती है। लेकिन आखिर किसी भी software में किसी न किसी हद तक machine learning तो होती ही है, ऐसा लगता है; इसमें कुछ नया भी नहीं है, और मौजूदा implementation भी खास तौर पर शानदार या सटीक नहीं है
यह कुल मिलाकर academia की पुरानी समस्या को दोहराता लगता है। अब यह सत्य की खोज नहीं, बल्कि citation count और careerism पर केंद्रित है, और AI बस एक और विषय है जिसके इर्द-गिर्द यह सब हो रहा है
- मैं सामान्यीकरण नहीं करना चाहता, लेकिन जर्मनी के कई HPC centers के बीच काम करते हुए दिखता है कि physics से छिटके हुए बहुत से लोग इकट्ठा हैं, और बंटने वाली AI research funding का बड़ा हिस्सा इन्हीं में समा जाता है। नतीजतन ML4Science projects बहुत बन रहे हैं
  निजी तौर पर यह निराशाजनक है। HPC centers सिर्फ physicists के लिए मौजूद जगह नहीं हैं, और खासकर जर्मनी में अगर AI research funding है तो मुझे लगता है कि AI core research ज्यादा होनी चाहिए
- निष्पक्षता से कहें तो careerism की समस्या academia के private sector से ज्यादा मोहित होने के साथ उसकी समस्याएं भी विरासत में मिलने जैसा side effect लगती है
  software developer के तौर पर काम करते हुए मैंने एक बात सीखी है: हर फैसला careerist और स्वार्थी नजरिए से लिया जाता है। क्या सबसे अच्छा है, उससे ज्यादा अहम यह हो जाता है कि क्या सबसे प्रभावशाली दिखेगा और व्यक्ति को आगे ले जाएगा। काम खत्म होने के बाद वह अब उनका मुद्दा नहीं रहता, और सच कहें तो कोई उन्हें दोष भी नहीं दे सकता। यह सोच इतनी व्यापक है कि अगर आप इसमें शामिल नहीं होते तो आप मूर्ख बन जाते हैं। बाकी लोग ऐसा करेंगे, और आखिर में आपसे आगे निकल जाएंगे। नतीजा वही रहेगा, पर नुकसान सिर्फ आपका ज्यादा होगा
- समझ नहीं आता कि इस कहानी को किस अर्थ में “अब सत्य की खोज नहीं रही” कहा जा सकता है। बल्कि यह तो सत्य खोजने और पा लेने का बहुत साफ उदाहरण नहीं है क्या
- मुझे सच में समझ नहीं आता कि यहां “अब” क्यों जोड़ा गया है
किस्मत से मुझे AI-आधारित FEM-जैसे structural analyzers के कुछ variants आजमाने का मौका मिला
सबसे अच्छी स्थिति में भी, linear और small-deformation problems में ये बस ठीक-ठाक हैं। जो model 5 मिनट में exact solution के करीब result दे सकता है, उसे लगभग 30 सेकंड में काफी rough solution के तौर पर पाने जैसा है। nonlinear elements जोड़ना शुरू करते ही ये बस ढह जाते हैं
बहुत high-level concept selection के लिए शायद पर्याप्त हो सकते हैं, लेकिन उसमें भी खास अच्छे नहीं हैं। कुछ के बारे में मुझे काफी यकीन है कि वे असल में सिर्फ curvature detectors हैं। सीधी रेखा को नीला, ज्यादा curvature वाली जगह को लाल बनाते हैं और बाकी को interpolate कर देते हैं
- क्या ऐसे models को iterative solvers के preconditioner के रूप में इस्तेमाल किया जा सकता है
- तब यह “second-principles” analyzer के ज्यादा करीब लगता है। इसकी संरचना ऐसी है कि जो पहले देखा ही नहीं, उसे synthesize नहीं कर सकता
मैं AI समर्थक बिल्कुल नहीं हूं, लेकिन negative results का publish न होना और research papers में सभी का अपने results को बढ़ा-चढ़ाकर दिखाना, दुर्भाग्य से, सिर्फ AI तक सीमित समस्या नहीं है। यह वैज्ञानिकों के मूल्यांकन के तरीके और traditional media की तरह audience के लिए तरसती science publishing industry का नतीजा है
खैर, क्या winter आ नहीं रहा है
- सही, यह सिर्फ AI की समस्या नहीं है। लेकिन AI papers में अक्सर ऐसे वाक्य दिखते हैं जिनका असली मतलब होता है, “अगर 1 trillion GPUs लगाकर हमेशा चलाया जाए तो {जादुई benchmark} निकलता है।” या “हमारे बेहद गोपनीय real-life dataset पर evaluate करने पर, जिसे हम कहते हैं कि इस बहुत smart algorithm को request करने पर देंगे लेकिन request करने पर आपको ignore करेंगे, आप ऐसा chart देख सकते हैं जो दिखाता है कि हम कितने smart हैं।”
  बेशक कई बार ये claim-staking papers होते हैं, लेकिन जब ऐसे papers बड़ी कंपनियों से आते हैं तो साफ कमियां होने पर भी उन्हें यूं ही नजरअंदाज नहीं किया जा सकता
  आखिर यह resource competition है। कम बजट वाली university के पूर्व researcher के तौर पर कहूं तो हम compete नहीं कर सकते। reproducibility के बिना literature में “benchmark” के तौर पर पहुंचाई गई संख्याओं पर भरोसा करने के लिए हमें मजबूर किया जाता है
- करीब 15 साल पहले AI के practical applications पर अपने पहले papers publish करने के बाद मैं दूसरे field में चला गया था, और हाल ही में फिर इसमें खींच लिया गया
  मैं मानता हूं कि यह पूरी science की समस्या है, लेकिन लगता है AI fame और पैसे के पीछे भागने वाले researchers को असामान्य रूप से ज्यादा आकर्षित करता है। सीमित अनुभव के आधार पर, overstated claims और data cherry-picking ज्यादा extreme लगते हैं, और responsible researchers भी compete करने के लिए थोड़ा-थोड़ा बढ़ा-चढ़ाकर कहने लगते हैं
- AI अभी का overheated hype magnet है, इसलिए दरारें ज्यादा साफ दिखती हैं
- लेकिन AI credible-looking papers लिखना और आसान बना देता है
मुझे समझ नहीं आता कि HN जैसी जगहों पर AI/ML को लेकर लोगों की धारणा इतनी बंटी हुई क्यों है
मैंने पहले ऐसा कुछ नहीं देखा था। टेक्स्ट input के आधार पर code generation जैसे काम करने वाला कोई system या तरीका practically था ही नहीं
पिछले हफ्ते ही मैंने basic UI वाला image segmentation script मांगा, तो Claude ने 1 मिनट से भी कम में बना दिया
revolutionary कहने लायक उदाहरण बहुत दिए जा सकते हैं। पूरा image generation stack बिल्कुल नया है
यह blog post काफ़ी fair है, और यह भी सही है कि इस विषय पर hype है। लेकिन सिर्फ़ उन सभी researchers को देखें जिन्हें research में code लिखना पड़ता है, तो AI उन्हें पहले ही कहीं ज़्यादा efficient बना सकता है
आगे बढ़कर कहूं तो मुझे लगता है कि हम एक नए दौर में प्रवेश कर चुके हैं। यह data को फिर से बहुत गंभीरता से लेने का दौर है। कुछ साल पहले कहा जाता था, “internet कभी नहीं भूलता”, लेकिन जल्द ही हमें एहसास हुआ कि internet भी भूलना शुरू कर देता है। Google ने pages हटाए और cache feature खत्म किया, और ऐसा लगा कि data का क्या किया जाए यह समझ न पाने की वजह से वह अब उसकी परवाह नहीं कर रहा था
फिर AI आया, और data फिर से राजा बन गया; इतना ही नहीं, अभी हम reinforcement के दौर के बीच में हैं। आप feedback देते हैं, तो system उस feedback को learning में शामिल करता है
AI/ML विषय को hardware, algorithms, use cases, data, tools, protocols—हर पहलू से address किया जा रहा है। हम उसे integrate कर रहे हैं, उसके लिए और उसके ऊपर build कर रहे हैं; बस थोड़ा समय लग रहा है। फिर भी progress की रफ्तार पागल कर देने वाली और सांस रोक देने वाली है
असल में कोई ceiling है या नहीं, यह कुछ साल बाद ही पता चलेगा। AI architectures और algorithm experiments कहीं ज़्यादा करने के लिए हमें और GPUs और बड़े data centers चाहिए। bottleneck साफ़ है। बड़ी कंपनियां भी एक बड़े model को train करने में हफ्तों, महीनों लगाती हैं
- “पिछले हफ्ते ही मैंने basic UI वाला image segmentation script मांगा, तो Claude ने 1 मिनट से भी कम में बना दिया” वाला हिस्सा, हमारी नज़र में Stack Overflow से शानदार तरीके से copy-paste करने के करीब है। इसलिए यह ऐसा सुनाई देता है जैसे “मैंने Google से आसपास के restaurants पूछे और उसने 500ms में ढूंढ दिए। मेरा C64 ऐसा नहीं कर सकता था”
  यह impressive है और सच में useful भी है। लेकिन सुनने में ऐसा लगता है जैसे “इसने real world को explore करना सीख लिया और अब related problems हल कर सकता है”, जबकि असल में जो हल हुआ वह “GIS database में अच्छे से lookup करना” है। novelty खत्म होने पर कल्पना की जगह असली रूप दिखने लगता है
  point को और साफ़ करें तो, “Claude ने generate किया” से आप जो सोचते हैं वह यह है कि AI ने “सोचा”, ontology बनाई और उस पर reasoning करके इस नतीजे पर पहुंचा कि यह script सही output है। असल में हुआ यह कि input, खरबों examples में देखे गए patterns के आधार पर इस output से correlated था। कोई ontology नहीं है और कोई reasoning नहीं है। बेशक यह फिर भी impressive और बहुत useful है, लेकिन समय के साथ इसका चमत्कार कम हो जाएगा। सीमाएं पहले ही साफ़ हैं
- “मुझे समझ नहीं आता कि HN जैसी जगहों पर AI/ML को लेकर लोगों की धारणा इतनी बंटी हुई क्यों है” — बात यह है कि अपने-अपने perspective से देखें तो सभी rational actors हैं। AI को बढ़ावा देने वालों के पास भी valid reasons हैं, और hype को कम करके दिखाने वालों के पास भी अपने valid reasons हैं
  इस नई technology को breakthrough मानने के आधार भी हैं, और बड़े पैमाने पर data theft और privacy की अनदेखी को लेकर सतर्क रहने के आधार भी हैं
  पहले यह स्वीकार करना और सम्मान देना चाहिए कि किसी भी मुद्दे पर अलग-अलग विचार होते हैं। थोड़ी देर के लिए खुद को equation से बाहर रखें और दूसरी तरफ़ को समझें। सचमुच समझें
  दूसरे व्यक्ति के जूते पहनकर काफी देर चलना चाहिए
- “सिर्फ़ उन सभी researchers को देखें जिन्हें research में code लिखना पड़ता है, तो AI उन्हें पहले ही कहीं ज़्यादा efficient बना सकता है” — इस बात पर, एक scientist को efficiency नहीं बल्कि accuracy चाहिए। software bugs पहले से ही scientific errors और lack of reproducibility का बड़ा कारण रहे हैं, उदाहरण के लिए यह case देखें: https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  research environments में programming quality industry की तरह ही बदनाम तौर पर uneven होती है, लेकिन research में छोटी-सी गलती भी पूरे research के नतीजों को खराब कर सकती है। laboratory जैसे environment में आप impressionist painter की तरह, या उसके AI version की तरह, software नहीं लिख सकते। आपको सच में पता होना चाहिए कि आप क्या input दे रहे हैं
  अगर आपको सही होने की परवाह नहीं है, तो AI आपको ज़्यादा efficient बना सकता है। summer beach volleyball event की image बनाने के लिए यह शानदार हो सकता है, लेकिन scientific environment में code लिखने के लिए यह disastrous idea है
- इसके उलट, “AI science में revolution लाएगा” वाली narrative मुझे evidence से supported level से बहुत आगे लगती है
- HN हमेशा इस बात पर बंटा रहता है कि “इस समय hype में चल रही technology कितनी real है और कितनी exaggeration”
  मैंने ऐसा कई बार देखा है, और technology और timing के हिसाब से अलग-अलग sides पर भी रहा हूं
  मेरे लिए यह वही पुराना scene है
लेख शुरुआत में ऐसा संकेत देता दिखता है कि विज्ञान में AI सामान्य रूप से, या कम-से-कम लेखक के क्षेत्र में AI, सब hype है। लेकिन नाराज़गी शायद PINN नाम के एक खास architecture पर केंद्रित है, और अंत में वह यह भी कहता है कि उसने पारंपरिक numerical methods की तुलना में PDE को तेज़ी से compute करने के लिए दूसरे deep learning models का सफलतापूर्वक इस्तेमाल किया
- यह PINN से कहीं व्यापक समस्या है। PINN खराब है, यह बात बहुत पहले से व्यापक रूप से ज्ञात थी। लेकिन physics problems में machine learning इस्तेमाल करने की कुल मिलाकर नाकामी इससे कहीं ज़्यादा फैली हुई है
  Machine learning आम तौर पर तब चमकती है जब किसी अपेक्षाकृत संकरे domain के लिए experimental data काफी मात्रा में हो। 1990s से मौजूद machine-learning interatomic potentials इसका एक उदाहरण हैं। Weather modeling भी ऐसा हो सकता है, लेकिन उस पर टिप्पणी नहीं करना चाहता। या तब, जब data हास्यास्पद रूप से बहुत ज़्यादा हो और सचमुच विशाल model train किया जा रहा हो। जिसे हम AI कहते हैं, वह यही है। AlphaFold की सफलता की वजह भी मूल रूप से यही है, और AlphaFold भी training data के किसी भी point से बहुत दूर वाले input देने पर अच्छे नतीजे नहीं देता
  लेकिन physics problems के लिए machine learning का ज़्यादातर हिस्सा इन दोनों के बीच कहीं आता है। Experimental data कम होता है, और simulation data generate करना इतना महंगा होता है कि पर्याप्त नहीं मिल पाता। Models भी पर्याप्त बड़े नहीं होते, क्योंकि अगर बहुत बड़े हों तो inference वैसे भी धीमा हो जाएगा। इसके बावजूद इन models से उम्मीद की जाती है कि वे physics की बहुत व्यापक range सीख लें
  इसके बाद सब hype train पर चढ़ जाते हैं। क्योंकि इसे आज़माना बहुत आसान है। सबको वही बेकार नतीजे मिलते हैं, फिर भी publish कर देते हैं। अगर lab या PI पर्याप्त प्रसिद्ध हो, या problem को अनोखे और scientific/mathematical दिखने वाले तरीके से formalize कर दिया जाए, तो यह अच्छे journals या conferences में छप सकता है और खूब citations भी पा सकता है। लेकिन अंत में नतीजा वही रहता है: training data को कुछ हद तक reproduce करना, और यह निष्कर्ष कि generalization problem पर किसी को और research करनी होगी
- लेखक ने कई models पर systematic analysis देने वाला पूरा paper publish किया है। उसके लिए अलग section भी है। इसलिए यह सिर्फ PINN की कहानी नहीं है
- PINN को किसी भी “AI” solution से बदल दें, तब भी वह hype ही रहेगा
  अब तक “AI” का realistic assessment बस इतना स्वीकार करना है कि यह experts को boring काम थोड़ा skip करने में मददगार है, और output को तीन बार check करना पड़ता है
“कुछ हफ्तों तक असफल रहने के बाद मैंने दूसरी university के एक दोस्त को message किया, और उसने कहा कि उसने भी PINN इस्तेमाल किया था लेकिन अच्छे नतीजे नहीं मिले” वाला हिस्सा सीधे तौर पर AI से बहुत जुड़ा नहीं है, लेकिन university में research करते समय बहुत देर से सीखे गए एक सबक की याद दिलाता है। लगातार collaboration महत्वपूर्ण है। यह आपको उन areas में फिर से कदम रखने से बचाता है जहां दूसरे लोग पहले ही fail हो चुके हैं
- क्या इसे इस ज़रूरत के रूप में भी नहीं देखा जा सकता कि researchers को failed experiments भी publish करने चाहिए
- यह एक और वजह है कि scientific AI agent का idea मुझे बहुत समझदारी भरा नहीं लगा। Research अत्यंत collaborative activities का एक समूह है। कोई researcher जो literature review तो बहुत अच्छी तरह करता है, लेकिन वास्तव में किसी से बात नहीं करता और conferences में भी नहीं जाता, वह कितना अच्छा हो सकता है
Analysis शानदार है और examples भी सटीक हैं। AI-related research की एक और समस्या यह है कि papers का बड़ा हिस्सा नया है और उनमें से कई “proper” जगहों पर publish भी नहीं हुए, फिर भी Google Scholar ही देखें तो वे हर जगह लगातार cite होते रहते हैं
Results reproduce करना और कुछ claims की validity confirm करना कठिन है, और यह भी है कि 4 साल पहले की research ने models का एक set इस्तेमाल किया था, जबकि आज की testing में अलग training data वाले models का दूसरा set इस्तेमाल होता है। यह establish करना मुश्किल है कि वास्तव में results को क्या affect कर रहा है, और conclusions पुराने models की किसी खास property पर ही लागू होते हैं या generalizable हैं
- मैं scientist या researcher नहीं हूं, लेकिन statistics और data interpretation पर आधारित किसी भी चीज़ पर तुरंत शक करने लगता हूं
क्या title बदल गया है, या मैं hallucinate करना शुरू कर चुका हूं
Title है “I got fooled by AI-for-science hype—here's what it taught me”
- हां, बदला है। निजी तौर पर मुझे लगता है यह और खराब हो गया। यह original title से बदला गया है
  यहां गंभीर समस्या न हो तो original title को प्राथमिकता दी जानी चाहिए
  इस original title में कोई गंभीर समस्या नहीं थी। जब तक कि science research में संदिग्ध AI contributions की एक PhD student द्वारा की गई सावधान आलोचना को ठीक-ठीक summarize करना ही गंभीर समस्या न हो
- यह hallucination नहीं है: https://web.archive.org/web/20250520152757/https://news.ycom...
यह लेख AI के बारे में कम, और PhD program के कम चर्चित functions में से एक—academic claims पढ़ने की क्षमता विकसित करने—के बारे में ज़्यादा लगता है
Papers में किए गए claims चौंकाने वाले नहीं हैं। वे उस उलझे हुए incentive structure का स्वाभाविक परिणाम हैं जिसे समय के साथ हमने “science” कहना शुरू कर दिया है। Science के outputs को सही context में रखना, और यह समझना कि “paper” अपनी सारी जटिलताओं के साथ एक socio-technical system का product है, समय लेकर अभ्यास करने वाली चीज़ है

विज्ञान के लिए AI के बढ़ा-चढ़ाकर किए गए दावों से मैं क्या सीख पाया

plasma physics से AI की ओर रुख बदलने की वजह

PINN experiments में सामने आई कमजोरियां

PINN से मिले सबक और मौजूदा मूल्यांकन

कमजोर baselines से पैदा हुआ जरूरत से ज्यादा आशावाद

76 papers की समीक्षा: 79% में कमजोर baseline

PDE क्षेत्र में किस तरह की validation की जरूरत है

विज्ञान को तेज करने में AI के वास्तविक examples और सीमाएं

वैज्ञानिक AI को क्यों अपना रहे हैं

survivorship bias और reproducibility crisis

जरूरत से ज्यादा आशावाद पैदा करने वाले चार जाल

data leakage

weak baselines

cherry-picking

misreporting

निष्कर्ष: क्रांति से ज्यादा असमान और क्रमिक tool

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें