- Harvard के एक अध्ययन में OpenAI के o1 reasoning model ने इमरजेंसी रूम की शुरुआती triage diagnosis में मानव डॉक्टरों से अधिक accuracy दिखाई, और LLMs को clinical reasoning के अधिकांश benchmarks से आगे बताया गया
- Boston के एक अस्पताल के इमरजेंसी रूम में आए 76 मरीजों के standard electronic medical records को पढ़ने वाले प्रयोग में o1 ने 67% मामलों में सही या बहुत करीब diagnosis दिया, जबकि 2 मानव डॉक्टरों ने 50–55% score किया
- अधिक detailed जानकारी दिए जाने पर AI की accuracy 82% तक बढ़ गई, और expert humans 70–79% पर रहे, लेकिन यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं था
- AI ने antibiotic therapy या end-of-life planning जैसे long-term treatment planning tasks में भी 46 डॉक्टरों को पीछे छोड़ा, और 5 clinical cases में AI का score 89% था, जबकि existing materials का उपयोग करने वाले मानव डॉक्टरों का 34%
- अध्ययन ने केवल text के माध्यम से दी जा सकने वाली patient data की तुलना की, और non-verbal cues को test नहीं किया, इसलिए इसकी सीमा यह है कि यह वास्तविक डॉक्टर replacement से अधिक document-based second opinion की भूमिका के करीब है
Harvard इमरजेंसी triage प्रयोग के मुख्य नतीजे
- Harvard अध्ययन में AI system ने emergency medicine triage स्थितियों में diagnostic accuracy के मामले में मानव डॉक्टरों से बेहतर प्रदर्शन किया
- Science में प्रकाशित नतीजे सैकड़ों डॉक्टरों और AI responses की तुलना करने वाले प्रयोग से आए, और स्वतंत्र विशेषज्ञों ने कहा कि AI clinical reasoning में “वास्तविक प्रगति” दिखा रहा है
- large language models (LLMs) को “clinical reasoning के अधिकांश benchmarks को पार कर चुका” बताया गया
- AI की बढ़त खास तौर पर उन प्रारंभिक इमरजेंसी triage स्थितियों में अधिक स्पष्ट थी, जहाँ जानकारी कम होती है और तेज़ निर्णय की जरूरत होती है
76 इमरजेंसी मरीजों का diagnosis प्रयोग
- Boston के एक अस्पताल के इमरजेंसी रूम में पहुँचे 76 मरीजों पर किए गए प्रयोग में AI और 2 मानव डॉक्टरों ने एक ही standard electronic medical records पढ़कर diagnosis किया
- electronic medical records में आमतौर पर vital signs, demographic information, और मरीज के अस्पताल आने के कारण को लिखने वाले nurse के कुछ वाक्य शामिल थे
- OpenAI के o1 reasoning model ने 67% मामलों में सही या बहुत करीब diagnosis खोज लिया, जबकि मानव डॉक्टरों ने 50–55% accuracy दर्ज की
- अधिक detail दिए जाने पर AI diagnosis accuracy 82% तक पहुँची, और expert humans ने 70–79% दर्ज किया, लेकिन यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं था
long-term treatment planning प्रयोग
- AI ने antibiotic therapy सुझाने या end-of-life process की planning करने जैसे long-term treatment planning tasks में भी डॉक्टरों के बड़े समूह को पीछे छोड़ा
- AI और 46 डॉक्टरों ने 5 clinical case studies की समीक्षा की, और AI ने existing materials का उपयोग करने वाले मानव डॉक्टरों की तुलना में उल्लेखनीय रूप से बेहतर plans बनाए
- score में AI 89% पर था, जबकि search engine जैसे existing materials का उपयोग करने वाले मानव डॉक्टर 34% पर थे
अध्ययन की सीमाएँ और मेडिकल क्षेत्र में भूमिका का बदलाव
- इस अध्ययन ने केवल text के माध्यम से साझा की जा सकने वाली patient data के आधार पर मानव और AI की तुलना की
- मरीज के दर्द की तीव्रता या visual appearance जैसे non-verbal cues को पढ़ने की AI की क्षमता की जाँच नहीं की गई
- इसलिए AI ने वास्तविक इमरजेंसी डॉक्टर का replacement करने के बजाय document-based second opinion देने वाले clinician के अधिक करीब भूमिका निभाई
- Harvard Medical School AI institute का नेतृत्व करने वाले Arjun Manrai ने कहा कि इन नतीजों का मतलब यह नहीं है कि AI डॉक्टरों को replace कर रहा है, बल्कि यह संकेत है कि medicine को reshape करने वाला “बहुत गहरा तकनीकी बदलाव” चल रहा है
- अध्ययन किए गए Boston के Beth Israel Deaconess medical centre के डॉक्टर Adam Rodman AI LLMs को “दशकों में सबसे प्रभावशाली तकनीकों” में से एक मानते हैं
- Rodman का मानना है कि आने वाले 10 वर्षों में AI डॉक्टरों की जगह लेने के बजाय डॉक्टर, मरीज और AI systems के साथ एक नए three-way care model में शामिल होगा
clinical case और AI reasoning
- Harvard अध्ययन के एक case में मरीज में pulmonary clot और worsening symptoms दिखे
- मानव डॉक्टरों ने माना कि anticoagulants काम नहीं कर रहे थे, लेकिन AI ने यह पकड़ा कि मरीज का lupus history pulmonary inflammation का कारण हो सकता है
- AI का आकलन सही निकला
स्वास्थ्य सेवा में AI का उपयोग पहले से फैल रहा है
- पिछले महीने प्रकाशित अध्ययन के अनुसार अमेरिका में लगभग हर 5 में से 1 डॉक्टर पहले से diagnosis support के लिए AI का उपयोग कर रहा है
- UK में 16% डॉक्टर रोज़ AI का उपयोग करते हैं, और अतिरिक्त 15% हर हफ्ते इसका उपयोग करते हैं
- Royal College of Physicians के हालिया सर्वेक्षण के अनुसार UK डॉक्टरों के सामान्य उपयोगों में से एक clinical decision-making है
- UK डॉक्टरों की सबसे बड़ी चिंता AI errors और liability risk को लेकर थी
- AI healthcare कंपनियों में अरबों डॉलर का निवेश हो रहा है, लेकिन AI errors के परिणामों को लेकर सवाल बने हुए हैं
- Rodman ने कहा कि फिलहाल accountability के लिए कोई औपचारिक framework नहीं है, और उन्होंने ज़ोर देकर कहा कि मरीज अंततः जीवन-मृत्यु और कठिन treatment decisions में मानव मार्गदर्शन चाहते हैं
बाहरी विशेषज्ञों की राय और सावधानियाँ
- University of Edinburgh के medical informatics centre के co-director प्रोफेसर Ewen Harrison ने इस अध्ययन को महत्वपूर्ण बताया और कहा कि ऐसे systems अब केवल medical exams पास करने या artificial test cases हल करने तक सीमित नहीं हैं
- Harrison के अनुसार AI अब खास तौर पर तब clinicians के लिए उपयोगी second opinion tool जैसा दिखने लगा है, जब उन्हें संभावित diagnoses की अधिक व्यापक range पर विचार करना होता है और किसी महत्वपूर्ण चीज़ को छूटने से बचाना होता है
- University of Sheffield के School of Mathematical and Physical Sciences के Dr Wei Xing का कहना है कि कुछ अन्य परिणाम यह संकेत देते हैं कि डॉक्टर स्वतंत्र रूप से सोचने के बजाय अनजाने में AI के उत्तर का अनुसरण कर सकते हैं
- Xing ने कहा कि clinical settings में AI का उपयोग जितना अधिक रोज़मर्रा होगा, यह प्रवृत्ति उतनी बढ़ सकती है
- Xing ने यह भी कहा कि इस बारे में पर्याप्त जानकारी नहीं है कि AI किन मरीजों में diagnosis करने में अधिक कमजोर रहा, और क्या उसे बुज़ुर्ग मरीजों या non-native English बोलने वाले मरीजों के मामलों में अधिक कठिनाई हुई
- Xing ने कहा कि यह अध्ययन यह साबित नहीं करता कि AI रोज़मर्रा के clinical उपयोग के लिए सुरक्षित है, या यह कि आम जनता को स्वतंत्र रूप से उपलब्ध AI tools को medical advice के विकल्प के रूप में इस्तेमाल करना चाहिए
1 टिप्पणियां
Hacker News की राय
ऐसे अध्ययनों पर भरोसा करने में बहुत सावधानी बरतनी चाहिए, क्योंकि benchmark को खराब कर देना बहुत आसान होता है
उदाहरण के लिए, एक हालिया पेपर में AI ने X-ray reading में radiologist को हरा दिया, जबकि AI को X-ray तक पहुंच ही नहीं दी गई थी: https://arxiv.org/pdf/2603.21687
वह पहले से मौजूद “general chest X-ray understanding के लिए large-scale visual question answering benchmark” था, और उसे जानबूझकर खराब भी नहीं किया गया था
ऊपर से, X-ray reading में मानव radiologist वास्तव में X-ray देखता है। लेकिन इस लेख के संदर्भ में, जब मानव डॉक्टर ER मरीज का diagnosis करता है, तो वह सिर्फ notes देखकर फैसला नहीं करता
यह कुछ ऐसा है जैसे किसी को ऐसा काम दे दिया जाए जिसकी न जरूरत है, न आदत है, न training, और फिर कहा जाए “AI बेहतर है”; इसलिए अगर notes ने किसी अजीब indirect तरीके से answer leak भी न किया हो, तब भी यह चौंकाने वाली बात नहीं है
इसका मतलब यह नहीं कि यह अध्ययन निश्चित रूप से गलत है या जानबूझकर भ्रामक है, लेकिन मैं एक ही अध्ययन के आधार पर मजबूत निष्कर्ष नहीं निकालूंगा
आखिरकार medicine ज्ञान, अनुभव, बुद्धिमत्ता, और शायद pattern recognition का मामला है, और इन चीजों में सबसे अच्छे AI models, खासकर सिर्फ medical use पर केंद्रित models, अधिकांश इंसानों यानी डॉक्टरों से बहुत आगे निकलेंगे, ऐसा मानना चाहिए
अगर हम software engineers के बारे में पहले से ऐसा मानते हैं, तो यह बात इस क्षेत्र पर भी लागू होनी चाहिए; और व्यावहारिक रूप से, पिछले कुछ महीनों में जब भी मैं डॉक्टर के पास गया, ER की दो visits समेत, वे सभी ChatGPT इस्तेमाल कर रहे थे। मजाक नहीं, यह चौंकाने वाला था
इसलिए मैं सच में जानना चाहता हूं: जिम्मेदारी और ethics को अलग रखकर, शुद्ध क्षमता की बात करें तो, ऐसी कौन-सी ठोस क्षमता या क्षमताओं का संयोजन है जो आपको यह मानने पर मजबूर करता है कि top medical AI किसी शानदार मानव डॉक्टर की performance को स्थायी रूप से, या कम से कम कई दशकों तक, पकड़ या पार नहीं कर पाएगा?
वहां इसने emergency severity triage में लगभग आधे मामले गलत कर दिए
headline में दिए गए numbers सिर्फ nurse notes देखकर लगाए गए presumptive diagnosis से लिए गए थे। मेरा अंदाजा है कि चुने गए case studies में large language model डॉक्टरों की तुलना में ज्यादा बेझिझक अंदाजा लगा रहा था
यह बहुत reasonable निष्कर्ष लगता है, लेकिन यह दूसरी संभावना को छोड़ देता है। क्या X-ray ही नतीजों को ज्यादा inaccurate बना रहा है?
लेख और paper दोनों मुझे काफी बढ़ा-चढ़ाकर पेश किए हुए लगे। यह डॉक्टरों को ऐसी setup में large language model के खिलाफ खड़ा करता है जो model के पक्ष में बहुत ज्यादा झुकी हुई है, और यह clinical practice का प्रतिनिधित्व नहीं करती
ऐसे reasoning cases डॉक्टरों के benchmark नहीं बल्कि learning tools हैं
diagnosis सबसे पहले मरीज का सही वर्णन करने पर निर्भर करता है, और कौन-सी जानकारी जुटाई जाए यह differential diagnosis पर निर्भर करता है
डॉक्टर की एक क्षमता यह होती है कि वह कई स्रोतों से जानकारी इकट्ठी करे और महत्वपूर्ण बातों को छांटे। मरीज शायद साफ-साफ बता न पाए, nonverbal हो, या caregiver या परिवार से जानकारी लेनी पड़े
history taking खुद एक skill है, और physical exam भी, लेकिन यहां वह data पहले से दिया गया है
खासकर उन सवालों में जो संभवतः o1 के training data में रहे होंगे, plain-text pattern recognition में डॉक्टरों से आगे निकलना बिल्कुल चौंकाने वाला नहीं है, लेकिन यह clinically useful comparison नहीं लगता
कौन-से tests कराने हैं, imaging करनी है या नहीं, history में से अनावश्यक जानकारी छांटनी है या नहीं, यह भी अलग skills हैं और diagnosis formation से इन्हें अलग करना मुश्किल है
कुछ मामलों में probability के हिसाब से X चुनना बेहतर हो सकता है, लेकिन अंतर बड़ा न हो; और ज्यादा सुरक्षित विकल्प यह हो सकता है कि पहले दूसरी संभावनाओं को rule out किया जाए, या ऐसी safe treatment शुरू की जाए जो कई संभावनाओं को cover करे
इस evaluation में सिर्फ “high score” लेना जरूरी नहीं कि अच्छी medical practice हो
मैं इस अध्ययन को बहुत ज्यादा महत्व नहीं दूंगा, लेकिन फिर भी मुझे लगता है कि बहुत-से लोग यह मान सकते हैं कि self-diagnosis में large language models उपयोगी हो सकते हैं
अमेरिका में डॉक्टर का ध्यान और इलाज पाना मुश्किल है, इसलिए आखिर में बहुत कुछ खुद ही करना पड़ता है
10 साल पहले डॉक्टर शिकायत करते थे कि मरीज Google से ढूंढी बातें लेकर आते हैं, लेकिन अब मुझे लगता है कि लोगों के पास विकल्प ही नहीं है
उदाहरण के लिए, मैं foot और ankle problem लेकर एक podiatrist के पास गया; foot problem तो X-ray से diagnose कर दी गई, लेकिन ankle problem पर उसने बस कंधे उचकाए कि X-ray में कुछ नहीं दिख रहा
allotted 15 minutes खत्म हो गए, और मैं बिना कारण जाने या उसे ठीक करने का तरीका समझे लौट आया। large language model से 5 मिनट पूछने पर मुझे ankle issue का एक plausible कारण मिला, जो foot diagnosis से भी मेल खाता था
अगर healthcare कंपनियां AI का उपयोग patient care बेहतर करने के बजाय रोज ज्यादा मरीज देखने के लिए करती हैं, तो स्थिति और खराब हो सकती है
“AI और दो मानव डॉक्टरों को वही standardized electronic medical records पढ़ने दिए गए” — यह मानव डॉक्टरों की क्षमता को सीमित करने वाली शर्त है
मानव डॉक्टर सिर्फ मरीज को थोड़ी देर देखकर भी कहीं ज्यादा जानकारी हासिल कर सकता है
https://entropicthoughts.com/arithmetic-models-better-than-y...
AI records की समीक्षा करके diagnosis candidates सुझाए, और डॉक्टर मरीज को देखकर उन्हें evaluate करे — यह तरीका अच्छा लगता है
और common conditions सच में common होती हैं। यह भी दिलचस्प है कि इससे डॉक्टर और large language model दोनों कितने biased हो जाते हैं
अगर कोई runny nose और cough के साथ आए, तो उसे flu बताना अक्सर सही निकल सकता है
डॉक्टर और nurse इसलिए खुश हैं कि उन्हें खुद टाइप नहीं करना पड़ता, लेकिन बार-बार होने वाली transcription errors को वे records में ठीक से review करते भी हैं या नहीं, यह पूरी तरह अस्त-व्यस्त है
अब बस वही flawed transcript AI diagnosis system में डाल दो और काम खत्म। AI उसे gospel truth की तरह ले लेगा, जबकि डॉक्टर रुककर कह सकता है, “रुको, यह क्या है?”
मैंने न सिर्फ अपने और अपनी पत्नी के लिए, बल्कि अपने कुत्तों के diagnosis के लिए भी large language models का इस्तेमाल किया है
मुझे पूरा भरोसा है कि AI-based veterinary care में बड़ा अवसर है। खासकर अगर आगे चलकर यह local पशु-अस्पतालों के बीच consultation या surgery pricing के लिए bidding भी करवा सके
local veterinary pricing में 10x से भी ज्यादा अंतर हो सकता है। मेरी 80 वर्षीय मां और सास, दोनों को overcharging करने वाले vets ने अक्सर फंसाया है, और क्योंकि पालतू कुत्ते उनकी जिंदगी का बड़ा हिस्सा हैं, वे दबाव में बहुत जल्दी आ जाती हैं
यहां की नकारात्मक प्रतिक्रियाएं मुझे समझ नहीं आतीं। सिर्फ यह तथ्य कि कंप्यूटर लगभग 30% तक भी पहुंच सकता है, अपने-आप में चौंकाने वाला है
AI, OpenAI जैसी frontier labs, या Google समूह के प्रति शत्रुता बहुत ज्यादा लगती है और तर्कसंगत नहीं लगती
मेरी नजर में मुख्य बात यह है कि AI को मरीज के case notes दिए गए थे, लेकिन उसने मरीज को प्रत्यक्ष नहीं देखा
यह डॉक्टरों के training के तरीके से अलग है, और डॉक्टर जो कर सकते हैं उसे अनावश्यक रूप से सीमित करता है। डॉक्टर जो मूल्य देते हैं उसका बड़ा हिस्सा मरीज से बातचीत से आता है
headline सुनने में ऐसा लगता है जैसे AI डॉक्टरों की जगह ले लेगा, जबकि वास्तव में बात इससे ज्यादा “AI यह संकीर्ण काम डॉक्टरों से बेहतर कर सकता है” जैसी है
इस्तेमाल किए गए notes भी संभवतः शुरुआत में डॉक्टरों ने ही लिखे होंगे
असली इनाम तो तब है जब doctor+AI का combination अकेले doctor से बेहतर हो। अगर डॉक्टर को case notes पढ़कर निष्कर्ष निकालना है, तो अब वह AI के काफी अच्छे सुझावों का लाभ ले सकता है
दांव जितना बड़ा हो, आम तौर पर हमें उतना ही ज्यादा आलोचनात्मक होना चाहिए, कम नहीं
skepticism जरूरत से ज्यादा भी हो, तब भी बेहद उपयोगी tool है
60 साल की उम्र में मैंने खुद AI medical assistant tool [1] बनाया है और कई symptoms पर इसका व्यापक इस्तेमाल किया है, और मैं इससे बहुत संतुष्ट हूं
कुछ test results analyze करने के बाद इसने ऐसे indicators तक सुझाए जिन पर डॉक्टर ने शुरुआत में विचार नहीं किया था
यह डॉक्टर की जगह नहीं लेगा, लेकिन साधारण symptoms की self-diagnosis और second opinion के लिए यह बहुत उपयोगी tool है
[1] https://mediconsulta.net (DeepSeek)
मैं जानना चाहता हूं कि वह 33% क्या 50~45% का subset है
अगर subset नहीं है, तो उस error की गंभीरता कितनी थी? क्या मौतें ज्यादा हुईं? recovery time लंबा हुआ? उस अंतर का वास्तविक असर क्या था?
paper: https://www.science.org/doi/10.1126/science.adz4433 (30 अप्रैल 2026)
67% और 55% का अंतर कितना बड़ा है? क्या अध्ययन में डॉक्टरों और AI को वही मरीज दिए गए थे?
अगर यह side-by-side तुलना नहीं की गई कि दोनों ने हर स्थिति का आकलन कैसे किया और अलग निष्कर्ष पर क्यों पहुंचे, तो मुझे नहीं पता कि यह वैज्ञानिक रूप से कितना प्रभावी हो सकता है
बचे हुए 43% में डॉक्टर AI की छूटी हुई blind spots पकड़ नहीं सकते, इसकी गारंटी कौन दे सकता है
tools का उद्देश्य replacement नहीं, बल्कि प्रयासों को जोड़ना है
आम जनता के सामने ऐसे percentages उछालना काफी गैर-जिम्मेदाराना है