OpenAI o1 ने इमरजेंसी रूम के 67% मरीजों का सही निदान किया, जबकि triage डॉक्टर 50–55% पर रहे

(theguardian.com)

1 पॉइंट द्वारा GN⁺ 1 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Harvard के एक अध्ययन में OpenAI के o1 reasoning model ने इमरजेंसी रूम की शुरुआती triage diagnosis में मानव डॉक्टरों से अधिक accuracy दिखाई, और LLMs को clinical reasoning के अधिकांश benchmarks से आगे बताया गया
Boston के एक अस्पताल के इमरजेंसी रूम में आए 76 मरीजों के standard electronic medical records को पढ़ने वाले प्रयोग में o1 ने 67% मामलों में सही या बहुत करीब diagnosis दिया, जबकि 2 मानव डॉक्टरों ने 50–55% score किया
अधिक detailed जानकारी दिए जाने पर AI की accuracy 82% तक बढ़ गई, और expert humans 70–79% पर रहे, लेकिन यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं था
AI ने antibiotic therapy या end-of-life planning जैसे long-term treatment planning tasks में भी 46 डॉक्टरों को पीछे छोड़ा, और 5 clinical cases में AI का score 89% था, जबकि existing materials का उपयोग करने वाले मानव डॉक्टरों का 34%
अध्ययन ने केवल text के माध्यम से दी जा सकने वाली patient data की तुलना की, और non-verbal cues को test नहीं किया, इसलिए इसकी सीमा यह है कि यह वास्तविक डॉक्टर replacement से अधिक document-based second opinion की भूमिका के करीब है

Harvard इमरजेंसी triage प्रयोग के मुख्य नतीजे

Harvard अध्ययन में AI system ने emergency medicine triage स्थितियों में diagnostic accuracy के मामले में मानव डॉक्टरों से बेहतर प्रदर्शन किया
Science में प्रकाशित नतीजे सैकड़ों डॉक्टरों और AI responses की तुलना करने वाले प्रयोग से आए, और स्वतंत्र विशेषज्ञों ने कहा कि AI clinical reasoning में “वास्तविक प्रगति” दिखा रहा है
large language models (LLMs) को “clinical reasoning के अधिकांश benchmarks को पार कर चुका” बताया गया
AI की बढ़त खास तौर पर उन प्रारंभिक इमरजेंसी triage स्थितियों में अधिक स्पष्ट थी, जहाँ जानकारी कम होती है और तेज़ निर्णय की जरूरत होती है

76 इमरजेंसी मरीजों का diagnosis प्रयोग

Boston के एक अस्पताल के इमरजेंसी रूम में पहुँचे 76 मरीजों पर किए गए प्रयोग में AI और 2 मानव डॉक्टरों ने एक ही standard electronic medical records पढ़कर diagnosis किया
electronic medical records में आमतौर पर vital signs, demographic information, और मरीज के अस्पताल आने के कारण को लिखने वाले nurse के कुछ वाक्य शामिल थे
OpenAI के o1 reasoning model ने 67% मामलों में सही या बहुत करीब diagnosis खोज लिया, जबकि मानव डॉक्टरों ने 50–55% accuracy दर्ज की
अधिक detail दिए जाने पर AI diagnosis accuracy 82% तक पहुँची, और expert humans ने 70–79% दर्ज किया, लेकिन यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं था

long-term treatment planning प्रयोग

AI ने antibiotic therapy सुझाने या end-of-life process की planning करने जैसे long-term treatment planning tasks में भी डॉक्टरों के बड़े समूह को पीछे छोड़ा
AI और 46 डॉक्टरों ने 5 clinical case studies की समीक्षा की, और AI ने existing materials का उपयोग करने वाले मानव डॉक्टरों की तुलना में उल्लेखनीय रूप से बेहतर plans बनाए
score में AI 89% पर था, जबकि search engine जैसे existing materials का उपयोग करने वाले मानव डॉक्टर 34% पर थे

अध्ययन की सीमाएँ और मेडिकल क्षेत्र में भूमिका का बदलाव

इस अध्ययन ने केवल text के माध्यम से साझा की जा सकने वाली patient data के आधार पर मानव और AI की तुलना की
मरीज के दर्द की तीव्रता या visual appearance जैसे non-verbal cues को पढ़ने की AI की क्षमता की जाँच नहीं की गई
इसलिए AI ने वास्तविक इमरजेंसी डॉक्टर का replacement करने के बजाय document-based second opinion देने वाले clinician के अधिक करीब भूमिका निभाई
Harvard Medical School AI institute का नेतृत्व करने वाले Arjun Manrai ने कहा कि इन नतीजों का मतलब यह नहीं है कि AI डॉक्टरों को replace कर रहा है, बल्कि यह संकेत है कि medicine को reshape करने वाला “बहुत गहरा तकनीकी बदलाव” चल रहा है
अध्ययन किए गए Boston के Beth Israel Deaconess medical centre के डॉक्टर Adam Rodman AI LLMs को “दशकों में सबसे प्रभावशाली तकनीकों” में से एक मानते हैं
Rodman का मानना है कि आने वाले 10 वर्षों में AI डॉक्टरों की जगह लेने के बजाय डॉक्टर, मरीज और AI systems के साथ एक नए three-way care model में शामिल होगा

clinical case और AI reasoning

Harvard अध्ययन के एक case में मरीज में pulmonary clot और worsening symptoms दिखे
मानव डॉक्टरों ने माना कि anticoagulants काम नहीं कर रहे थे, लेकिन AI ने यह पकड़ा कि मरीज का lupus history pulmonary inflammation का कारण हो सकता है
AI का आकलन सही निकला

स्वास्थ्य सेवा में AI का उपयोग पहले से फैल रहा है

पिछले महीने प्रकाशित अध्ययन के अनुसार अमेरिका में लगभग हर 5 में से 1 डॉक्टर पहले से diagnosis support के लिए AI का उपयोग कर रहा है
UK में 16% डॉक्टर रोज़ AI का उपयोग करते हैं, और अतिरिक्त 15% हर हफ्ते इसका उपयोग करते हैं
Royal College of Physicians के हालिया सर्वेक्षण के अनुसार UK डॉक्टरों के सामान्य उपयोगों में से एक clinical decision-making है
UK डॉक्टरों की सबसे बड़ी चिंता AI errors और liability risk को लेकर थी
AI healthcare कंपनियों में अरबों डॉलर का निवेश हो रहा है, लेकिन AI errors के परिणामों को लेकर सवाल बने हुए हैं
Rodman ने कहा कि फिलहाल accountability के लिए कोई औपचारिक framework नहीं है, और उन्होंने ज़ोर देकर कहा कि मरीज अंततः जीवन-मृत्यु और कठिन treatment decisions में मानव मार्गदर्शन चाहते हैं

बाहरी विशेषज्ञों की राय और सावधानियाँ

University of Edinburgh के medical informatics centre के co-director प्रोफेसर Ewen Harrison ने इस अध्ययन को महत्वपूर्ण बताया और कहा कि ऐसे systems अब केवल medical exams पास करने या artificial test cases हल करने तक सीमित नहीं हैं
Harrison के अनुसार AI अब खास तौर पर तब clinicians के लिए उपयोगी second opinion tool जैसा दिखने लगा है, जब उन्हें संभावित diagnoses की अधिक व्यापक range पर विचार करना होता है और किसी महत्वपूर्ण चीज़ को छूटने से बचाना होता है
University of Sheffield के School of Mathematical and Physical Sciences के Dr Wei Xing का कहना है कि कुछ अन्य परिणाम यह संकेत देते हैं कि डॉक्टर स्वतंत्र रूप से सोचने के बजाय अनजाने में AI के उत्तर का अनुसरण कर सकते हैं
Xing ने कहा कि clinical settings में AI का उपयोग जितना अधिक रोज़मर्रा होगा, यह प्रवृत्ति उतनी बढ़ सकती है
Xing ने यह भी कहा कि इस बारे में पर्याप्त जानकारी नहीं है कि AI किन मरीजों में diagnosis करने में अधिक कमजोर रहा, और क्या उसे बुज़ुर्ग मरीजों या non-native English बोलने वाले मरीजों के मामलों में अधिक कठिनाई हुई
Xing ने कहा कि यह अध्ययन यह साबित नहीं करता कि AI रोज़मर्रा के clinical उपयोग के लिए सुरक्षित है, या यह कि आम जनता को स्वतंत्र रूप से उपलब्ध AI tools को medical advice के विकल्प के रूप में इस्तेमाल करना चाहिए

1 टिप्पणियां

GN⁺ 1 시간 전

Hacker News की राय

ऐसे अध्ययनों पर भरोसा करने में बहुत सावधानी बरतनी चाहिए, क्योंकि benchmark को खराब कर देना बहुत आसान होता है
उदाहरण के लिए, एक हालिया पेपर में AI ने X-ray reading में radiologist को हरा दिया, जबकि AI को X-ray तक पहुंच ही नहीं दी गई थी: https://arxiv.org/pdf/2603.21687
वह पहले से मौजूद “general chest X-ray understanding के लिए large-scale visual question answering benchmark” था, और उसे जानबूझकर खराब भी नहीं किया गया था
ऊपर से, X-ray reading में मानव radiologist वास्तव में X-ray देखता है। लेकिन इस लेख के संदर्भ में, जब मानव डॉक्टर ER मरीज का diagnosis करता है, तो वह सिर्फ notes देखकर फैसला नहीं करता
यह कुछ ऐसा है जैसे किसी को ऐसा काम दे दिया जाए जिसकी न जरूरत है, न आदत है, न training, और फिर कहा जाए “AI बेहतर है”; इसलिए अगर notes ने किसी अजीब indirect तरीके से answer leak भी न किया हो, तब भी यह चौंकाने वाली बात नहीं है
इसका मतलब यह नहीं कि यह अध्ययन निश्चित रूप से गलत है या जानबूझकर भ्रामक है, लेकिन मैं एक ही अध्ययन के आधार पर मजबूत निष्कर्ष नहीं निकालूंगा
- इस खास अध्ययन पर मैं सहमत हूं, लेकिन लंबे समय में डॉक्टर AI model से बेहतर रहेंगे, यह बात मुझे समझ नहीं आती
  आखिरकार medicine ज्ञान, अनुभव, बुद्धिमत्ता, और शायद pattern recognition का मामला है, और इन चीजों में सबसे अच्छे AI models, खासकर सिर्फ medical use पर केंद्रित models, अधिकांश इंसानों यानी डॉक्टरों से बहुत आगे निकलेंगे, ऐसा मानना चाहिए
  अगर हम software engineers के बारे में पहले से ऐसा मानते हैं, तो यह बात इस क्षेत्र पर भी लागू होनी चाहिए; और व्यावहारिक रूप से, पिछले कुछ महीनों में जब भी मैं डॉक्टर के पास गया, ER की दो visits समेत, वे सभी ChatGPT इस्तेमाल कर रहे थे। मजाक नहीं, यह चौंकाने वाला था
  इसलिए मैं सच में जानना चाहता हूं: जिम्मेदारी और ethics को अलग रखकर, शुद्ध क्षमता की बात करें तो, ऐसी कौन-सी ठोस क्षमता या क्षमताओं का संयोजन है जो आपको यह मानने पर मजबूर करता है कि top medical AI किसी शानदार मानव डॉक्टर की performance को स्थायी रूप से, या कम से कम कई दशकों तक, पकड़ या पार नहीं कर पाएगा?
- दिलचस्प बात यह है कि ChatGPT Health पर एक हालिया अध्ययन में काफी अलग नतीजे मिले: https://www.nature.com/articles/s41591-026-04297-7
  वहां इसने emergency severity triage में लगभग आधे मामले गलत कर दिए
- अगर आप लेख को अंत तक पढ़ें, तो पता चलता है कि जब डॉक्टरों और large language model दोनों को पूरा case record पढ़ने दिया गया, तब statistical significance के हिसाब से अंतर गायब हो गया
  headline में दिए गए numbers सिर्फ nurse notes देखकर लगाए गए presumptive diagnosis से लिए गए थे। मेरा अंदाजा है कि चुने गए case studies में large language model डॉक्टरों की तुलना में ज्यादा बेझिझक अंदाजा लगा रहा था
- डॉक्टर मानव cognitive bias की वजह से चीजें मिस कर सकते हैं, और इंसान अक्सर उन्हीं patterns पर अटक जाते हैं जिनसे वे सबसे ज्यादा परिचित होते हैं, इसलिए यह plausible लगता है
- मैंने linked paper अभी पूरा नहीं पढ़ा, लेकिन यह मान लेना दिलचस्प है कि अगर X-ray access न दिया जाए तो परिणाम बस illusion या mirage हैं
  यह बहुत reasonable निष्कर्ष लगता है, लेकिन यह दूसरी संभावना को छोड़ देता है। क्या X-ray ही नतीजों को ज्यादा inaccurate बना रहा है?
लेख और paper दोनों मुझे काफी बढ़ा-चढ़ाकर पेश किए हुए लगे। यह डॉक्टरों को ऐसी setup में large language model के खिलाफ खड़ा करता है जो model के पक्ष में बहुत ज्यादा झुकी हुई है, और यह clinical practice का प्रतिनिधित्व नहीं करती
ऐसे reasoning cases डॉक्टरों के benchmark नहीं बल्कि learning tools हैं
diagnosis सबसे पहले मरीज का सही वर्णन करने पर निर्भर करता है, और कौन-सी जानकारी जुटाई जाए यह differential diagnosis पर निर्भर करता है
डॉक्टर की एक क्षमता यह होती है कि वह कई स्रोतों से जानकारी इकट्ठी करे और महत्वपूर्ण बातों को छांटे। मरीज शायद साफ-साफ बता न पाए, nonverbal हो, या caregiver या परिवार से जानकारी लेनी पड़े
history taking खुद एक skill है, और physical exam भी, लेकिन यहां वह data पहले से दिया गया है
खासकर उन सवालों में जो संभवतः o1 के training data में रहे होंगे, plain-text pattern recognition में डॉक्टरों से आगे निकलना बिल्कुल चौंकाने वाला नहीं है, लेकिन यह clinically useful comparison नहीं लगता
कौन-से tests कराने हैं, imaging करनी है या नहीं, history में से अनावश्यक जानकारी छांटनी है या नहीं, यह भी अलग skills हैं और diagnosis formation से इन्हें अलग करना मुश्किल है
- हमें misdiagnosis cases का analysis भी देखना चाहिए। मानव डॉक्टर का लक्ष्य highest accuracy पाना नहीं, बल्कि मरीज पर होने वाले कुल नुकसान को कम करना होता है
  कुछ मामलों में probability के हिसाब से X चुनना बेहतर हो सकता है, लेकिन अंतर बड़ा न हो; और ज्यादा सुरक्षित विकल्प यह हो सकता है कि पहले दूसरी संभावनाओं को rule out किया जाए, या ऐसी safe treatment शुरू की जाए जो कई संभावनाओं को cover करे
  इस evaluation में सिर्फ “high score” लेना जरूरी नहीं कि अच्छी medical practice हो
मैं इस अध्ययन को बहुत ज्यादा महत्व नहीं दूंगा, लेकिन फिर भी मुझे लगता है कि बहुत-से लोग यह मान सकते हैं कि self-diagnosis में large language models उपयोगी हो सकते हैं
अमेरिका में डॉक्टर का ध्यान और इलाज पाना मुश्किल है, इसलिए आखिर में बहुत कुछ खुद ही करना पड़ता है
10 साल पहले डॉक्टर शिकायत करते थे कि मरीज Google से ढूंढी बातें लेकर आते हैं, लेकिन अब मुझे लगता है कि लोगों के पास विकल्प ही नहीं है
उदाहरण के लिए, मैं foot और ankle problem लेकर एक podiatrist के पास गया; foot problem तो X-ray से diagnose कर दी गई, लेकिन ankle problem पर उसने बस कंधे उचकाए कि X-ray में कुछ नहीं दिख रहा
allotted 15 minutes खत्म हो गए, और मैं बिना कारण जाने या उसे ठीक करने का तरीका समझे लौट आया। large language model से 5 मिनट पूछने पर मुझे ankle issue का एक plausible कारण मिला, जो foot diagnosis से भी मेल खाता था
- मुझे नहीं लगता कि healthcare में large language models का इस्तेमाल अमेरिकी healthcare problems का सही समाधान है
  अगर healthcare कंपनियां AI का उपयोग patient care बेहतर करने के बजाय रोज ज्यादा मरीज देखने के लिए करती हैं, तो स्थिति और खराब हो सकती है
“AI और दो मानव डॉक्टरों को वही standardized electronic medical records पढ़ने दिए गए” — यह मानव डॉक्टरों की क्षमता को सीमित करने वाली शर्त है
मानव डॉक्टर सिर्फ मरीज को थोड़ी देर देखकर भी कहीं ज्यादा जानकारी हासिल कर सकता है
- क्या AI के बारे में भी यही बात नहीं कही जा सकती?
- उल्टा, यह भी कहा गया है कि “clinical interview जैसी सामग्री, जहां interpretation मनमर्जी से खुल जाती है, उस तक पहुंच वाले expert जितना खतरनाक बहुत कम होता है”
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- सहमत। मुझे लगता है इस तकनीक का सबसे अच्छा उपयोग दोनों पक्षों की ताकतों को साथ में इस्तेमाल करना है
  AI records की समीक्षा करके diagnosis candidates सुझाए, और डॉक्टर मरीज को देखकर उन्हें evaluate करे — यह तरीका अच्छा लगता है
  और common conditions सच में common होती हैं। यह भी दिलचस्प है कि इससे डॉक्टर और large language model दोनों कितने biased हो जाते हैं
  अगर कोई runny nose और cough के साथ आए, तो उसे flu बताना अक्सर सही निकल सकता है
- यह बहुत महत्वपूर्ण observation लगता है। इसके साथ, AI के उपयोग के लिए short videos या photos भी शामिल करना दिलचस्प हो सकता है
- और ऊपर से, healthcare networks अब डॉक्टरों को electronic medical record entry के लिए AI transcription software इस्तेमाल करने पर मजबूर कर रहे हैं
  डॉक्टर और nurse इसलिए खुश हैं कि उन्हें खुद टाइप नहीं करना पड़ता, लेकिन बार-बार होने वाली transcription errors को वे records में ठीक से review करते भी हैं या नहीं, यह पूरी तरह अस्त-व्यस्त है
  अब बस वही flawed transcript AI diagnosis system में डाल दो और काम खत्म। AI उसे gospel truth की तरह ले लेगा, जबकि डॉक्टर रुककर कह सकता है, “रुको, यह क्या है?”
मैंने न सिर्फ अपने और अपनी पत्नी के लिए, बल्कि अपने कुत्तों के diagnosis के लिए भी large language models का इस्तेमाल किया है
मुझे पूरा भरोसा है कि AI-based veterinary care में बड़ा अवसर है। खासकर अगर आगे चलकर यह local पशु-अस्पतालों के बीच consultation या surgery pricing के लिए bidding भी करवा सके
local veterinary pricing में 10x से भी ज्यादा अंतर हो सकता है। मेरी 80 वर्षीय मां और सास, दोनों को overcharging करने वाले vets ने अक्सर फंसाया है, और क्योंकि पालतू कुत्ते उनकी जिंदगी का बड़ा हिस्सा हैं, वे दबाव में बहुत जल्दी आ जाती हैं
यहां की नकारात्मक प्रतिक्रियाएं मुझे समझ नहीं आतीं। सिर्फ यह तथ्य कि कंप्यूटर लगभग 30% तक भी पहुंच सकता है, अपने-आप में चौंकाने वाला है
AI, OpenAI जैसी frontier labs, या Google समूह के प्रति शत्रुता बहुत ज्यादा लगती है और तर्कसंगत नहीं लगती
- AI के प्रति नकारात्मक माहौल काफी है, यह सही है। लेकिन इस अध्ययन की वास्तविक सीमाएं भी हैं
  मेरी नजर में मुख्य बात यह है कि AI को मरीज के case notes दिए गए थे, लेकिन उसने मरीज को प्रत्यक्ष नहीं देखा
  यह डॉक्टरों के training के तरीके से अलग है, और डॉक्टर जो कर सकते हैं उसे अनावश्यक रूप से सीमित करता है। डॉक्टर जो मूल्य देते हैं उसका बड़ा हिस्सा मरीज से बातचीत से आता है
  headline सुनने में ऐसा लगता है जैसे AI डॉक्टरों की जगह ले लेगा, जबकि वास्तव में बात इससे ज्यादा “AI यह संकीर्ण काम डॉक्टरों से बेहतर कर सकता है” जैसी है
  इस्तेमाल किए गए notes भी संभवतः शुरुआत में डॉक्टरों ने ही लिखे होंगे
  असली इनाम तो तब है जब doctor+AI का combination अकेले doctor से बेहतर हो। अगर डॉक्टर को case notes पढ़कर निष्कर्ष निकालना है, तो अब वह AI के काफी अच्छे सुझावों का लाभ ले सकता है
- मुझे नहीं पता यह क्यों समझ नहीं आता। सबसे ज्यादा upvote पाए आलोचनात्मक comments में से अधिकांश कारणों को अच्छी तरह समझाते हैं, और वे कारण बहुत technical भी नहीं हैं
  दांव जितना बड़ा हो, आम तौर पर हमें उतना ही ज्यादा आलोचनात्मक होना चाहिए, कम नहीं
- Enron के बारे में भी ऐसा ही कहा गया था
  skepticism जरूरत से ज्यादा भी हो, तब भी बेहद उपयोगी tool है
- ईमानदारी से कहूं तो मुझे खुशी है कि healthcare क्षेत्र के लोग भी अब उस existential डर को महसूस करें कि कहीं AI उनकी नौकरी न ले जाए, जबकि वे cartel-समर्थित आरामदायक high-income jobs में थे, जैसा मैं महसूस करता हूं
60 साल की उम्र में मैंने खुद AI medical assistant tool [1] बनाया है और कई symptoms पर इसका व्यापक इस्तेमाल किया है, और मैं इससे बहुत संतुष्ट हूं
कुछ test results analyze करने के बाद इसने ऐसे indicators तक सुझाए जिन पर डॉक्टर ने शुरुआत में विचार नहीं किया था
यह डॉक्टर की जगह नहीं लेगा, लेकिन साधारण symptoms की self-diagnosis और second opinion के लिए यह बहुत उपयोगी tool है
[1] https://mediconsulta.net (DeepSeek)
मैं जानना चाहता हूं कि वह 33% क्या 50~45% का subset है
अगर subset नहीं है, तो उस error की गंभीरता कितनी थी? क्या मौतें ज्यादा हुईं? recovery time लंबा हुआ? उस अंतर का वास्तविक असर क्या था?
paper: https://www.science.org/doi/10.1126/science.adz4433 (30 अप्रैल 2026)
67% और 55% का अंतर कितना बड़ा है? क्या अध्ययन में डॉक्टरों और AI को वही मरीज दिए गए थे?
अगर यह side-by-side तुलना नहीं की गई कि दोनों ने हर स्थिति का आकलन कैसे किया और अलग निष्कर्ष पर क्यों पहुंचे, तो मुझे नहीं पता कि यह वैज्ञानिक रूप से कितना प्रभावी हो सकता है
बचे हुए 43% में डॉक्टर AI की छूटी हुई blind spots पकड़ नहीं सकते, इसकी गारंटी कौन दे सकता है
tools का उद्देश्य replacement नहीं, बल्कि प्रयासों को जोड़ना है
आम जनता के सामने ऐसे percentages उछालना काफी गैर-जिम्मेदाराना है

OpenAI o1 ने इमरजेंसी रूम के 67% मरीजों का सही निदान किया, जबकि triage डॉक्टर 50–55% पर रहे

Harvard इमरजेंसी triage प्रयोग के मुख्य नतीजे

76 इमरजेंसी मरीजों का diagnosis प्रयोग

long-term treatment planning प्रयोग

अध्ययन की सीमाएँ और मेडिकल क्षेत्र में भूमिका का बदलाव

clinical case और AI reasoning

स्वास्थ्य सेवा में AI का उपयोग पहले से फैल रहा है

बाहरी विशेषज्ञों की राय और सावधानियाँ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय