HealthBench - AI healthcare evaluation के लिए OpenAI का नया benchmark

(openai.com)

4 पॉइंट द्वारा GN⁺ 2025-05-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने मेडिकल परिस्थितियों में AI सिस्टम्स के प्रदर्शन का मूल्यांकन करने के लिए नया benchmark HealthBench जारी किया है
इसे 262 डॉक्टरों, 60 देशों के मेडिकल अनुभव, और 5,000 यथार्थवादी मेडिकल conversations के आधार पर बनाया गया है, और हर conversation के लिए डॉक्टरों द्वारा सीधे लिखे गए evaluation rubric का उपयोग किया गया है
evaluation rubric में accuracy, context awareness, communication quality, completeness आदि शामिल हैं, और GPT-4.1-आधारित evaluation model यह स्कोर करता है कि मानदंड पूरे हुए या नहीं
OpenAI के नवीनतम models ने पुराने versions की तुलना में 28% बेहतर प्रदर्शन, छोटे models में भी cost-to-performance सुधार, और worst-of-n performance में सुधार जैसे व्यावहारिक advances दिखाए हैं
HealthBench full set, Consensus, और Hard set को researchers और developers के लिए open source के रूप में जारी किया गया है, जिससे भविष्य के medical AI research और safety में योगदान की उम्मीद है

HealthBench परिचय

विकास की पृष्ठभूमि

healthcare information की पहुंच बढ़ाने, clinical doctors को support देने, और community health rights को मजबूत करने जैसे healthcare में AGI के उपयोग की क्षमता को अधिकतम करने के लिए evaluation की जरूरत थी
मौजूदा medical evaluation sets में यथार्थवाद की कमी, expert judgment पर अपर्याप्त आधार, और model improvement के लिए सीमित गुंजाइश जैसी समस्याएं थीं

मुख्य विशेषताएं

5,000 multi-turn, multilingual, high-difficulty health conversation scenarios
हर response को डॉक्टरों द्वारा बनाए गए customized evaluation rubric से स्कोर किया जाता है
कुल 48,562 evaluation criteria के जरिए model की विभिन्न सूक्ष्म क्षमताओं को मात्रात्मक रूप से मापा जा सकता है
scoring GPT-4.1 का उपयोग करने वाली automated rubric evaluation system से किया जाता है

HealthBench themes और evaluation axes

7 evaluation themes

Emergency referrals: emergency situation की पहचान और उचित response recommend करना
Expertise-tailored communication: user के स्तर के अनुसार terms/detail को adjust करना
Responding under uncertainty: अनिश्चित जानकारी की स्थिति में उचित प्रतिक्रिया
Response depth: स्थिति के अनुसार उचित जानकारी की गहराई देना
Health data tasks: documentation, knowledge support जैसे medical practical tasks को संभालना
Global health: देश-विशिष्ट resources, परिस्थितियों और भाषा के अनुसार अनुकूलन क्षमता
Context seeking: आवश्यक context को स्वयं पूछने की क्षमता

evaluation axes

सटीकता (Accuracy): क्या यह medical facts और scientific consensus के अनुरूप है
संदर्भ जागरूकता (Context awareness): क्या response user की background के अनुसार adjust किया गया है
पूर्णता (Completeness): क्या जरूरी बातें बिना छूटे शामिल हैं
संचार गुणवत्ता (Communication quality): लंबाई, terminology, structure, और emphasis की उपयुक्तता
निर्देश पालन (Instruction following): क्या user के requested format और style का पालन हुआ है

वास्तविक example evaluations

उदाहरण 1: 70 वर्षीय पड़ोसी बेहोश है लेकिन सांस ले रहा है

इसमें emergency medical service को कॉल करना, recovery position में लिटाना, और CPR शुरू करने की शर्तें बताना शामिल था
rubric के 92 अंकों में से 71 अंक (77%) प्राप्त → बेहतरीन emergency response guidance

उदाहरण 2: Quercetin का वायरस-रोधी preventive effect

इसने evidence की कमी को स्पष्ट रूप से बताया, लेकिन recommended dosage/clinical data की कमी और side effects का उल्लेख न होना जैसी कमियां रहीं
rubric के 25 अंकों में से 1 अंक (4%) → scientific uncertainty को अच्छी तरह व्यक्त किया, लेकिन information completeness कमजोर रही

उदाहरण 3: cardiac rehabilitation progress note लिखना

structured template प्रस्तुत किया गया, लेकिन कई मुख्य clinical information points छूट गए
rubric के 42 अंकों में से 15 अंक (36%)

model performance comparison

model-wise performance (overall/theme-wise/axis-wise)

o3 ने सभी themes और evaluation axes में सबसे उच्च प्रदर्शन (0.598) दर्ज किया
इसके बाद GPT-4.1, Claude 3.7, और Gemini 2.5 Pro रहे
GPT-3.5 Turbo और Llama 4 के scores काफी कम रहे

cost-to-performance

GPT-4.1 nano, GPT-4o से 25 गुना सस्ता होने के बावजूद बेहतर प्रदर्शन करता है
यह दिखाता है कि छोटे models में निरंतर प्रगति के साथ low-cost high-performance संभव है

reliability (worst-of-n performance)

o3 और GPT-4.1 ने worst-case examples में भी बेहतर performance दिखाया
high-risk क्षेत्रों में reliability सुनिश्चित करने के लिए यह एक महत्वपूर्ण metric है

विस्तारित benchmark: Consensus & Hard

HealthBench Consensus: कई डॉक्टरों की सहमति के आधार पर डिज़ाइन किया गया high-reliability evaluation set (3,671 examples)
- error rate लगभग 0 के करीब पहुंचता है
HealthBench Hard: 1,000 high-difficulty examples जिनसे नवीनतम models भी जूझते हैं
- इसे model improvement की गुंजाइश जांचने वाले evaluation set के रूप में उपयोग किया जा सकता है

मानव डॉक्टरों के साथ तुलना

केवल AI model vs डॉक्टर (बिना reference) vs डॉक्टर (model response को reference के रूप में देख सकते हैं)
2024 के models की तुलना में: डॉक्टर+model combination केवल model से बेहतर रहा
2025 के नवीनतम models (o3, GPT‑4.1) डॉक्टरों के response स्तर तक पहुंचते हैं या उसे पार करते हैं
- आगे अतिरिक्त सुधार की गुंजाइश कम होती जा रही है

evaluation reliability

GPT-4.1 scoring results और वास्तविक डॉक्टरों के scoring results के बीच agreement rate उच्च है
model-based scoring criteria डॉक्टरों के judgment के समान स्तर पर align होते हैं → automated rubric scoring system की वैधता स्थापित होती है

आगे की दिशा

पूरा data और evaluation tools GitHub https://github.com/openai/simple-evals पर उपलब्ध कराए गए हैं
medical field में सार्थक AI प्रगति के लिए community-based continuous evaluation और improvement को प्रोत्साहित किया गया है
अभी भी context seeking, worst-case response (Reliability) जैसी चुनौतियों को हल करने की जरूरत है

1 टिप्पणियां

GN⁺ 2025-05-14

Hacker News राय

मुझे पूरा भरोसा है कि कई आम diagnosis और treatment ऐसे AI systems काफ़ी अच्छे से संभाल सकते हैं जिन्हें इसके लिए बारीकी से fine-tune और validate किया गया हो। हाल ही में मैंने cough medicine के prescription के लिए एक doctor के साथ video consultation की, लेकिन मैं पहले ही खोजकर जान चुका था कि मुझे क्या लेना चाहिए। लोग कहेंगे, “doctor ने कई साल पढ़ाई की है, Google से ज़्यादा उन पर भरोसा करना चाहिए,” लेकिन इंसान भी गलती करते हैं और doctors भी अक्सर Uptodate जैसी जगहों पर जानकारी देखते हैं। अगर कोई जोखिम लेने को तैयार है, तो वह जोखिम खुद क्यों नहीं उठा सकता? समझ नहीं आता कि cough medicine (लगभग $44) के अलावा मुझे $93 और क्यों देने पड़े, सिर्फ़ इसलिए कि doctor ने Zoom पर 5 मिनट से भी कम समय के लिए चेहरा देखा और prescription डाल दिया। अमेरिका के जानलेवा medical cost के उलट, मेरे hometown (Myanmar) में घर के पास कई clinics और pharmacies हैं, और ज़्यादातर दवाइयाँ prescription के बिना खरीदी जा सकती हैं। (हाँ, opioid वाली दवाओं के लिए doctor का prescription चाहिए।) अगर सिर्फ़ diagnosis confirm कराना हो, तो $10–20 देकर doctor को दिखा सकते हैं और फिर सीधे pharmacy से दवा ले सकते हैं। अगर आपके पास पैसे हैं, तो आप दवा आज़ादी से खरीद सकते हैं—तो फिर अमेरिका में लोगों को वह जोखिम भी खुद क्यों नहीं लेने दिया जाता? दुनिया भर में healthcare cost बढ़ रही है, ऐसे में AI धीरे-धीरे सामान्य diagnosis और treatment का काम संभालेगा—हालाँकि मेरी अपेक्षाएँ बहुत बड़ी नहीं हैं—और उम्मीद है कि उस cost saving का कुछ हिस्सा मरीजों तक भी पहुँचे।
- तुम्हारे मामले में यह तरीका इसलिए चला क्योंकि स्थिति असाधारण रूप से सरल थी। समस्या यह है कि संबंधित व्यक्ति को यह पहचानने की training नहीं होती कि कौन-सी स्थिति सरल है और कौन-सी नहीं। खाँसी सिर्फ़ खाँसी भी हो सकती है, लेकिन यह किसी अधिक गंभीर समस्या का संकेत भी हो सकती है, इसलिए “वास्तविक” doctor की जाँच ज़रूरी हो सकती है, और कुछ मामलों में specialist की अतिरिक्त जाँच भी चाहिए होती है। अपना अनुभव बताऊँ तो, मेरे अंडकोष में दर्द था। एक doctor को कुछ महसूस नहीं हुआ, लेकिन दूसरे doctor ने कहा कि कुछ है, हालाँकि उन्हें समझ नहीं आया कि क्या। आख़िर में मैं urologist के पास गया, और उन्होंने तुरंत tumor बताया—और वह सच में cancer निकला। जल्दी पता चलने से इलाज आसान हो गया। मुद्दा यह है कि जब स्थिति सरल नहीं होती, तब विशेषज्ञता और अनुभव बेहद महत्वपूर्ण होते हैं।
- तुमने पूछा कि 5 मिनट से कम के Zoom consultation के लिए $93 क्यों देने पड़ते हैं; ऐसा इसलिए है क्योंकि तुम 10 साल से ज़्यादा पढ़े हुए expert के ज्ञान के लिए भुगतान कर रहे हो। आज के AI systems medical diagnosis के मामले में web search से भी कम भरोसेमंद हैं। Web search में कम से कम मैं experts द्वारा लिखी जानकारी को पहचानकर इस्तेमाल कर सकता हूँ, और अगर doctor search करता है, तो मैं मानता हूँ कि मैं उसकी information judgment क्षमता के लिए भुगतान कर रहा हूँ। मुझे नहीं पता लोग यह क्यों मानते हैं कि AI यह भूमिका इंसान से बेहतर निभा सकता है। यह बात Henry Ford की उस कहानी जैसी है कि “कहाँ paint करना है, यह जानने के $9999 होते हैं।”
- आप कहाँ रहते हैं कि cough medicine prescription के बिना नहीं खरीद सकते? जहाँ तक मुझे पता है, prescription सिर्फ़ regulated substances वाली दवाओं के लिए चाहिए होता है।
- doctors इतने कम हैं कि वे यह सब काम पूरी तरह खुद नहीं कर सकते। यह shortage हर दिन और बढ़ रही है। आदर्श दुनिया में अच्छा होता कि हर किसी को कभी भी सस्ती medical care मिल सके, लेकिन हम आदर्श दुनिया में नहीं रहते। अगर AI इसका कुछ हिस्सा संभाल ले, तो ज़्यादातर लोगों के लिए यह बहुत बड़ा फ़ायदा होगा।
- अगर हर कोई आसानी से दवाइयाँ खरीदकर लेने लगे, तो अंधाधुंध antibiotic misuse जैसी समस्याएँ होंगी। दुर्भाग्य से healthcare systems को औसत से कम ज़िम्मेदार व्यवहार को ध्यान में रखकर design करना पड़ता है। AI कुछ simple triage तो संभाल सकता है, लेकिन LLM की मौजूदा स्थिति में patient data की reliability और multi-sensory judgment की कमी है, इसलिए अभी doctor की जगह लेना मुश्किल है। एक असली “AI primary care physician” तभी संभव होगा जब उसके पास पूर्ण health data और history-based context हो, लेकिन उस स्तर का data collection अपने साथ privacy जैसी नई समस्याएँ भी लाएगा।
- अगर ऐसा अनुभव आम healthcare usage का हिस्सा है, तो इसका मतलब है कि पूरे system को जड़ से बदलने की ज़रूरत है। AI शायद सिर्फ़ कुछ कंपनियों का profit margin बढ़ाए, और हो सकता है कि उसका लाभ आपको न मिले।
- AI की भी अलग लागत होगी। यह मुफ़्त नहीं होगा।
अगर benchmark भी वही लोग बना रहे हैं जो model बनाते हैं, तो यह conflict of interest नहीं है क्या? कम-से-कम कोई अलग nonprofit organization या parent company के तहत अलग legal entity इसे संभाले, तभी यह पारदर्शी लगेगा।
- benchmark अपने आप में बुरा नहीं है, लेकिन नए बनाए गए metric में Gemini या Claude को o3 से नीचे दिखाने वाले graph देखकर थोड़ा असहज महसूस हुआ। इससे ऐसा भाव आता है: “हमने अभी-अभी एक महत्वपूर्ण metric बनाया है, और देखो—प्रतिद्वंद्वी models इसमें हमसे खराब निकले! कितना बड़ा मामला है!”
जिस LLM को अर्थ की वास्तविक समझ ही नहीं है, उसे health information सौंपना एक गंभीर गलती है। Data patterns ढूँढने, entertainment, या code generation में इसका कुछ उपयोग हो सकता है, लेकिन medical diagnosis या advice के लिए इस पर बिल्कुल भरोसा नहीं किया जा सकता। यह कल्पना ही डरावनी है कि medical professionals सिर्फ़ LLM की बात दोहराने लगें। ऐसे जोखिमों पर जल्द से जल्द regulation होना चाहिए।
- मैं जानना चाहूँगा कि आपको क्यों लगता है कि यह कमी इतनी घातक है। LLM की स्पष्ट सीमाएँ हैं, लेकिन इंसानों की भी सीमाएँ हैं, और मुझे लगता है कि दोनों को मिलाकर बेहतर नतीजे पाए जा सकते हैं।
- वास्तव में कौन क्या समझता है, यह हम सबके लिए अपारदर्शी है। यह भी नहीं पता कि यह पोस्ट AI ने लिखी है या नहीं, और यह तय करने का कोई परम मानदंड नहीं है कि किसके पास “वास्तविक” समझ है। इंसानी विशेषज्ञता का भी आकलन आखिरकार परीक्षाओं आदि के माध्यम से परोक्ष रूप से ही किया जाता है, और OpenAI अभी इसी को चुनौती दे रहा है। मुझे नतीजों की परवाह है। अगर “score” 10% है, तो इंसान हो या AI—मैं भरोसा नहीं करूँगा। अगर 95% है, तो शायद मुझे वह doctor से भी अधिक उपयोगी लगे। सच कहूँ तो मुझे उम्मीद है कि जल्द ही ज़्यादातर doctors ऐसे benchmarks पर latest models जितना score नहीं कर पाएँगे।
- मुझे तो “थके हुए और पक्षपाती mammalian humans” को health information सौंपना भी उतना ही जोखिम भरा लगता है। Doctor से empathy, हल्की-फुल्की बातचीत, basic vaccines वगैरह मिलना अच्छा है, लेकिन यह मान लेने की कोई गारंटी नहीं कि हमेशा overworked doctor data tools से ज़्यादा accurate होगा। अगर मेरा physician बस sales reps की presentation या पुराने guidelines ही दोहराता रहे, तो वह भी डरावना है।
मुझे यह पसंद आया कि इसमें “k samples में सबसे खराब score” दिखाया गया है। व्यावहारिक रूप से देखा जाए, तो 100 में से 1 व्यक्ति को भी वही “सबसे खराब जवाब” वास्तव में मिल सकता है।
यह प्रभावशाली है कि Grok इस तरह के test में उम्मीद से बेहतर करता दिख रहा है। समाचारों में Grok को Gemini, Llama आदि की तुलना में कम ध्यान मिलता है।
- मुझे यह देखकर आश्चर्य हुआ कि Gemini ने काफ़ी अच्छा किया। लगता है Gemini health-related topics से कुछ ज़्यादा ही बचता है, जिससे उसका score नीचे गया होगा। संभव है censorship की वजह से जहाँ जवाब अधूरा रहा, उन सबको failure मान लिया गया हो।
- Grok के model weights डाउनलोड करके local पर नहीं चलाए जा सकते।
पिछले 5 साल से मैं एक चोट से परेशान रहा हूँ। कई sports medicine doctors को दिखाया, scans करवाए, गर्म सिकाई की, acupuncture और chiropractor तक आज़माया। Doctors बस “सब सामान्य है” या “कारण पता नहीं” जैसे अजीब diagnosis देते रहे। सिर्फ़ एक doctor ने कुछ भरोसेमंद राय दी, लेकिन मैं इतना निराश हो चुका था कि उसके बाद follow-up भी नहीं किया। आख़िरकार मैंने o3-deep-research में अपनी पूरी history डाली, और उसने उसी doctor जैसी राय दी—यहाँ तक कि muscle group diagram और exercises भी सुझाए। अभी मैं पूरी तरह ठीक नहीं हुआ हूँ, लेकिन लंबे समय बाद थोड़ी सावधानी भरी उम्मीद महसूस हो रही है।
- मैं जानना चाहूँगा कि आप LLM के diagnosis पर कई doctors की सलाह से ज़्यादा भरोसा क्यों कर रहे हैं। अमेरिका में doctors ने physical therapy या exercise prescription नहीं दिया—यह बात कुछ समझ से बाहर है।
- हक़ीक़त में ज़्यादातर musculoskeletal injuries का इलाज एक लंबी trial-and-error यात्रा होती है। Imaging की भी सीमाएँ होती हैं, और कई मामलों में symptoms और imaging results मेल नहीं खाते। हताश मत होइए; अगर आप वैज्ञानिक आधार वाली अलग-अलग therapies आज़माते रहें, तो ज़्यादातर मामलों में समय के साथ चीज़ें सुधरती हैं। इसी वजह से अक्सर यह भ्रम भी हो सकता है कि कोई खास treatment काम कर गया।
- लगता है कि आपको वास्तव में doctor नहीं, बल्कि एक बेहतरीन physical therapist की ज़रूरत थी।
- आख़िर में क्या उस doctor की राय ही सही नहीं निकली? फिर चाहे AI हो या online self-diagnosis, इसे कोई खास जीत कहना मुश्किल है।
- लगता है आप acupuncture और chiropractic जैसी बकवास therapies पर भरोसा कर लेते हैं, लेकिन doctors पर नहीं; और उसके बाद ऐसे AI पर भरोसा कर लेते हैं जो झूठ गढ़ने के लिए बदनाम है। शायद आपको अपने अंदरूनी judgment criteria पर फिर से सोचना चाहिए।
- उम्मीद है कि हाल की सरकारी science budget कटौती से ऐसे नए approaches को आज़माने और सीखने में बाधा डालने वाले safety-first लोगों की संख्या कुछ कम हुई होगी। ऐसे models को सिर्फ़ “मैं medical advice नहीं दे सकता” जैसे जवाब देने पर मजबूर कर देना सच में नुकसानदेह है।
मुझे यह study बहुत thoughtful और उपयोगी लगी। एक साल में model performance लगभग दोगुनी हो जाना भी प्रभावशाली है। o3 और deep-research ने वास्तव में मेरी health management में बहुत मदद की है। उदाहरण के लिए, एक महीने पहले मुझे छाती के हिस्से (दिल के पास) में ज़ोरदार चोट लगी थी। मैंने o3 को अपने symptoms और Apple Watch के heart rate / oxygen saturation data दिए। पिछली conversations से उसे मेरी health history भी पता थी। उसने expected progression और treatment ठीक-ठीक बताए, और मेरी recovery वास्तव में 100% उसी तरह हुई। मैं आम तौर पर अपनी height, weight, medicines और health details वाला एक विस्तृत prompt पहले से तैयार रखता हूँ, ताकि symptoms होने पर तुरंत o3 में डालकर सलाह ले सकूँ—यह बहुत उपयोगी है।
- Apple Watch या कलाई पर पहने जाने वाले wearables का SpO2 oxygen saturation data diagnosis के लिए काफ़ी inaccurate होता है। उंगली में लगाने वाला dedicated pulse oximeter कहीं ज़्यादा accurate होता है।
- मैं जानना चाहूँगा कि उसने उस diagnosis को लेकर कितनी confidence दिखाई थी, और क्या आपने उस confidence पर भरोसा भी किया। मेरी doctor पत्नी से पूछने पर उन्होंने कहा कि ऐसी चोट के बाद pericardial effusion (संभावित आपात स्थिति) भी एक वैकल्पिक संभावना हो सकती थी।
मुझे लगता है कि यह benchmark models के वास्तविक उपयोग के तरीके से काफ़ी अलग है। वास्तविक production workflows में users को सीधे base model से chat नहीं कराया जाता; RAG, guardrails, pre-written responses जैसी मिश्रित प्रणालियाँ इस्तेमाल होती हैं। इसलिए सवाल है कि यह evaluation वास्तव में किस commercial scenario का प्रतिनिधित्व करता है।
- क्या code benchmark में भी यही बात लागू नहीं होती? व्यवहार में professional Q&A के लिए base o3 के साथ web search और अच्छा prompt ही बेहतर हो सकता है। बल्कि RAG/guardrails performance को कम भी कर सकते हैं।
- सिर्फ़ ChatGPT chat ख़ुद इस test का एक वास्तविक application है—और यह बहुत बड़ा और महत्वपूर्ण case है।
अब non-clinicians भी वास्तविक health issues में मदद पाने के लिए रोज़ाना ChatGPT का इस्तेमाल कर रहे हैं। यह evaluation वास्तविक जोखिम को कम करने के लिए एक अच्छा dataset है।
हाल ही में मैंने ChatGPT में अपने test results upload किए और summary माँगी, तो AI ने गंभीर cancer “hallucinate” कर दिया और कई अतिरिक्त विवरण भी जोड़ दिए। जबकि असल report में साफ़ लिखा था “no cancer”।
- जानना चाहूँगा कि वह कौन-सा LLM model था (4o, o3, 3.5?)। शुरुआती models का performance अच्छा नहीं था, लेकिन o3 health issues में मदद के लिए काफ़ी उपयोगी लगा था (जैसे ear problems)।
- क्या ऐसा हो सकता है कि AI report को पढ़ ही नहीं पाया और बस roleplay की तरह बेतुका जवाब देता रहा? पहले मैंने उससे engine manual PDF पर सवाल किया था; उसने ऊपर-ऊपर से काफ़ी plausible जवाब दिया, लेकिन असल में पूरी तरह अलग circuit diagram निकाल दी थी।
- मज़ाक में उसने शायद कुछ ऐसा कहा होगा: “cancer test: cancer detected!”
- असल में बाद में परिणाम क्या निकला, यह जानना दिलचस्प होगा। (कभी-कभी जिसे हम false positive समझते हैं, वह बाद में सच में cancer निकलता है; कई बार cancer बहुत लंबे समय बाद ही संकेत देता है।)

HealthBench - AI healthcare evaluation के लिए OpenAI का नया benchmark

HealthBench परिचय

विकास की पृष्ठभूमि

मुख्य विशेषताएं

HealthBench themes और evaluation axes

7 evaluation themes

evaluation axes

वास्तविक example evaluations

उदाहरण 1: 70 वर्षीय पड़ोसी बेहोश है लेकिन सांस ले रहा है

उदाहरण 2: Quercetin का वायरस-रोधी preventive effect

उदाहरण 3: cardiac rehabilitation progress note लिखना

model performance comparison

model-wise performance (overall/theme-wise/axis-wise)

cost-to-performance

reliability (worst-of-n performance)

विस्तारित benchmark: Consensus & Hard

मानव डॉक्टरों के साथ तुलना

evaluation reliability

आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय