"फ्रंटियर AI ने मेडिकल स्पेशलिस्ट टूल्स को हरा दिया" वाले शोधपत्र की दोबारा जांच में — मूल्यांकनकर्ताओं के बीच सहमति सिर्फ 0.10, और जज ही थे प्रतिभागी

flamehaven01 · 2026-07-02T14:58:33+09:00

संक्षिप्त सारांश Nature Medicine में 12 जून 2026 को प्रकाशित शोधपत्र "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks" में कहा गया कि GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 जैसे सामान्य-उद्देश्य वाले फ्रंटियर मॉडल OpenEvidence, UpToDate AI जैसे मेडिकल-विशेष AI टूल्स से बेहतर हैं OpenEvidence और UpToDate AI ऐसे clinical decision support टूल्स हैं जिन्हें डॉक्टर इलाज के दौरान रियल-टाइम में साक्ष्य खोजने के लिए इस्तेमाल करते हैं, और ये पहले से अस्पतालों में उपयोग हो रहे उत्पाद हैं शोधपत्र के प्रकाशित होते ही यह तेजी से फैला, और बाद में हितों के टकराव को लेकर सवाल उठे कि लेखक स्वयं एक प्रतिस्पर्धी medical AI चलाते हैं और उन्होंने पहले OpenEvidence से API access मांगा था, जिसे अस्वीकार कर दिया गया था लेखक ने स्वयं पद्धति की दोबारा जांच की और पाया कि रैंकिंग को ही समर्थन देना मुश्किल बना देने वाली कई सांख्यिकीय खामियां मौजूद हैं शोधपत्र की संरचना और सतही निष्कर्ष मूल्यांकन तीन चरणों में किया गया MedQA के 500 प्रश्नों से मेडिकल ज्ञान का मूल्यांकन HealthBench के 500 प्रश्नों से clinical alignment का मूल्यांकन 100 वास्तविक clinical queries (RCQ) पर 12 अमेरिकी clinicians ने कुल 1,800 मूल्यांकन किए निष्कर्ष यह था कि फ्रंटियर मॉडल तीनों मूल्यांकनों में विशेषज्ञ clinical टूल्स से आगे रहे, और मॉडल का आकार तथा alignment का तरीका domain-specific tuning से अधिक महत्वपूर्ण कारक हो सकते हैं मूल्यांकन की विश्वसनीयता की समस्या RCQ में मूल्यांकनकर्ताओं के बीच सहमति दिखाने वाला Krippendorff's alpha 0.10~0.20 निकला इस मेट्रिक में 0 का अर्थ है केवल संयोगवश मेल, जबकि 1 का अर्थ पूर्ण सहमति है, और रैंकिंग के लिए इसका उपयोग करने हेतु सामान्यतः कम-से-कम 0.67 अपेक्षित माना जाता है शोधपत्र का मुख्य ग्राफ, Figure 2c, जो मॉडलों के बीच श्रेष्ठता दिखाता है, इसी तरह कम-सहमति वाले स्कोरों के औसत पर आधारित है जज ही थे मूल्यांकन के प्रतिभागी HealthBench मूल्यांकन में एक LLM दूसरे LLM के उत्तरों को अंक देता है, लेकिन जज पैनल में केवल वही तीन मॉडल थे जिनका मूल्यांकन किया जा रहा था: GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 clinical-विशेष टूल्स को जज पैनल से बाहर रखा गया HealthBench, OpenAI द्वारा बनाया गया benchmark है, और उसी benchmark पर OpenAI का GPT-5.2 भी मूल्यांकित हुआ self-preference bias, यानी अपने या अपने जैसे मॉडल को बेहतर अंक देने की प्रवृत्ति, पहले से ज्ञात है, और इस संरचना में उस पक्षपात को हटाने की कोई व्यवस्था नहीं है ऐसी समस्या जैसे परीक्षा-पत्र पहले ही देख लिया गया हो MedQA और HealthBench लंबे समय से इंटरनेट पर सार्वजनिक रूप से उपलब्ध डेटा हैं चूंकि फ्रंटियर मॉडल विशाल इंटरनेट टेक्स्ट पर प्रशिक्षित होते हैं, संभव है कि प्रशिक्षण के दौरान वे इन प्रश्नों और उत्तरों को पहले ही देख चुके हों शोधपत्र इस संभावना को स्वीकार करता है, लेकिन यह नहीं मापता कि परिणामों पर इसका वास्तविक प्रभाव कितना था सांख्यिकीय प्रसंस्करण की समस्या एक ही प्रश्न पर कई मॉडलों और कई मूल्यांकनकर्ताओं द्वारा दिए गए 1,704 observations को आपस में स्वतंत्र मान लिया गया एक ही प्रश्न से निकले स्कोर उस प्रश्न की कठिनाई के कारण परस्पर जुड़े होते हैं; इसे अनदेखा करने पर pseudoreplication होती है, जिससे परिणाम वास्तविकता से अधिक सांख्यिकीय रूप से निश्चित दिखाई देते हैं अलग से, UpToDate की 19% refusal rate और Google AI Overview की 6% refusal rate की तुलना के लिए Fisher's exact test का परिणाम शोधपत्र में P=0.10 दिया गया है लेकिन मूल डेटा 19/100 बनाम 6/100 से सीधे गणना करने पर p-value लगभग 0.009 आती है। शोधपत्र द्वारा बताए गए significance level 0.05 के आधार पर यह एक महत्वपूर्ण अंतर है, और यदि adjustment method सार्वजनिक नहीं है तो इस अंतर की व्याख्या जरूरी है मूल्यांकन की शर्तें ही अलग थीं फ्रंटियर मॉडलों का मूल्यांकन temperature 0 वाली deterministic API पद्धति से किया गया clinical टूल्स का मूल्यांकन browser interface के जरिए किया गया। हर बार अलग परिणाम आ सकता है और internal prompts भी सार्वजनिक नहीं हैं जिन उत्तरों को अस्वीकार किया गया उन्हें कुल गणना से बाहर रखा गया। UpToDate ने 19% मामलों में उत्तर देने से इनकार किया, इसलिए अपेक्षाकृत आसान प्रश्नों के ही स्कोर बचे, जबकि फ्रंटियर मॉडलों ने केवल 1~3% अस्वीकार किए, इसलिए पूरे प्रश्न-वितरण के स्कोर जस के तस बने रहे दूसरे benchmark इस्तेमाल करने पर नतीजे बदल जाते हैं एक अलग medRxiv अध्ययन ने वही triage benchmark OpenEvidence पर लागू किया, जिसमें ChatGPT Health द्वारा वास्तविक आपात स्थितियों के 51.6% मामलों में undertriage दिखाया गया था OpenEvidence की undertriage दर 12.5% थी, जो ChatGPT Health की लगभग एक-चौथाई थी यानी एक ही टूल का परिणाम भी इस पर बहुत बदल सकता है कि उसे किस benchmark से मापा गया। benchmark का चुनाव ही निष्कर्ष तय करने वाला चर बन जाता है यह शोधपत्र अभी क्यों महत्वपूर्ण है OpenEvidence पहले से ऐसा टूल है जिसे अमेरिका में हजारों डॉक्टर रोज़ इलाज के दौरान इस्तेमाल करते हैं। यह तुलना केवल शैक्षणिक प्रश्न नहीं, बल्कि यह तय करने वाला प्रश्न है कि आज अस्पताल कौन-सा टूल अपनाएंगे 2026 वह समय है जब अस्पताल और बीमा कंपनियां medical AI procurement contracts वास्तव में साइन कर रही हैं। एक benchmark paper सीधे इस बात का आधार बन सकता है कि कोई टूल खरीदा जाएगा या नहीं Nature Medicine में छपा शोधपत्र प्रकाशित होते ही अधिकारपूर्ण मान लिया जाता है और तेजी से फैलता है। संरचनात्मक खामियों को पहचानने वाली पुनर्समीक्षा कुछ दिन बाद आई, लेकिन तब तक clinicians उसी दिन अपनी training सामग्री बदल चुके थे एक बार procurement decision या clinical guideline में कुछ शामिल हो जाए, तो बाद में खामी सामने आने पर भी contract और practice को पलटना समय और लागत दोनों मांगता है medical AI benchmarks लगातार आ रहे हैं, लेकिन उनकी स्वतंत्र पुनर्पुष्टि के लिए आवश्यक infrastructure और manpower उस गति का साथ नहीं दे पा रहे। यह केवल इस एक शोधपत्र की समस्या नहीं, बल्कि बार-बार दोहराई जाने वाली संरचनात्मक समस्या है निष्कर्ष यह लेख यह दावा नहीं करता कि शोधपत्र की दिशा पूरी तरह गलत है लेकिन जजों द्वारा खुद को अंक देना, मूल्यांकनकर्ताओं के बीच बहुत कम सहमति, training data contamination की संभावना, और सांख्यिकीय प्रसंस्करण की त्रुटियां — ये सब एक साथ मौजूद हैं। इतनी खामियों से भरे परिणामों पर procurement contracts और clinical guidelines निर्भर नहीं होने चाहिए शोधपत्र ने निष्कर्ष में बहुत आत्मविश्वास दिखाया, लेकिन डेटा उस आत्मविश्वास को सहारा नहीं देता। समस्या लेखक की मंशा नहीं, बल्कि वह संरचना है जिसमें सत्यापन से पहले ही आत्मविश्वास बाजार में फैल जाता है जब medical AI अभी अस्पतालों में प्रवेश कर रहा है, तब केवल benchmark paper नहीं, बल्कि उस paper की जांच करने वाली स्वतंत्र audit व्यवस्था पहले तैयार होनी चाहिए। जब तक दावों की रफ्तार सत्यापन से तेज रहेगी, अगली बार भी वही दोहराया जाएगा

(flamehaven.space)

1 पॉइंट द्वारा flamehaven01 4 시간 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

संक्षिप्त सारांश

Nature Medicine में 12 जून 2026 को प्रकाशित शोधपत्र "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks" में कहा गया कि GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 जैसे सामान्य-उद्देश्य वाले फ्रंटियर मॉडल OpenEvidence, UpToDate AI जैसे मेडिकल-विशेष AI टूल्स से बेहतर हैं
OpenEvidence और UpToDate AI ऐसे clinical decision support टूल्स हैं जिन्हें डॉक्टर इलाज के दौरान रियल-टाइम में साक्ष्य खोजने के लिए इस्तेमाल करते हैं, और ये पहले से अस्पतालों में उपयोग हो रहे उत्पाद हैं
शोधपत्र के प्रकाशित होते ही यह तेजी से फैला, और बाद में हितों के टकराव को लेकर सवाल उठे कि लेखक स्वयं एक प्रतिस्पर्धी medical AI चलाते हैं और उन्होंने पहले OpenEvidence से API access मांगा था, जिसे अस्वीकार कर दिया गया था
लेखक ने स्वयं पद्धति की दोबारा जांच की और पाया कि रैंकिंग को ही समर्थन देना मुश्किल बना देने वाली कई सांख्यिकीय खामियां मौजूद हैं

शोधपत्र की संरचना और सतही निष्कर्ष

मूल्यांकन तीन चरणों में किया गया
- MedQA के 500 प्रश्नों से मेडिकल ज्ञान का मूल्यांकन
- HealthBench के 500 प्रश्नों से clinical alignment का मूल्यांकन
- 100 वास्तविक clinical queries (RCQ) पर 12 अमेरिकी clinicians ने कुल 1,800 मूल्यांकन किए
निष्कर्ष यह था कि फ्रंटियर मॉडल तीनों मूल्यांकनों में विशेषज्ञ clinical टूल्स से आगे रहे, और मॉडल का आकार तथा alignment का तरीका domain-specific tuning से अधिक महत्वपूर्ण कारक हो सकते हैं

मूल्यांकन की विश्वसनीयता की समस्या

RCQ में मूल्यांकनकर्ताओं के बीच सहमति दिखाने वाला Krippendorff's alpha 0.10~0.20 निकला
इस मेट्रिक में 0 का अर्थ है केवल संयोगवश मेल, जबकि 1 का अर्थ पूर्ण सहमति है, और रैंकिंग के लिए इसका उपयोग करने हेतु सामान्यतः कम-से-कम 0.67 अपेक्षित माना जाता है
शोधपत्र का मुख्य ग्राफ, Figure 2c, जो मॉडलों के बीच श्रेष्ठता दिखाता है, इसी तरह कम-सहमति वाले स्कोरों के औसत पर आधारित है

जज ही थे मूल्यांकन के प्रतिभागी

HealthBench मूल्यांकन में एक LLM दूसरे LLM के उत्तरों को अंक देता है, लेकिन जज पैनल में केवल वही तीन मॉडल थे जिनका मूल्यांकन किया जा रहा था: GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6
clinical-विशेष टूल्स को जज पैनल से बाहर रखा गया
HealthBench, OpenAI द्वारा बनाया गया benchmark है, और उसी benchmark पर OpenAI का GPT-5.2 भी मूल्यांकित हुआ
self-preference bias, यानी अपने या अपने जैसे मॉडल को बेहतर अंक देने की प्रवृत्ति, पहले से ज्ञात है, और इस संरचना में उस पक्षपात को हटाने की कोई व्यवस्था नहीं है

ऐसी समस्या जैसे परीक्षा-पत्र पहले ही देख लिया गया हो

MedQA और HealthBench लंबे समय से इंटरनेट पर सार्वजनिक रूप से उपलब्ध डेटा हैं
चूंकि फ्रंटियर मॉडल विशाल इंटरनेट टेक्स्ट पर प्रशिक्षित होते हैं, संभव है कि प्रशिक्षण के दौरान वे इन प्रश्नों और उत्तरों को पहले ही देख चुके हों
शोधपत्र इस संभावना को स्वीकार करता है, लेकिन यह नहीं मापता कि परिणामों पर इसका वास्तविक प्रभाव कितना था

सांख्यिकीय प्रसंस्करण की समस्या

एक ही प्रश्न पर कई मॉडलों और कई मूल्यांकनकर्ताओं द्वारा दिए गए 1,704 observations को आपस में स्वतंत्र मान लिया गया
एक ही प्रश्न से निकले स्कोर उस प्रश्न की कठिनाई के कारण परस्पर जुड़े होते हैं; इसे अनदेखा करने पर pseudoreplication होती है, जिससे परिणाम वास्तविकता से अधिक सांख्यिकीय रूप से निश्चित दिखाई देते हैं
अलग से, UpToDate की 19% refusal rate और Google AI Overview की 6% refusal rate की तुलना के लिए Fisher's exact test का परिणाम शोधपत्र में P=0.10 दिया गया है
लेकिन मूल डेटा 19/100 बनाम 6/100 से सीधे गणना करने पर p-value लगभग 0.009 आती है। शोधपत्र द्वारा बताए गए significance level 0.05 के आधार पर यह एक महत्वपूर्ण अंतर है, और यदि adjustment method सार्वजनिक नहीं है तो इस अंतर की व्याख्या जरूरी है

मूल्यांकन की शर्तें ही अलग थीं

फ्रंटियर मॉडलों का मूल्यांकन temperature 0 वाली deterministic API पद्धति से किया गया
clinical टूल्स का मूल्यांकन browser interface के जरिए किया गया। हर बार अलग परिणाम आ सकता है और internal prompts भी सार्वजनिक नहीं हैं
जिन उत्तरों को अस्वीकार किया गया उन्हें कुल गणना से बाहर रखा गया। UpToDate ने 19% मामलों में उत्तर देने से इनकार किया, इसलिए अपेक्षाकृत आसान प्रश्नों के ही स्कोर बचे, जबकि फ्रंटियर मॉडलों ने केवल 1~3% अस्वीकार किए, इसलिए पूरे प्रश्न-वितरण के स्कोर जस के तस बने रहे

दूसरे benchmark इस्तेमाल करने पर नतीजे बदल जाते हैं

एक अलग medRxiv अध्ययन ने वही triage benchmark OpenEvidence पर लागू किया, जिसमें ChatGPT Health द्वारा वास्तविक आपात स्थितियों के 51.6% मामलों में undertriage दिखाया गया था
OpenEvidence की undertriage दर 12.5% थी, जो ChatGPT Health की लगभग एक-चौथाई थी
यानी एक ही टूल का परिणाम भी इस पर बहुत बदल सकता है कि उसे किस benchmark से मापा गया। benchmark का चुनाव ही निष्कर्ष तय करने वाला चर बन जाता है

यह शोधपत्र अभी क्यों महत्वपूर्ण है

OpenEvidence पहले से ऐसा टूल है जिसे अमेरिका में हजारों डॉक्टर रोज़ इलाज के दौरान इस्तेमाल करते हैं। यह तुलना केवल शैक्षणिक प्रश्न नहीं, बल्कि यह तय करने वाला प्रश्न है कि आज अस्पताल कौन-सा टूल अपनाएंगे
2026 वह समय है जब अस्पताल और बीमा कंपनियां medical AI procurement contracts वास्तव में साइन कर रही हैं। एक benchmark paper सीधे इस बात का आधार बन सकता है कि कोई टूल खरीदा जाएगा या नहीं
Nature Medicine में छपा शोधपत्र प्रकाशित होते ही अधिकारपूर्ण मान लिया जाता है और तेजी से फैलता है। संरचनात्मक खामियों को पहचानने वाली पुनर्समीक्षा कुछ दिन बाद आई, लेकिन तब तक clinicians उसी दिन अपनी training सामग्री बदल चुके थे
एक बार procurement decision या clinical guideline में कुछ शामिल हो जाए, तो बाद में खामी सामने आने पर भी contract और practice को पलटना समय और लागत दोनों मांगता है
medical AI benchmarks लगातार आ रहे हैं, लेकिन उनकी स्वतंत्र पुनर्पुष्टि के लिए आवश्यक infrastructure और manpower उस गति का साथ नहीं दे पा रहे। यह केवल इस एक शोधपत्र की समस्या नहीं, बल्कि बार-बार दोहराई जाने वाली संरचनात्मक समस्या है

निष्कर्ष

यह लेख यह दावा नहीं करता कि शोधपत्र की दिशा पूरी तरह गलत है
लेकिन जजों द्वारा खुद को अंक देना, मूल्यांकनकर्ताओं के बीच बहुत कम सहमति, training data contamination की संभावना, और सांख्यिकीय प्रसंस्करण की त्रुटियां — ये सब एक साथ मौजूद हैं। इतनी खामियों से भरे परिणामों पर procurement contracts और clinical guidelines निर्भर नहीं होने चाहिए
शोधपत्र ने निष्कर्ष में बहुत आत्मविश्वास दिखाया, लेकिन डेटा उस आत्मविश्वास को सहारा नहीं देता। समस्या लेखक की मंशा नहीं, बल्कि वह संरचना है जिसमें सत्यापन से पहले ही आत्मविश्वास बाजार में फैल जाता है
जब medical AI अभी अस्पतालों में प्रवेश कर रहा है, तब केवल benchmark paper नहीं, बल्कि उस paper की जांच करने वाली स्वतंत्र audit व्यवस्था पहले तैयार होनी चाहिए। जब तक दावों की रफ्तार सत्यापन से तेज रहेगी, अगली बार भी वही दोहराया जाएगा