2 पॉइंट द्वारा GN⁺ 10 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • दाएं कंधे के दर्द के MRI के बाद अस्पताल की Grade III partial-thickness tear डायग्नोसिस और तेज़ treatment plan पर सवाल उठे, इसलिए Opus 4.8 से इमेज reading दोबारा आज़माई
  • अस्पताल ने subscapularis tendon के “apical insertion” हिस्से में 50% से ज़्यादा चौड़ाई वाला partial-thickness tear देखा, लेकिन Opus 4.8 ने tendon को intact माना, इसलिए दोनों निष्कर्ष काफ़ी अलग निकले
  • GPT 5.5 Pro ने अस्पताल के treatment में shockwave therapy और Traumeel injection के evidence पर सवाल उठाया, जिससे diagnosis को खुद verify करने की प्रेरणा और बढ़ी
  • Opus 4.8 ने Claude Code environment में करीब 266MB DICOM MRI files के सैकड़ों files को package install और code execution के ज़रिए analyze किया, और बाद में human report व ChatGPT बातचीत जोड़कर mediation analysis फिर से किया
  • अंतिम mediation result “mild insertional tendinosis, कोई स्पष्ट partial-thickness या full-thickness tear नहीं” के क़रीब था, लेकिन medical expert और AI में किस पर भरोसा किया जाए, इसको लेकर अनिश्चितता बनी रही

तेज़ी से हुआ MRI diagnosis और treatment

  • कुछ हफ़्तों से दाएं कंधे में दर्द था, और symptoms बेहतर होते लग रहे थे, लेकिन orthopaedic doctor की राय ली
  • डॉक्टर ने MRI की सलाह दी, और clinic में तुरंत scan हो सकता था, इसलिए test कराया
  • MRI result से subscapularis tendon के “apical insertion” हिस्से में Grade III (>50%-width) partial-thickness tear की diagnosis निकली
  • अस्पताल ने MRI के तुरंत बाद कुछ ही मिनटों में treatment शुरू कर दिया, और वही treatment कुल 3 बार repeat करने का plan भी बनाया
  • लगा कि treatment बहुत ज़्यादा तेज़ी से आगे बढ़ रहा है, इसलिए अस्पताल से निकलते समय MRI result की copy और किए गए/प्रस्तावित treatments की list मांगी

GPT 5.5 Pro ने treatment evidence की समस्या बताई

  • MRI result और treatment list GPT 5.5 Pro को देने पर दो बातें तुरंत सामने आईं
    • अस्पताल ने कंधे पर shockwave therapy की थी, लेकिन हाल की clinical practice guidelines कहती हैं कि बिना calcification वाली rotator cuff tendinopathy में shockwave therapy इस्तेमाल न करें या recommend न करें
    • ultrasound के दौरान बताया गया था कि calcification नहीं है
    • अस्पताल ने Traumeel inject किया था, जो Germany में “कोई therapeutic indication नहीं” के रूप में registered homeopathic medicine है
  • इससे अस्पताल की diagnosis और treatment पर भरोसा और कम हुआ, और MRI को खुद analyze करने की इच्छा हुई

Claude Code में Opus 4.8 से MRI analysis

  • MRI package एक standard DICOM export था, जिसमें extension के बिना सैकड़ों files थे, और कुल size करीब 266MB था
  • analysis के लिए Claude Code के अंदर Opus 4.8 (xhigh) का इस्तेमाल किया
    • code execution और package install संभव हों, इसलिए Claude Code चुना
    • निर्देश दिया कि analysis के लिए ज़रूरी packages पहले से install कर ले
  • माना कि एक ही model इस्तेमाल करने पर भी Claude Code और Claude.ai chat के बीच फर्क बहुत बड़ा है
  • MRI की जानकारी नहीं थी, इसलिए setup ऐसा किया कि Claude पहले detailed plan बनाए और फिर execute करे
  • शुरुआत में दिया गया medical context सिर्फ “दाएं कंधे में 2–3 हफ़्ते से दर्द” था, और बाद में लगा कि यह human doctor को मिली जानकारी से कम था

पहली analysis में tear को लेकर मतभेद

  • करीब 1 घंटे बाद Opus 4.8 ने report लौटाई
  • अस्पताल की reading और Opus 4.8 की reading लगभग बिल्कुल उलट थीं
    • अस्पताल ने subscapularis tendon के apical insertion हिस्से में Grade III partial-thickness tear देखा
    • Opus 4.8 ने उसी tendon को intact tendon माना
  • उम्मीद थी कि फर्क बस tear grade कम आने जितना होगा, लेकिन असल में tear है या नहीं, इसी पर नतीजा अलग था

human reading और AI reading की फिर mediation

  • दोनों results को reconcile करने के लिए Opus 4.8 को फिर से comparative analysis सौंपी
  • इस बार human MRI report के साथ-साथ ChatGPT 5.5 Pro के साथ हुई बातचीत भी दी
    • इस बातचीत में diagnosis का अंदाज़ा लगाने के लिए आज़माई जाने वाली movements और postures शामिल थे
  • Opus ने कई subagents का इस्तेमाल करके पिछले context से कम biased नई analysis पाने का approach अपनाया
  • फिर करीब 1 घंटे बाद नई report आई
  • mediation conclusion में माना गया कि Reader A की तरफ़ evidence ज़्यादा मज़बूत है, और इसे “moderate-to-high confidence” के साथ summarize किया गया
    • mild insertional tendinosis
      • apical insertion सहित कोई स्पष्ट partial-thickness या full-thickness tear नहीं
      • कहा कि दोनों reports के बीच कुछ विवाद resolve नहीं किए जा सकते, लेकिन इस item पर अपेक्षाकृत दृढ़ conclusion दिया

AI second opinion के बाद बचा विकल्प

  • भरोसेमंद expert को मामला सौंपने पर जो reassurance मिलता है, वह होता है, लेकिन AI-based second opinion उस भावना को असहज रूप से हिला सकती है
  • AI analysis के बाद existing diagnosis और treatment plan facts की तुलना में जल्दबाज़ और ज़्यादा intervention-heavy लगे, लेकिन AI पर भी पूरी तरह भरोसा करना मुश्किल है
  • बचे हुए विकल्प हैं कि किसी और doctor से मिलें, या अभी चल रही rehab से कंधा बेहतर होता है या नहीं, इसका इंतज़ार करें
  • उम्मीद है कि कुछ generations बाद, email correction की तरह MRI review में भी AI पर भरोसा किया जा सकेगा
  • clinic और doctor का नाम नहीं बताया जा रहा है, और यह अनुभव medical advice नहीं, बल्कि AI से second opinion पाने की technical curiosity से जुड़ा case है

1 टिप्पणियां

 
Hacker News की राय
  • मैं radiologist हूँ, लेकिन पूरा 3D MRI dataset देखे बिना फैसला करना मुश्किल है। Ultrasound calcification का आकलन करने के लिए अच्छा तरीका नहीं है; बड़े calcification मिल जाते हैं, लेकिन छोटे आसानी से छूट सकते हैं
    साधारण X-ray ज़्यादा मददगार होता, और MRI में भी शायद दिखा हो सकता था। खैर, calcification न होने पर shockwave therapy नुकसानदेह नहीं होती; बस मदद नहीं करती
    radiology reading में जब “नहीं है” लिखा जाता है, तो हमेशा यह शर्त चुपचाप जुड़ी होती है कि “इस imaging modality और लिए गए images की range के भीतर नहीं है।” इसलिए ultrasound report में calcification नहीं है और plain X-ray report में calcification है, ऐसा लिखा हो तो यह विरोधाभास नहीं है
    मरीज या medical terminology से परिचित न होने वाले लोगों के लिए यह स्वाभाविक रूप से confusing है, लेकिन अगर report में यह सब विस्तार से लिख दिया जाए तो वह अभी से भी ज़्यादा conditional expressions वाली और पढ़ने में चिढ़ पैदा करने वाली document बन जाएगी

    • मुझे लगता है यह बहुत नरमी से कहा गया है। अगर कोई इसे नहीं समझता, तो भ्रमित होने के लिए उसे यह मानना पड़ेगा कि सभी diagnostic equipment में अनंत clarity होती है और वे हमेशा सही होते हैं
      Babbage से पूछा गया था कि “अगर कोई गलत सवाल calculating machine में डाला जाए, तो क्या सही जवाब निकलेगा?” यह किस्सा याद आता है। उन्होंने मोटे तौर पर जवाब दिया था, “ऐसा सवाल सोचने वाले मन की logic को मैं बिल्कुल नहीं समझ सकता”
    • एक radiographer के तौर पर कहना चाहूँगा, “बिल्कुल सही कहा, doctor!” मैंने AI use को मरीजों को अपनी स्थिति समझने या basic blood test values समझने में मदद करते देखा है, लेकिन किसी व्यक्ति की हद से ज़्यादा हाँ में हाँ मिलाकर उसे मूल पोस्ट की तरह medical rabbit hole में खींच ले जाने में यह सचमुच खराब है
      AI को कम-से-कम इतना तो बताना चाहिए कि calcium ultrasound की तुलना में X-ray/CT में बेहतर दिखता है
    • सहमत हूँ। मैं radiologist नहीं हूँ, लेकिन MRI पर काफी research करता हूँ। experts और आम लोगों में frontier models से सही diagnosis निकलवाने की success rate अलग हो सकती है, और prompt के सूक्ष्म फर्क से ही अलग diagnosis आ सकता है https://www.nature.com/articles/s41591-026-04501-8
    • यहाँ आए शब्द पढ़कर और खोजकर देखा तो ये मेरे दाहिने कंधे के symptoms से बहुत मिलते-जुलते लगते हैं। ऐसा लग रहा है जैसे desk के पास एक विशाल rabbit hole खुल गया हो
    • मुझे हैरानी है कि orthopedics में diagnostic ultrasound का ज़्यादा इस्तेमाल क्यों नहीं होता। fetal heart और organs तो रोज़ देखे जाते हैं, फिर shoulder क्यों नहीं? यह काफी सस्ता और तेज़ लगता है
  • जिन लोगों की दिलचस्पी हो, उनके लिए certified human radiologists द्वारा देखी जाने वाली second opinion service दे रहे हैं: https://expert.med

    • इसका dental version चाहिए
  • असल बात सच में यही है। मुझे पता है कि AI पर भरोसा नहीं किया जा सकता, लेकिन साथ ही AI से और explanation माँगना या उससे असहमति जताना कहीं ज़्यादा आसान है। इसमें timed appointment नहीं है और hourly cost भी नहीं, यह बड़ी बात है। लेकिन जानकारी बढ़ना हमेशा मददगार नहीं होता
    मैंने 150,000 miles चली 11 साल पुरानी Civic को कई garages में ले जाकर “second opinion” वाला खेल खेला था। मैं हर garage की recommendations की तुलना करके तय करना चाहता था कि क्या करना चाहिए
    नतीजा तीन आपस में बिल्कुल असंबंधित recommendations था, जिनमें से एक के बारे में मुझे पक्का पता था कि वह गलत है। शुरू करने से पहले की तुलना में मुझे और खराब लगा
    अनिश्चित जानकारी का समाधान AI द्वारा दी जा सकने वाली और ज़्यादा जानकारी नहीं, बल्कि बेहतर जानकारी है, और फिलहाल AI वह नहीं दे पाता

    • मैं एक साथ कई LLM subscriptions और local models इस्तेमाल करता रहता हूँ। जब अपने expertise से बाहर का सवाल पूछता हूँ, तो accessible सभी LLMs से पूछता हूँ, और अलग sessions बनाकर वही सवाल कई तरीकों से पूछता हूँ
      यह देखकर काफी कुछ साफ हो जाता है कि कितने अलग-अलग और विरोधाभासी जवाब आते हैं। ज़्यादातर जवाब आत्मविश्वास से दिए जाते हैं
      आखिरी बार जब मैंने Claude में medical question डाला, तो sessions के बीच भी consistent answer नहीं मिला
      और भी डरावनी बात यह है कि हर LLM को मेरे मन में मौजूद answer की ओर ले जाना कितना आसान है। जैसे ही मैंने किसी दूसरे LLM द्वारा दिए गए options पर सवाल पूछना शुरू किया, हर session उसी explanation की तरफ बहने लगा
    • puzzle और mystery में बड़ा फर्क है। puzzle में target state पता होती है, और pieces, यानी data, बढ़ने के साथ आप target के करीब जाते हैं। यह भी पता होता है कि target तक कितना बाकी है
      mystery उससे बदतर है। data का हर नया piece जुड़ने पर target और दूर चला जाता है। हर चीज़ और अधिक confusing होती जाती है
      यह फर्क Malcolm Gladwell ने popularize किया था
    • मुझे लगता है AI अभी बेहतर जानकारी दे सकता है। बस वह यह काम विश्वसनीय तरीके से नहीं कर पाता, और non-experts यह फर्क नहीं पहचान सकते, इसलिए यह और खतरनाक हो जाता है
    • ChatGPT की वह मुलायम आवाज़ जो हमें सहलाकर बताती है कि हम कितने सही और smart हैं… भला वह hallucinate कैसे कर सकता है, खासकर 5.5 हो तो नहीं ही
    • कार के बारे में सिर्फ 3 opinions ही लिए? 50 क्यों नहीं लिए? ज़्यादा जानकारी इकट्ठा करने पर शायद ज़्यादा उपयोगी signal मिल सकता था
      मुझे पता है mechanic से opinion लेना समय लेता है। लेकिन AI के साथ ऐसा नहीं है
  • कुछ साल पहले, AI hype से पहले की बात है, मुझे TB की गलत diagnosis मिली थी। मुझे chronic cough था, और एक clinic के outsourced radiologist ने TB के signs ढूंढ लिए। कानून के तहत वह result शहर के TB hospital भेजा गया, और वहां के doctors ने radiology conclusion को ज्यों का त्यों मानते हुए कहा कि मुझे कम-से-कम 8 महीने तक जेल जैसी सख्त व्यवस्था वाले hospital में रहना होगा
    मना करने का कोई तरीका भी नहीं था। मुझे एक तरह का biological hazard माना गया था, और legally पालन करना ही था
    भर्ती होने से पहले मैंने जल्दी से दूसरा radiologist ढूंढा, और उसने pneumonia diagnose किया। वह report TB hospital के attending physician को भेजी, तो review के बाद उन्होंने निष्कर्ष निकाला कि पहली reading गलत थी। पता चला कि वहां के doctors images पढ़ ही नहीं पाते थे और radiologist जो कहता था, बस उस पर भरोसा कर लेते थे
    मजेदार बात यह थी कि वे मुझे already official TB register में डाल चुके थे, और गलती मानना नहीं चाहते थे। इसके बजाय उन्होंने एक अलग document जारी कर दिया कि “उस hospital में 7 दिन में TB ठीक हो गई।” शायद मैं उस देश में एक हफ्ते में TB को हराने वाला अकेला व्यक्ति हूं
    अगर radiologist या doctor पर भरोसा करना मुश्किल लगे, तो खर्च संभव हो तो किसी दूसरे doctor को दिखाना बेहतर है। Conclusions compare करके देख सकते हैं कि वे match करते हैं या नहीं। अगर आपस में unrelated दो doctors या radiologists एक ही बात कहें, तो उसके सच के काफी करीब होने की संभावना होती है
    हालांकि AI और इंसान में किस पर ज्यादा भरोसा करना चाहिए, यह मुझे ठीक से नहीं पता। AI hallucinate करता है, लेकिन मुझे इंसानों से भी कई बार गलत diagnosis मिली है

    • ऐसा कैसे हो सकता है? सिर्फ image देखकर TB diagnose नहीं की जा सकती, और TB hospital को तो यह पता होना चाहिए
    • मेरे साथ भी कुछ ऐसा ही हुआ। मेरे बेटे को pneumonia हुआ था और 10 दिन antibiotics लेने के बाद भी pain बना रहा। X-ray तीन doctors को दिखाया, लेकिन सिर्फ एक ने pleural effusion की सही diagnosis की
      लगता है हर doctor को अकेले अपने हिसाब से देखने देने के बजाय, एक centralized जगह होनी चाहिए जहां top-level experts images देखें
  • यहां लोगों को human body को deterministic function की तरह देखते हुए देखना दिलचस्प है, जैसे input X देने पर output Y आना ही चाहिए। यही expectation diagnosis पर भी लागू हो जाती है, कि एक ही problem पर कई specialists से वही diagnosis मिलेगी
    human body की complexity को देखते हुए diagnosis career के दौरान जुटाए experience, knowledge, diagnostic methods और equipment का combined result होती है। “Doctor” जैसे title का मतलब है कि state ने certify किया है कि “exam pass कर लिया है, इसलिए practice करना safe है,” लेकिन इसका मतलब यह नहीं कि सभी exactly एक जैसा इलाज करेंगे
    कोई specialist हर महीने अपना knowledge update करता है, कोई हर साल, और कोई बिल्कुल नहीं। Region, politics, यहां तक कि weather—variables बहुत ज्यादा हैं
    इसलिए specialist चुनना सच में बहुत अहम है। उस व्यक्ति की practice style और specialization के बारे में reputation देखनी चाहिए। आप सही diagnosis मिलने की probability maximize कर सकते हैं, लेकिन सिर्फ इसलिए कि किसी को doctor कहा जाता है, उससे सही होने की उम्मीद नहीं करनी चाहिए

    • अगर community मुख्यतः ऐसे लोगों से बनी हो जो इसी तरह के functions बनाने का काम करते हैं, तो human body से भी deterministic function जैसा व्यवहार expect करना predictable है
    • Point ठीक से समझ नहीं आया। क्या मतलब यह है कि medicine में inherently errors होते हैं, इसलिए AI, खासकर कई specialized AI का bundle, बेहतर diagnosis देने की संभावना रखता है?
  • मैंने shoulder pain वाले कई friends और family members को देखा है जिन्हें लगभग तुरंत surgery recommend कर दी गई। जिन लोगों का काम surgery करना है, उनके लिए surgery default बन जाना आम बात है
    मेरा भी एक समय shoulder काफी दर्द करता था और कई महीनों तक pain कम नहीं हुआ। Surgery नहीं करानी थी, इसलिए massage और acupuncture try किया, लेकिन कोई मदद नहीं मिली
    जिस चीज ने fix किया, वह pull-ups पर सच में focus करना था। शुरुआत में मैं एक भी नहीं कर पाता था, इसलिए dead hangs और scapular pull-ups से शुरू किया, और धीरे-धीरे normal pull-ups तक गया। जब एक set में कुछ reps कर पाने लगा, तो “grease-the-groove” method से train किया
    जब एक set में करीब 17 reps करने लगा, तो training schedule बंद कर दिया, और अब दिन में बांटकर हफ्ते में 3 बार, 7–8 reps के 6 sets करता हूं। Shoulder mobility exercises भी करता हूं https://www.youtube.com/watch?v=vP8YmmRMz6I
    आलस करके skip कर दूं तो हर बार discomfort वापस आ जाता है, लेकिन strengthening exercises फिर शुरू करूं तो गायब हो जाता है

    • मुझे कई सालों तक shoulder problems थीं। Physical therapy भी की और pulling/pushing exercises भी, लेकिन ऐसी exercises करने पर pain और बढ़ जाता था। Shoulder इस्तेमाल करने वाली exercises न करूं तो हालत “ठीक” रहती थी
    • इसके उलट, जब मुझे rotator cuff problem थी तो surgeon ने knife लगाने से पहले कई महीनों की physical therapy recommend की। उसका असर हुआ। सही shoulder movement पर focus रखते हुए weight training नियमित करने से pain भी वापस नहीं आया
      लगता है patient अगर quick fix ढूंढने जाए, तो उसे वही solution suggest किया जाता है। अगर थोड़ा पढ़कर अपने लिए सबसे अच्छा solution ढूंढने जाए, तो आम तौर पर वही मिल जाता है
  • लगभग 2 साल पहले ChatGPT के “deep research” से मैंने लगभग 3 साल से जूझ रही क्रॉनिक साइनुसाइटिस की पड़ताल की। 3 जनरल फिजिशियन और ENT के 3 विज़िट के बाद, मैंने अपनी सारी observations AI में डाल दीं
    खासकर ENT डॉक्टर ने मेरे sinuses को endoscope से देखकर allergic reaction के evidence देखे थे, लेकिन बाद में allergy test के बाद यह निष्कर्ष क्यों निकाला कि allergy medicines से इलाज नहीं हो सकता, यह वह समझा नहीं पाया। मैंने कई बार पूछा, लेकिन उसने जवाब नहीं दिया
    ChatGPT ने NIH की एक study ढूंढ निकाली जिसमें कहा गया था कि 20% लोगों में शरीर के किसी खास हिस्से तक सीमित allergic reaction दिखता है, और shoulder पर skin prick test से वह सामने नहीं आ सकता। जब मैंने उससे पूछा तो उसने बस कहा, “allergy ऐसे काम नहीं करती।” बात वहीं खत्म हो गई। उसने study देखने का सोचा भी नहीं
    उसने CPAP और नियमित nebulizer treatment prescribe किया। एक साइड बात: CPAP कंपनी ने मुझे text message भेजा, लेकिन मैं समझ नहीं पाया कि यह phishing तो नहीं है; मैंने पूछा कि वे कौन हैं, पर कोई जवाब नहीं मिला
    इसलिए मैंने बस रोज़ 2nd-generation allergy medicine लेने का फैसला किया
    साइनुसाइटिस गायब हो गई। पहले कम से कम हर quarter में मुझे बड़ी साइनुसाइटिस होती थी। डॉक्टर के कहे मुताबिक allergy शायद वैसे काम न करती हो, लेकिन allergy medicine ने मेरी समस्या पूरी तरह हल कर दी
    यह शुक्र की बात है। क्योंकि कुछ साल पहले मैंने एक महीने तक CPAP ठीक से इस्तेमाल करके देखा था, लेकिन किसी भी तरह उसकी आदत नहीं पड़ी और नींद भी बुरी तरह खराब हो गई थी

    • इसमें खोलने लायक बहुत कुछ है, और शुरुआत से ही स्थिति आपके खिलाफ थी। पहले, अगर कोई test X कहता है, तो X को नकारना सचमुच कठिन होता है। यह सिर्फ medical field की समस्या नहीं, इंसानों की सामान्य समस्या है। हम फैसलों को दोबारा देखने या सुधारने में कमजोर हैं, और उन्हें पलटने की संभावना पर विचार करने में और भी कमजोर
      अगला मुद्दा जिम्मेदारी और समय है। खासकर medical जैसी high-stakes field में, जब आप किसी से decision पर फिर से विचार करने को कहते हैं, तो उस पूरे झमेले को खोलने का समय या इच्छा किसी के पास नहीं होती
      अगर आप सच में सफल होना चाहते हैं, तो diagnostic loop बंद होने से पहले, doctors के आपके case को पक्का कर लेने से पहले, आपको research में सुझाए गए tests propose करने चाहिए। तभी इस बात की संभावना सबसे ज्यादा होती है कि वे वह देखेंगे जो देखा जाना चाहिए
      बेहतर है कि साफ-साफ कहें कि आप एक hypothesis लेकर आए हैं। Doctors बहुत जल्दी समझ जाते हैं कि उन्हें steer किया जा रहा है, लेकिन यह समझने में देर लगाते हैं कि patient वास्तव में सही था। overworked लोगों के best effort वाले system में इसी तरह चलना पड़ता है
    • रोज़ ली जाने वाली allergy medicines का early-onset Alzheimer’s के जोखिम में काफी बढ़ोतरी से संबंध बताया गया है। अच्छा है कि आपको असरदार चीज मिल गई, लेकिन allergen shots आज़माना भी अच्छा हो सकता है
  • एक radiologist के तौर पर मुझे Claude और ChatGPT MRI reading में सचमुच बहुत खराब लगे, और मैं उन पर बिल्कुल भरोसा नहीं करूंगा। text-based material की research में इनके फायदे हैं, लेकिन radiology images को ये अभी पर्याप्त अच्छी तरह interpret नहीं कर पाते

    • AI reporting की कमी को images enhance करने की दिशा में पूरा करता है
      अभी Siemens MR software Deep Resolve signal generate करता है (लगभग 50% extra), फिर दो pixels में से एक generate करता है, और 3D sequences में दो slices में से एक generate करता है। यह हर sequence के time को लगभग 59% घटा देता है, और सच में बहुत अच्छा है
      मैं MR technologist हूं
    • यह कुछ वैसा है जैसे लोग उम्मीद करते हैं कि ChatGPT chess में सचमुच बहुत अच्छा होगा। superhuman performance वाले chess engines दशकों से मौजूद हैं, तो अरबों डॉलर खर्च कर train किए गए latest frontier LLM के लिए यह जाहिर तौर पर आसान होगा—ऐसा मानना
      दरअसल मुझे ChatGPT 5.5 का ELO जानने की curiosity है। इसने जो content absorb किया है, उससे chess principles की basic understanding भर के आधार पर भी अगर यह 2000 से ऊपर हो तो मुझे बहुत हैरानी नहीं होगी
  • negative reactions समझ में नहीं आतीं। मौजूदा healthcare तभी चलती है जब doctor और patient दोनों दिमाग लगाएं। ऐसा कम ही हुआ कि doctor diagnosis दे दे और मैं बस अपना दिन जारी रखूं। जब ऐसा हुआ, तो ज्यादातर मामलों में मुझे समस्या पर भरोसा था और मुझे पता था कि क्या चाहिए। doctor treatment access के रास्ते की barrier था
    Dr. GPT अच्छा brainstorming tool है। यह information को इस तरह synthesize करता है जो raw materials से मुश्किल है। हालांकि, यह आपको “यह बात समझ में नहीं आती” कहने पर मजबूर भी करता है
    “Doctors latest knowledge नहीं जानते” वाली बात मुझे कमजोर evidence पर आधारित लगती है। pretraining के दौरान token density और post-training datasets कैसे बनाए जाते हैं, यह सोचें तो fundamental बदलावों के साथ adapt होने में बहुत लंबा समय लगेगा। अगर हम scurvy का इलाज भूल गए हों, तो किसी नई discovery के साथ adapt करने के लिए कितने papers चाहिए होंगे?

  • images के मामले में मैं AI पर भरोसा नहीं करूंगा। लेकिन एक बार ChatGPT ने सिर्फ MRI report का text देखकर कहा था कि report के बहुत गलत होने की संभावना है और दूसरी diagnosis suggest की थी। उसने काफी जोर देकर कहा, इसलिए मैं दूसरे doctor के पास गया और दोबारा test कराया। निष्कर्ष यह कि ChatGPT सही था
    फिर से कह रहा हूं, यह सिर्फ एक व्यक्ति का single experience है, इसलिए इसका बहुत बड़ा मतलब नहीं है

    • anecdote है, लेकिन एक patient की image जिसे doctor ने दूसरी बीमारी बताया था, उसे Gemini Pro में डालने पर उसने shingles की सही diagnosis दी, और उसी से सही treatment मिलकर वह ठीक हुआ
      समझ नहीं आता कि doctors गलत बात कहने से पहले LLM में prompt डालकर भी क्यों नहीं देख लेते। ego की वजह से?
      radiology में specialized convolutional neural networks चाहिए, इसलिए वह समझ आता है, लेकिन knowledge-based problems में तो यह और भी लागू होता है
    • मुझे लगता है visual gap का बड़ा हिस्सा इसलिए है क्योंकि image में कहां ध्यान देना है, यह कम structured होता है। anecdotal तौर पर, छोटे qwen fine-tuned models, जैसे 10 billion parameters से कम वाले models भी base model की 30% से कम accuracy को 90% तक ले जाते हैं। मैंने ऐसे models को performance-based back-office tasks के लिए बेचा है
      लगता है कि वास्तविक value देने वाले कई specialized VLM आएंगे
    • कुछ दिन पहले ChatGPT Enterprise ने कहा कि kernel 7.0.2, 6.69 से पुराना है
      ये खिलौने बिल्कुल भरोसेमंद नहीं हैं। इसका मतलब यह नहीं कि ये बेकार हैं, लेकिन भरोसा नहीं किया जा सकता