सिम्पसन का विरोधाभास

(en.wikipedia.org)

3 पॉइंट द्वारा GN⁺ 2024-03-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें

सिम्पसन का विरोधाभास probability और statistics की वह घटना है जिसमें subgroups में दिखने वाला trend, data को मिलाने पर गायब हो जाता है या उलट जाता है; इसलिए केवल aggregate data देखकर निर्णय लेने पर बड़ा distortion हो सकता है
frequency data को सीधे causality के रूप में interpret करने पर confounding variables छूट जाना आसान है, और यह social science व medical statistics में खास तौर पर समस्या बनता है
UC Berkeley graduate admissions, kidney stone treatment, और professional baseball batting average के उदाहरण दिखाते हैं कि subgroup comparison और overall aggregate comparison अलग-अलग निष्कर्ष दे सकते हैं
ratio reversal को vector perspective से भी समझाया जाता है, और मुख्य सीमा यह है कि केवल table देखकर data को split करना है या combine करना है, यह तय करना कठिन होता है
सही interpretation के लिए Pearl का back-door criterion और do-calculus जैसे causal models जरूरी हैं; simple aggregation से ज्यादा data generation process को समझना महत्वपूर्ण है

घटना और नाम

सिम्पसन का विरोधाभास वह घटना है जिसमें कई data groups में दिखने वाला trend, groups को combine करने पर गायब हो जाता है या उल्टा बदल जाता है
frequency data को जरूरत से ज्यादा causal interpretation देने पर यह विशेष रूप से खतरनाक है, और confounding variables तथा causal relationships को statistical modeling में ठीक से handle करना चाहिए
इसे statistics के गलत इस्तेमाल से कैसे गलत results बन सकते हैं, इसका representative example माना जाता है
Edward H. Simpson ने 1951 के technical paper में इस phenomenon को समझाया था; Karl Pearson ने 1899 में और Udny Yule ने 1903 में similar effect का पहले उल्लेख किया था
Simpson's paradox नाम Colin R. Blyth ने 1972 में introduced किया
इसके अन्य नाम Simpson's reversal, Yule–Simpson effect, amalgamation paradox, और reversal paradox हैं

UC Berkeley graduate admissions का उदाहरण

1973 के पतझड़ में University of California, Berkeley के graduate admissions data में overall aggregate आधार पर male applicants के accepted होने की संभावना female applicants से अधिक थी, और अंतर इतना बड़ा था कि उसे chance कहना कठिन था
- कुल 12,763 applicants में acceptance rate 41% था
- 8,442 male applicants का acceptance rate 44% था
- 4,321 female applicants का acceptance rate 35% था
department-wise information शामिल करने पर overall aggregate से अलग pattern दिखा
- महिलाएं कम acceptance rate वाले, अधिक competitive departments में ज्यादा apply करने की ओर झुकती थीं
- पुरुष अधिक acceptance rate वाले, कम competitive departments में ज्यादा apply करने की ओर झुकते थे
aggregate data और adjusted data ने महिलाओं के पक्ष में छोटा लेकिन statistically significant bias दिखाया
कुल 85 departments में 4 departments में महिलाओं के खिलाफ significant bias दिखा, जबकि 6 departments में पुरुषों के खिलाफ significant bias दिखा
निष्कर्ष biased departments की संख्या पर नहीं, बल्कि हर department के total applicants के आधार पर dropout/rejection rate से weighted, सभी departments के gender-wise admission outcomes पर आधारित था

kidney stone treatment का उदाहरण

एक वास्तविक medical study में kidney stone के Treatment A और B की success rate compare करते समय सिम्पसन का विरोधाभास दिखा
- Treatment A में open surgery procedure शामिल था
- Treatment B में closed surgery procedure शामिल था
stone size के हिसाब से देखें तो Treatment A की success rate अधिक थी
- छोटे stones: A 93% (81/87), B 87% (234/270)
- बड़े stones: A 73% (192/263), B 69% (55/80)
stone sizes को combine करने पर Treatment B की success rate अधिक दिखी
- कुल: A 78% (273/350), B 83% (289/350)
reversal इसलिए हुआ क्योंकि treatment selection और case difficulty साथ-साथ प्रभाव डाल रहे थे
- doctors बड़े stones के लिए बेहतर Treatment A और छोटे stones के लिए अपेक्षाकृत inferior Treatment B का अधिक उपयोग करने की ओर झुकते थे
- stone size success rate पर बड़ा असर डालता था, इसलिए case severity ने overall ratio पर treatment choice से ज्यादा मजबूत प्रभाव डाला
कम effective Treatment B अधिक effective इसलिए दिखा क्योंकि उसे आसानी से treat होने वाले छोटे stone cases में ज्यादा बार लागू किया गया था
Jaynes के अनुसार Treatment A, Treatment B से साफ तौर पर बेहतर है, लेकिन kidney stone size अधिक महत्वपूर्ण variable है

professional baseball batting average का उदाहरण

सिम्पसन का विरोधाभास professional baseball players के batting average में भी दिख सकता है
कोई player अलग-अलग वर्षों में दूसरे player से अधिक batting average रख सकता है, लेकिन सभी वर्षों को combine करने पर उसका batting average कम हो सकता है
Ken Ross ने 1995 और 1996 में Derek Jeter और David Justice के batting averages से इसे दिखाया
- 1995: Jeter 12/48, .250; Justice 104/411, .253
- 1996: Jeter 183/582, .314; Justice 45/140, .321
- combined: Jeter 195/630, .310; Justice 149/551, .270
Justice ने दोनों वर्षों में अलग-अलग Jeter से अधिक batting average दर्ज किया, लेकिन दोनों seasons को combine करने पर Jeter का batting average अधिक रहा
Ross के अनुसार possible player pairs के बीच यह phenomenon लगभग साल में एक बार observe किया जा सकता है

vectors से ratio reversal देखना

सिम्पसन का विरोधाभास 2-dimensional vector space से भी समझाया जा सकता है
success rate p/q, यानी success/attempt, slope p/q वाले vector के रूप में represent किया जा सकता है
दो ratios को combine करने पर parallelogram law के अनुसार vector sum से express किया जाता है, और उस sum की slope combined success rate बनती है
individual comparison में एक vector की slope दूसरे vector से कम हो सकती है, लेकिन दोनों vectors को combine करने पर resulting slope उलटकर ज्यादा हो सकती है
ऐसा reversal होने के लिए एक तरफ के vector के कुछ हिस्से की slope दूसरी तरफ के vector के कुछ हिस्से से ज्यादा होनी चाहिए, और वे vectors आम तौर पर लंबे होते हैं, इसलिए overall comparison को dominate करते हैं

correlation और causal interpretation

Simpson's reversal correlation में भी हो सकता है
दो variables overall positive correlation दिखा सकते हैं, लेकिन hidden confounding variable को reflect करने पर वास्तव में negative correlation हो सकता है
economics example में केवल overall data देखने पर demand, price के साथ positive correlation रखती दिखी, लेकिन time variable शामिल करने पर कई periods में expected negative correlation दिखाई दिया
time के effect को ignore करके demand और price को ही plot करने पर correlation positive में flip हो गया
सिम्पसन का विरोधाभास दिखाता है कि sign reversal असंभव है — यह intuition classical logic या probability calculation मात्र से नहीं निकलता
Savage के sure-thing principle का सीमित रूप Pearl के do-calculus से derive किया जा सकता है
- अगर कोई action A हर subgroup में event B की probability बढ़ाता है, तो जब तक वह action subgroup distribution को नहीं बदलता, उसे overall group में भी B की probability बढ़ानी चाहिए
Pavlides और Perlman ने proof दिया कि uniform distribution follow करने वाली random 2 × 2 × 2 table में सिम्पसन का विरोधाभास exactly 1/60 probability से होता है
Kock की study में दो predictor variables और एक criterion variable वाले path model में सिम्पसन का विरोधाभास random रूप से होने की probability करीब 12.8% रही, यानी 8 path models में 1 बार से थोड़ी अधिक

Simpson का दूसरा विरोधाभास और causal graphs

Simpson के 1951 paper में कम ज्ञात दूसरा paradox भी शामिल था
इस मामले में, kidney stone example की तरह separated data में हमेशा reasonable interpretation हो ऐसा नहीं है; combined data सही interpretation हो सकता है
split data और combined data में से क्या इस्तेमाल करना चाहिए, यह data generate करने वाली process पर निर्भर करता है
इसलिए केवल table observe करके हमेशा सही interpretation तय नहीं किया जा सकता
Judea Pearl ने दिखाया कि split data, variables X और Y के बीच सही causal relationship दिखाए, इसके लिए splitting variable को back-door criterion नाम की graph condition satisfy करनी चाहिए
- X और Y के बीच सभी spurious paths को block करना चाहिए
- कोई भी splitting variable X से प्रभावित नहीं होना चाहिए
यह criterion Simpson के दूसरे paradox के लिए algorithmic solution देता है, और समझाता है कि same data से compatible अलग-अलग graphs अलग-अलग back-door criterion मांग सकते हैं
अगर covariate set Z back-door criterion satisfy करता है, तो adjustment formula X के Y पर सही causal effect देता है
अगर ऐसा set नहीं है, तो Pearl के do-calculus से causal effect estimate करने के दूसरे तरीके खोजे जा सकते हैं
do-calculus की completeness को सिम्पसन के विरोधाभास का complete solution माना जा सकता है

आलोचना और practical implications

एक आलोचना यह है कि सिम्पसन का विरोधाभास असल paradox नहीं, बल्कि confounding variables को ठीक से शामिल न करने या variables के बीच causal relationships पर विचार न करने का result है
paradox पर ही focus करने से अधिक महत्वपूर्ण statistical issues से ध्यान हट सकता है
एक और आलोचना यह है कि apparent सिम्पसन का विरोधाभास data को stratify या group करने के तरीके का result हो सकता है
data को अलग तरह से stratify करने या दूसरे confounding variables पर विचार करने पर phenomenon गायब हो सकता है या उलट सकता है
Simpson का example बताता है कि subgroups के high ratios combine होने पर simple average नहीं बनते — यह noncollapsibility phenomenon है
फिर भी सिम्पसन का विरोधाभास statistics और data analysis में लगातार study और discuss किया जाने वाला विषय है, और simple data interpretation के pitfalls दिखाने वाला example बना हुआ है

1 टिप्पणियां

GN⁺ 2024-03-13

Hacker News की राय

बहुत पहले The Hut Group में डेटा analyst के तौर पर काम करते हुए मैंने यह सचमुच देखा था
Marketing team ने कहा कि पूरे साल हर product line में revenue के मुकाबले marketing cost का ratio घटा है, लेकिन साल के अंत में management यह देखकर हैरान रह गई कि कुल cost of sales करीब 10% से लगभग 20% तक, यानी लगभग दोगुनी हो गई
Finance team के अनुरोध पर जांचने पर पता चला कि marketing team के numbers सही थे, और games, beauty, nutrition product lines में marketing cost ratio क्रमशः लगभग 15%→10%, 30%→25%, 50%→30% तक सभी घटे थे
लेकिन product mix काफी बदल गया था: nutrition product line कुल revenue के करीब 10% से बढ़कर लगभग 50% तक पहुंच गई थी, और सबसे ऊंचे cost ratio वाली category के बड़ी हो जाने की वजह से कुल marketing cost ratio बढ़ गया
आखिरकार, हर category की sales efficiency बेहतर हुई थी, लेकिन overall metric खराब हो गया, और मुझे accountants को Yule-Simpson paradox समझाने का मजेदार काम मिला
- SRE के तौर पर जिन लगभग सभी datasets से निपटना पड़ता है, वे ऐसे paradoxes से भरे होते हैं
  Google का एक मशहूर उदाहरण है: एक network engineer Indonesia जैसी जगह गया, service धीमी देखकर पूछा, तो सभी ने जवाब दिया “यह तो हमेशा से ऐसा ही था”
  स्थानीय mobile network धीमा था और island से बाहर जाने वाली fiber connection saturated थी, इसलिए head office लौटकर उसने payload size घटाने का optimization किया, download size आधा करके deploy किया, लेकिन average और p95 latency उलटे बढ़ गई
  एक objectively अच्छा change खराब क्यों दिखा? क्योंकि जिन users के लिए service काफी बेहतर हुई थी, वे उसे कहीं ज्यादा इस्तेमाल करने लगे
  Bandwidth load घटा था, फिर भी data center तक network latency US users की तुलना में ज्यादा थी, और “कम भयानक” हो चुकी service को ज्यादा इस्तेमाल करने से overall metrics ऊपर चले गए
  Request telemetry के सिर्फ किसी खास हिस्से को देखकर पूरे system को पर्याप्त रूप से model न करना, या गलत variables control करके गलत निष्कर्ष निकालना—ऐसे मामले बहुत होते हैं
  सबसे बुरा होता है Simpson paradox से पैदा होने वाला चक्राकार दोषारोपण: app developers server regression को दोष देते हैं और server team app team को, और कभी-कभी ऐसा इसलिए भी हो जाता है क्योंकि server और app release schedules संयोग से बहुत अच्छी तरह align हो जाते हैं
- यह वास्तव में काफी common है
  Iris जैसे “classic” toy dataset में भी देखा जा सकता है: https://github.com/DataForScience/Causality/blob/master/1.2%...
- Simpson paradox के real-world examples सुनते समय मुझे हमेशा ठीक से समझ नहीं आता कि इससे सबक क्या लेना चाहिए
  क्या इसका मतलब है कि marketing team ने over-optimize कर दिया और non-nutrition products की demand घट गई, या यह कि nutrition products को product line से निकाल दें तो individual products और overall efficiency दोनों बेहतर हो जाएंगे, या फिर ऐसे metrics अपर्याप्त हैं इसलिए ratios की बजाय total change देखना चाहिए—यह साफ नहीं होता
- मुझे लगा था कि mixed/hierarchical linear models लगाना काफी सामान्य तरीका है
  मैंने statistics में major नहीं किया, लेकिन biological effects को model करने वाले क्षेत्रों में इस समस्या को अक्सर इसी तरह approach किया जाता है
  उदाहरण: https://www.pymc.io/projects/examples/en/latest/generalized_...
- यह हैरानी की बात है कि report slide में product mix change नहीं था
  हालांकि marketing अक्सर objectivity से ज्यादा positivity चुनती है, और अपने किए काम को support करने वाले facts ही चुनने की प्रवृत्ति रखती है
Jordan Ellenberg का quote सचमुच अच्छा है

गणितज्ञ Jordan Ellenberg मानते हैं कि Simpson’s paradox नाम ही गलत है। “यहां कोई contradiction नहीं है; बस उसी data को सोचने के दो अलग-अलग तरीके हैं,” और इससे सीखने वाली बात यह है कि “यह आपको यह नहीं बताता कि कौन-सा viewpoint चुनना है, बल्कि आपसे हिस्सों और whole को एक साथ ध्यान में रखने की मांग करता है”
कई possibilities को एक साथ ध्यान में रखने के रवैये की वजह से Epicureans survival of the fittest, दोनों parents से traits की inheritance, यह विचार कि light बेहद हल्की और बेहद तेज चलने वाली discrete units से बनी है, और यह विचार कि free will के अस्तित्व के लिए उन्हीं physical laws और conditions के तहत भी matter बनाने वाले atoms के कई possible outcomes होने चाहिए—इन तक पहुंचे थे
यह scientific method द्वारा स्वतंत्र रूप से वही परिणाम खोजने से हजारों साल पहले की बात थी, और खास तौर पर यहां जिस data analysis की बात है, उसके लिए भी यह एक बेहतरीन analysis method है
- लगता है “paradox” शब्द के meaning को थोड़ा गलत समझा गया है
  इसे paradox इसलिए कहा जाता है क्योंकि यह पहली intuition के खिलाफ जाता है और contradiction जैसा दिखता है, न कि इसलिए कि उसे सचमुच contradiction होना ही चाहिए
  बल्कि नाम वाले ज्यादातर paradoxes के असल contradiction न होने की संभावना ज्यादा होती है, क्योंकि जो चीज गलत दिखती है और सचमुच गलत भी होती है, वह नाम दिए जाने लायक interesting होना मुश्किल है
- यह कहना कि free will के अस्तित्व के लिए उन्हीं physical laws और conditions के तहत भी matter बनाने वाले atoms के कई possible outcomes होने चाहिए, अजीब और context से बाहर लगता है
  शायद यह quantum mechanics की बात कर रहा है, लेकिन यह quantum mechanics या free will को सही तरह represent करता नहीं दिखता, और Epicureans के quantum mechanics जानने का तो सवाल ही नहीं था
- Simpson paradox और Epicureans के बीच connection ठीक से समझ नहीं आता
- Epicurean theories की list दिलचस्प है
  काश कोई अच्छा introductory material हो जो इन्हें साथ में cover करे और दिखाए कि ये multiple-possibility thinking से कैसे जुड़ते हैं
- बात निकालने जैसा लगे, लेकिन “light बेहद हल्की और बेहद तेज चलने वाली discrete units से बनी है” कहना accurate नहीं है
  सबसे पहले, light का mass exactly 0 होता है, और सिर्फ massless particles ही exactly speed of light पर, और केवल उसी speed पर, चल सकते हैं
  दूसरी बात, इसमें light की wave-particle duality छूट गई है, जो “उसी data को सोचने के दो अलग-अलग तरीके” वाली Simpson paradox की explanation से भी मिलती-जुलती है, और इसके बिना light या observe किए जा रहे statistical system के behavior को पूरी तरह समझा नहीं जा सकता
बहुत पहले जब मैं शुरुआती statistics पढ़ाता था, तब घर की कीमतों को Simpson's paradox का अच्छा उदाहरण के तौर पर इस्तेमाल करता था
मैंने छात्रों से calculation practice में असली डेटा की जांच कराई थी; उस समय का डेटा 2008 के अमेरिका के घरों की बिक्री का था, इसलिए अब वह करीब 15 साल पुराना है
उस समय single-family homes की औसत बिक्री कीमत, central air conditioning न होने वाले घरों में, central air conditioning वाले घरों से ज़्यादा थी
लेकिन जब इसे state के हिसाब से बांटा गया, तो हर state में संबंध उलटा दिखा: central air conditioning वाले घर, बिना central air conditioning वाले घरों से ज़्यादा महंगे थे
राष्ट्रीय औसत में central air conditioning न होने वाले घरों की कीमत ज़्यादा दिखने की मुख्य वजह यह थी कि California के महंगे घरों में central air conditioning न होने वाले घर बहुत थे
- यह नतीजा ऊपर के उदाहरणों के उलट लग सकता है, या ऐसा लग सकता है कि लक्ष्य के हिसाब से सही statistic चुनने की समस्या है
  इस मामले में राष्ट्रीय औसत बहुत मायने नहीं रखता; मेरा घर, मेरी सड़क, मेरा इलाका मायने रखता है
  वहीं marketing जैसे मामलों में सबसे पहले महत्वपूर्ण statistic कुल net profit होता है, और फिर कारणों में गहराई से जाते हुए marketing cost से पहले business share देखा जाता है
  network वाले उदाहरण में लक्ष्य speed या latency नहीं, बल्कि usage/throughput है
  अगर शुरुआत में ही गलत statistic चुन लिया जाए, तो निष्कर्ष भी गलत निकलता है
https://en.wikipedia.org/wiki/Berkson%27s_paradox भी जानने लायक है
जब population bias वाले तरीके से बनती है, तो error के घुस आने के कई रास्ते होते हैं
ये दोनों effects “data-driven” processes से निकलने वाले कई मूर्खतापूर्ण फैसलों को समझा देते हैं
डेटा का सच के ठीक उलट इशारा करना आम बात है
- मुझे लगता है, ऐसे phenomena से मिलने वाली सबसे अच्छी सीख यह है कि किसी dataset पर statistics चला देने भर से सच पता नहीं चलता
  असल में काम कर रहे causal factors को समझे बिना, डेटा कितना भी हो और statistics को कितने भी तरीकों से काट-छांटकर देखा जाए, ज्ञान बहुत सीमित रहता है
  उदाहरण के लिए Simpson's paradox वाले लेख में UC Berkeley का मामला लें: डेटा इस बारे में बहुत कम उपयोगी बताता है कि admissions process को अधिक fair बनाने के लिए लोगों को किस “bias” पर अलग तरह से काम करना चाहिए
  admissions process मुख्य रूप से department level पर नियंत्रित है या पूरे university level पर, ऐसे context के बिना यह भी पता नहीं चलता कि संभावित bias कहां खोजना चाहिए
- अगर आप empiricist हैं, तो https://en.wikipedia.org/wiki/Goodhart%27s_law की ओर इशारा कर सकते हैं
- कहावत की तरह: झूठ, सफेद झूठ, और statistics
wiki page का छोटा animation इस बात का शानदार उदाहरण है कि एक तस्वीर हजार शब्दों के बराबर होती है
[https://en.wikipedia.org/wiki/File:Simpsons_paradox_-_animat...](https://en.wikipedia.org/wiki/File:Simpsons_paradox_-_animation.gif)
Lord's paradox Simpson's paradox से करीबी तौर पर जुड़ा है, और visual तौर पर थोड़ा ज्यादा आसान समझ आता है: https://repository-images.githubusercontent.com/597130499/46...
कल्पना करें कि horizontal axis दवा की dose है और vertical axis नींद के समय जैसी response value है
Lisa की response देखें तो साफ है कि dose बढ़ने पर नींद घटती है, और Bart के साथ भी यही है
लेकिन अगर पूरे डेटा पर linear regression करें, तो लाल रेखा की तरह यह दिखेगा कि dose बढ़ने पर नींद बढ़ती है, जो गलत निष्कर्ष है
कुछ समय पहले तक मुझे नहीं पता था कि Simpson's paradox causal inference की सीख है
सही paradigm लागू करने पर paradox गायब हो जाता है
एक बेहतर लेख यहां है: https://plato.stanford.edu/entries/paradox-simpson/
पहली बार देखने पर मुझे लगा था कि यह The Simpsons का वह episode है जिसमें Mr. Burns को “इतनी तरह-तरह की बीमारियां हैं कि वे एक-दूसरे को cancel out कर देती हैं”
explanation यहां है: https://simpsons.fandom.com/wiki/Three_Stooges_Syndrome
समानता चौंकाने वाली है, लेकिन 90s के आखिर के The Simpsons writers की प्रतिभा को देखते हुए, बहुत संभव है कि यह जानबूझकर किया गया हो
- “इंसान जितनी चाहे उतनी बीमारियां रख सकता है”
  https://en.wikipedia.org/wiki/Hickam's_dictum
- मुझे लगा था कि यह हाल की बड़ी घटनाओं में The Simpsons द्वारा “predict” किए गए मामलों की संख्या के बारे में होगा
  [0] https://www.independent.co.uk/arts-entertainment/tv/news/the...
UC Berkeley में दाखिले में लैंगिक पक्षपात दिखता था—यह उदाहरण पढ़ते हुए मुझे यह बात दिखी
“महिलाएं उन अधिक प्रतिस्पर्धी विभागों में आवेदन करने की ओर झुकती थीं जहां acceptance rate कम था, और योग्य आवेदकों के बीच भी ऐसा ही था। उदाहरण के लिए English department ऐसा था। वहीं पुरुष उन कम प्रतिस्पर्धी विभागों में आवेदन करने की ओर झुकते थे जहां acceptance rate ज्यादा था, जैसे Engineering department”
उम्मीद के उलट था, इसलिए हैरानी हुई
मुझे लगता था कि English और कुल मिलाकर Arts में STEM की तुलना में प्रवेश पाना कहीं ज्यादा आसान होगा; Australia में तो ऐसा ही महसूस होता है
यहां “प्रवेश पाना” से मतलब industry नहीं, बल्कि university admission है
- लगता है अभी तक किसी ने साफ जवाब नहीं दिया
  यह data graduate programs के लिए applications का है
  Engineering में funding कहीं ज्यादा होती है, और Engineering PhD में जाने वाले काफी छात्र अपनी tuition खुद नहीं भरते
  Humanities में funding बहुत कम होती है, और ज्यादातर छात्र Humanities PhD के लिए बड़ी रकम नहीं देना चाहते, इसलिए departments admission seats को सख्ती से सीमित रखते हैं
  इसलिए अगर आप पर्याप्त सक्षम हैं, तो Engineering PhD program में दाखिला लेना ज्यादा आसान होता है
  Engineering साथ में पढ़ने वाला मेरा एक दोस्त निराश होकर journalism में जाना चाहता था और उसने university के Communications program में transfer के लिए apply किया, लेकिन competition इतना कड़ा था कि वे साल में 10 से भी कम लोगों को लेते थे, और आखिरकार वह reject हो गया
- Australia में हम आम तौर पर undergraduate competition को पिछले साल admit हुए students की न्यूनतम ATAR rank से समझते हैं
  लेकिन competition को admitted students की संख्या / applicants की संख्या, यानी acceptance ratio, के रूप में भी देखा जा सकता है
  अगर किसी बेहद popular major में high ATAR applicants का अनुपात असंतुलित रूप से कम हो, तो मेरे हिसाब से ये दोनों metrics एक साथ सही हो सकते हैं
- मैं भी पढ़कर हैरान हुआ
  यहां जो देखा जा रहा है वह acceptance rate = admitted students / applicants है, और शायद जवाब यह है कि यह conceptual sense में overall difficulty जैसा नहीं है
  Maths graduate school में apply करने वाले लोग वही होते हैं जिन्होंने Maths bachelor's में अच्छे grades पाए हों या किसी दूसरे STEM major में काफी theoretical mathematics courses लिए हों
  Arts की तरफ ज्यादा diverse backgrounds वाले applicants आते हैं, और STEM से दूसरे क्षेत्रों में जाने वाले लोग भी इसके उलट की तुलना में कहीं ज्यादा होंगे
  खुद को यह मान लेना आसान है कि आपकी short story शानदार है, भले ही दूसरे सहमत न हों; लेकिन किसी math proof के objectively गलत होने पर भी खुद को यह समझाना ज्यादा मुश्किल है कि वह सही है
  इसलिए applicants की तरफ से self-selection कम होता है और acceptance rate घट जाता है
- Competition difficulty मापने का एक तरीका है, लेकिन दूसरे तरीके भी हैं
  Engineering departments में प्रवेश गुणात्मक रूप से ज्यादा कठिन होता है, और Humanities में मात्रात्मक रूप से ज्यादा कठिन होने की प्रवृत्ति होती है
वह visualization इतना असरदार था कि wiki पढ़ने की जरूरत ही नहीं पड़ी
सिर्फ उसे देखकर ही तुरंत समझ आ गया

सिम्पसन का विरोधाभास

घटना और नाम

UC Berkeley graduate admissions का उदाहरण

kidney stone treatment का उदाहरण

professional baseball batting average का उदाहरण

vectors से ratio reversal देखना

correlation और causal interpretation

Simpson का दूसरा विरोधाभास और causal graphs

आलोचना और practical implications

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय