Dunning-Kruger प्रभाव वास्तव में autocorrelation है

(economicsfromthetopdown.com)

1 पॉइंट द्वारा GN⁺ 2023-11-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

“कम कुशल लोग अपनी क्षमता को बढ़ा-चढ़ाकर आंकते हैं” वाला प्रसिद्ध पैटर्न मानव मनोविज्ञान की कोई स्थिर विशेषता होने के बजाय, परीक्षा स्कोर और self-assessment error को एक ही अक्ष पर मिलाने से बना सांख्यिकीय परिणाम हो सकता है
मुख्य बात autocorrelation है: जब परीक्षा स्कोर x और self-assessment y के अंतर y−x को फिर x से तुलना करते हैं, तो x समीकरण के दोनों तरफ आ जाता है और यादृच्छिक डेटा में भी वही आकार बन सकता है
Dunning और Kruger के 1999 के चार्ट में प्रतिभागियों को परीक्षा स्कोर के quartile के आधार पर बांटा गया था और वास्तविक स्कोर व perceived ability के percentile औसत की तुलना की गई थी, जिससे दोनों रेखाओं का अंतर किसी मनोवैज्ञानिक प्रभाव जैसा दिखता है
अगर यादृच्छिक रूप से बनाए गए “परीक्षा स्कोर” और “self-assessment” को भी इसी तरह प्रोसेस किया जाए, तो Dunning-Kruger जैसी वक्ररेखा बनाई जा सकती है जिसमें low performers अतिआत्मविश्वासी और high performers विनम्र दिखते हैं
Nuhfer आदि की 2016 और 2017 की आलोचनाओं तथा Gignac और Zajenkowski की 2020 की आलोचना ने इसी समस्या की ओर इशारा किया, लेकिन इन तीनों आलोचनात्मक शोधपत्रों को Google Scholar पर कुल 88 citations मिले, जबकि मूल शोधपत्र को 7,893 citations मिले

Dunning-Kruger प्रभाव को सांख्यिकीय नज़रिए से दोबारा देखना

Dunning-Kruger प्रभाव 1999 में Justin Kruger और David Dunning के शोध से प्रसिद्ध हुआ, और यह कम क्षमता वाले लोगों द्वारा अपनी क्षमता को बढ़ा-चढ़ाकर आंकने की प्रवृत्ति को दर्शाता है
इस आलोचना का केंद्र यह है कि यह प्रभाव किसी मनोवैज्ञानिक घटना से अधिक autocorrelation के कारण डेटा में बार-बार दिखाई देता है
autocorrelation वह स्थिति है जिसमें किसी चर का संबंध उसी से स्थापित किया जाता है
- अपने शुद्ध रूप में यह “5 = 5” जैसी स्पष्ट circularity है
- लेकिन जब वही चर समीकरण के दोनों तरफ मिला हुआ हो, तो यह तुरंत दिखता नहीं है
उदाहरण के लिए, यदि x और y एक-दूसरे से असंबंधित हों और z = x + y बनाया जाए, तो z और x का correlation निकालने पर x दोनों तरफ होने से ऐसा लग सकता है कि कोई संबंध मौजूद है

मूल Dunning-Kruger चार्ट की संरचना

Dunning और Kruger ने प्रतिभागियों से skill test कराया और फिर उनसे अपनी क्षमता का आकलन करवाया
चार्ट का x-axis परीक्षा स्कोर के आधार पर लोगों को 4 quartile समूहों में बांटने वाला categorical axis है
- ऊपर से देखने पर यह categorical axis लगता है, लेकिन वास्तव में यह परीक्षा स्कोर x की रैंकिंग दिखाता है
y-axis पर वास्तविक स्कोर और perceived ability को percentile में दिखाया गया है
gray line प्रत्येक quartile समूह के वास्तविक परीक्षा स्कोर के औसत percentile को दिखाती है
- वस्तुतः यह x को x के विरुद्ध प्लॉट करने जैसा है
black line प्रत्येक समूह के self-assessment के औसत percentile को दिखाती है
- यह self-assessment y को परीक्षा स्कोर x के विरुद्ध प्लॉट करने वाली संरचना है

दो रेखाओं का अंतर कैसे autocorrelation बनाता है

Dunning-Kruger चार्ट में सबसे प्रमुख हिस्सा “perceived ability” और “actual test score” के बीच का अंतर है
गणितीय रूप से यह अंतर y−x है
- y = self-assessment
- x = actual test score
जब इस अंतर को x-axis वाले x के संदर्भ में पढ़ते हैं, तो संबंध (y−x) ~ x बन जाता है
यहां x समीकरण के दोनों तरफ मौजूद है, इसलिए x की तुलना उसके अपने नकारात्मक रूप से होने जैसी autocorrelation पैदा होती है
इसलिए x और y में मनोवैज्ञानिक अर्थ न रखने वाले पूरी तरह यादृच्छिक संख्याएं डालने पर भी, इसी संरचना वाला चार्ट Dunning-Kruger प्रभाव जैसा पैटर्न दिखा सकता है

यादृच्छिक डेटा भी वही पैटर्न बना सकता है

एक काल्पनिक पुनरुत्पादन प्रयोग में मान लें कि 1,000 लोगों से परीक्षा स्कोर और self-assessment लिया गया
यदि प्रत्येक व्यक्ति के परीक्षा स्कोर और self-assessment को सीधे scatter plot में दिखाया जाए, तो डेटा पूरी तरह यादृच्छिक लगेगा और Dunning-Kruger प्रभाव का कोई संकेत नहीं होगा
इसके बाद self-assessment error निकाला जाता है
- self-assessment error = self-assessment − परीक्षा स्कोर
इस error की तुलना परीक्षा स्कोर से करने पर एक मजबूत संबंध दिखाई देता है
- low performers बहुत ज्यादा अतिआत्मविश्वासी दिखते हैं
- high performers जरूरत से ज्यादा विनम्र दिखते हैं
इसी डेटा को Dunning-Kruger शैली के चार्ट में डालने पर मूल परिणाम से भी बड़ा प्रभाव दिखाने वाली वक्ररेखा बनाई जा सकती है
लेकिन यदि यह डेटा वास्तविक प्रयोगात्मक मान न होकर यादृच्छिक संख्याएं हों, तो दिखने वाला पैटर्न किसी मनोवैज्ञानिक प्रभाव का नहीं बल्कि सांख्यिकीय संरचना का परिणाम है

Nuhfer आदि की वैकल्पिक जांच

सांख्यिकीय रूप से वैध तरीके से दो datasets का correlation निकालने के लिए दोनों measurements का स्वतंत्र रूप से मापा जाना जरूरी है
Dunning-Kruger चार्ट परीक्षा स्कोर को दोनों पक्षों में मिलाकर इस सिद्धांत का उल्लंघन करता है
Edward Nuhfer और उनके सहकर्मियों ने जांचा कि जब “skill” को परीक्षा प्रदर्शन या self-assessment से स्वतंत्र तरीके से मापा जाए, तो प्रभाव कैसे बदलता है
Nuhfer के विश्लेषण में x-axis पर education level और y-axis पर self-assessment error रखा गया
- हर बिंदु एक व्यक्ति को दर्शाता है
- औसत self-assessment error को हरे रंग के bubble से दिखाया गया
यदि Dunning-Kruger प्रभाव वास्तव में मौजूद हो, तो education level बढ़ने के साथ self-assessment error में गिरावट की प्रवृत्ति दिखनी चाहिए
उस परिणाम में ऐसी कोई प्रवृत्ति नहीं दिखती, और औसत assessment error लगभग 0 के पास बना रहता है
हालांकि education level बढ़ने के साथ self-assessment error का variance घटने की प्रवृत्ति दिखती है
- professors, first-year students की तुलना में, अपनी क्षमता का अधिक सटीक आकलन करते हैं
- यह औसत overconfidence bias वाले Dunning-Kruger प्रभाव से अलग घटना है

percentile conversion से जुड़ने वाला अतिरिक्त bias

percentile conversion, autocorrelation के अलावा एक और bias जोड़ता है
percentile में 0 और 100 की floor और ceiling होती है
- floor के पास मौजूद व्यक्ति के लिए अपनी रैंक को उससे भी कम आंकना मुश्किल होता है
- ceiling के पास मौजूद व्यक्ति के लिए अपनी रैंक को उससे भी अधिक बढ़ाकर आंकना मुश्किल होता है
इस संरचना की वजह से low performers आसानी से अतिआत्मविश्वासी और high performers विनम्र दिख सकते हैं
साथ ही, test score percentile और test score quartile की तुलना करने वाली रेखा वास्तविक परीक्षा स्कोर के बारे में बहुत कम अतिरिक्त जानकारी देती है, क्योंकि परिभाषा के अनुसार हर quartile में 25 percentile शामिल होते हैं

यह आलोचना व्यापक रूप से क्यों नहीं फैल पाई

Dunning और Kruger का मूल शोधपत्र 1999 में प्रकाशित हुआ था
इस विश्लेषणात्मक खामी को पर्याप्त रूप से 2016 में जाकर समझा गया और व्यवस्थित किया गया
Edward Nuhfer और सहकर्मियों के आलोचनात्मक शोधपत्र 2016 और 2017 में आए, और Gilles Gignac तथा Marcin Zajenkowski ने 2020 में इसी तरह की आलोचना प्रकाशित की
Google Scholar के अनुसार, इन तीन आलोचनात्मक शोधपत्रों को कुल 88 citations मिले, जबकि Dunning और Kruger के 1999 के शोधपत्र को 7,893 citations मिले
गलत विश्लेषण के खंडन अक्सर मूल शोधपत्र की तुलना में कम जाने जाते हैं, और वे कई बार उस जर्नल की तुलना में कम दिखाई देने वाली जगहों पर प्रकाशित होते हैं जिसमें मूल शोधपत्र छपा था
प्रसिद्ध Dunning-Kruger चार्ट “अनाड़ी लोग जो यह नहीं जानते कि वे अनाड़ी हैं” से अधिक, autocorrelation को मनोवैज्ञानिक प्रभाव समझ लेने वाली विश्लेषणात्मक त्रुटि का उदाहरण लगता है

1 टिप्पणियां

GN⁺ 2023-11-26

Hacker News की टिप्पणियाँ

इस व्याख्या पर भरोसा करना मुश्किल है, और यह खंडन इसे बेहतर तरीके से समझाता है: https://andersource.dev/2022/04/19/dk-autocorrelation.html
मुख्य बात यह है कि यह autocorrelation व्याख्या पहले दिखाती है कि “अगर प्रदर्शन और प्रदर्शन का आकलन यादृच्छिक और स्वतंत्र हों, तो D-K ग्राफ जैसी आकृति निकलती है”, और फिर कहती है कि इसलिए यह प्रभाव सिर्फ autocorrelation है
लेकिन वास्तव में प्रदर्शन और self-assessment के स्वतंत्र होने की उम्मीद करना ही ज्यादा अजीब है। उम्मीद यही होगी कि लोग अपनी क्षमता का कुछ हद तक सही आकलन कर सकें, और D-K ने भी दोनों के बीच सहसंबंध दिखाया था, बस वह अपेक्षा जितना मजबूत नहीं था। दिलचस्प नतीजा सुसंगत bias है; उसके कारणों पर बहस हो सकती है, लेकिन यह अनदेखा नहीं करना चाहिए कि इन variables के स्वतंत्र होने की अपेक्षा नहीं की जाती
- अगर sample size को सांख्यिकीय रूप से पर्याप्त मानें, तो मूल paper साफ तौर पर दो बातें दिखाता है
  औसतन लोगों ने अपनी क्षमता को random simulation के 50वें percentile पर नहीं, बल्कि वास्तविक परिणामों के आधार पर लगभग 65वें percentile पर आंका, और self-assessment वास्तविक क्षमता के साथ बढ़ता है, लेकिन हैरान करने वाली तरह से बहुत थोड़ा बढ़ता है। लेखक की “autocorrelation” चर्चा असल मुद्दे से भटकाने वाली है, और random-generated नतीजे मूल paper के नतीजों से मेल नहीं खाते। बेशक reproducibility कितनी मजबूत है, यह अलग सवाल है, लेकिन visualization का तरीका अपने आप में खराब नहीं है; हालांकि variance bars होतीं तो बेहतर होता
- D-K प्रभाव के मूल रूप और पॉप कल्चर में मौजूद D-K प्रभाव के बीच का फर्क ही शायद सबसे बड़ा real-time D-K उदाहरण लगता है
  मूल नतीजे का दिलचस्प हिस्सा यह है कि वास्तविक प्रदर्शन और perceived performance के बीच का सहसंबंध सहज अनुमान से कम है। लेकिन जैसे-जैसे पॉप कल्चर वाला D-K प्रभाव फैला, सामूहिक intuition भी बदल गई, और अब अगर इंटरनेट पर किसी भी व्यक्ति को मूल D-K प्रभाव समझाया जाए, तो वह शायद यह सुनकर दिलचस्पी ले कि “सहसंबंध सोच से ज्यादा बड़ा है।” क्योंकि वह शायद मानकर चल रहा होगा कि सहसंबंध नकारात्मक होगा
- सही है। तो संक्षेप में, अगर data सचमुच random हो और कोई सहसंबंध न हो, तो रेखा बीच में सपाट होनी चाहिए, यानी 1st quartile भी 50% और 4th quartile भी 50% होना चाहिए
  अगर data 100% सही और precise हो [1], तो रेखा diagonal होगी और 1st quartile लगभग 12.5%, 4th quartile लगभग 87.5% होना चाहिए। अगर data accurate हो लेकिन precise न हो, तो randomness बढ़ने के साथ वह diagonal रेखा बीच की सपाट रेखा में बदलती जाएगी और 50% पर intersect करेगी। लेकिन वास्तव में जो दिखता है, वह इनमें से कोई नहीं है: 1st quartile लगभग 60% है और 4th quartile लगभग 75%। यह दिखाता है कि self-assessment की कुछ क्षमता मौजूद है, लेकिन वह चूकती है। ऊपर वाला quartile ऊपर की सीमा से कटने के असर के कारण कम आकलन जैसा दिख सकता है, लेकिन निचले quartile का overestimation टालना मुश्किल है
  [1] https://en.wikipedia.org/wiki/Accuracy_and_precision
- लेखक पहले निष्कर्ष मान लेता है और फिर तय करता है कि data का विश्लेषण कैसे करना है
  एक तरफ वह कहता है कि “यह मानना कहीं अधिक तर्कसंगत है कि लोग अपने प्रदर्शन का आकलन कर सकते हैं”, और दूसरी तरफ यह भी कहता है कि “कौशल जितना अधिक होगा, व्यक्ति अपने प्रदर्शन का उतना बेहतर आकलन करेगा—इस दावे से मुझे आपत्ति नहीं है”; ऐसे में उस पर भरोसा बनाए रखना कठिन हो जाता है। वह मुख्य variable को स्थिर मानकर चलता है, लेकिन उसी dataset में यह भी मान लेता है कि वह variable बदलता है, इसलिए आंतरिक सुसंगतता की कमी दिखती है
- मूल D-K paper [1] में मैंने दो दिलचस्प बातें देखीं जो इस तर्कसंगत आपत्ति को हिला देती हैं
  वह चिकनी linear graph जिसे सब लोग D-K से जोड़ते हैं, चार में से सिर्फ एक है; बाकी तीन कहीं ज्यादा बिखरी हुई हैं, और paper खुद उन मामलों पर चर्चा करता है जहाँ सहसंबंध कमजोर है या बिल्कुल नहीं है। ऊपर से, वह सबसे “परफेक्ट” दिखने वाला graph humor sense माप रहा था। humor ऐसा क्षेत्र है जहाँ self-assessment और expert assessment—यहाँ पेशेवर comedians के आकलन—के बीच लगभग पूरी तरह noise होना संभव है। अगर सभी लोग मूलतः अपने प्रदर्शन का अनुमान random तरीके से लगा रहे हों, तो top performers के लिए underestimation और bottom performers के लिए overestimation वाली मजबूत D-K आकृति हमेशा निकलेगी। intelligence को सबसे सरल और प्रत्यक्ष तरीके से मापने की कोशिश वाला experiment LSAT logical problems पर आधारित नंबर 2 था, और उसका result graph बहुत उतार-चढ़ाव वाला है। paper में यह भी लिखा है कि “प्रतिभागियों ने सही हल किए गए प्रश्नों की संख्या को बढ़ा-चढ़ाकर नहीं आंका, और अपनी क्षमता की धारणा का वास्तविक क्षमता से सकारात्मक संबंध था, लेकिन वह सांख्यिकीय रूप से महत्वपूर्ण नहीं था।” यह एक और Zimbardo जैसा लगता है
  [1] - https://sci-hub.se/10.1037/0022-3514.77.6.1121
लेखकों ने “X - Y बनाम X” किया, लेकिन बड़ी समस्या यह है कि उन्होंने 0 से 1 में बदले गए और सीमाबद्ध दो मापों को घटाया।
सीमा के ऊपरी छोर पर कोई शीर्ष performer अपने प्रदर्शन को कितना अधिक आँक सकता है? वह पहले से ही लगभग 1 पर है, इसलिए बहुत ज़्यादा नहीं। भले ही raw values के आधार पर overestimation और underestimation समान आवृत्ति और परिमाण में हों, बदले हुए मानों में ceiling effect के कारण ग्राफ ऐसा दिखेगा मानो शीर्ष performer अधिक बार खुद को कम आँक रहे हों। सबसे निचले performer के लिए इसका उलटा होता है। “Random Number Simulations Reveal How Random Noise Affects the Measurements and Graphical Portrayals of Self-Assessed Competency.” Numeracy 9, Iss. 1 (2016) के Figure 7, 8, 9 देखें
- मेरे मन में भी बिल्कुल यही बात आई। केवल regression to the mean ही नहीं, उसके बिना भी D-K effect के अलावा कोई और नतीजा निकलना मुश्किल लगता है।
  सबसे निचला quartile यह नहीं कह सकता कि वह सबसे निचले quartile से भी नीचे है, इसलिए किसी भी error को “overconfidence” के रूप में दर्ज किया जाएगा। सबसे ऊपरी quartile यह नहीं कह सकता कि वह सबसे ऊपरी quartile से भी ऊपर है, इसलिए किसी भी error को “underconfidence” के रूप में दर्ज किया जाएगा
- अगर हर skill level के लोग अपनी क्षमता को काफ़ी सही मापते, तो दोनों curves मोटे तौर पर एक-दूसरे पर चढ़ी हुई दिखनी चाहिए थीं, लेकिन वास्तव में दिया गया ग्राफ सामने आता है।
  यह तथ्य कि random noise Y-axis की average curve बना सकता है, इसका मतलब यह नहीं कि D-K मौजूद नहीं है। इसका मतलब सिर्फ़ इतना है कि D-K का average self-analysis किसी मध्यम स्तर के random average जैसा दिखता है, और सोचें तो यह समझ में आता है। ज़्यादातर लोग, अपनी वास्तविक क्षमता चाहे जो हो, खुद को औसत मानने की संभावना रखते हैं, इसलिए D-K अब भी वैध लगता है
- extremes को काटने से इसे कुछ हद तक संभाला जा सकता है। लिंक किए गए लेख के ग्राफ में भी केवल middle quartiles देखें तो वही रुझान दिखता है
- log-normality social scientists की methodology के लिए घातक हो सकती है।
  अगर हम underlying mechanism मानें, तो टेस्ट में भाग लेने वालों की raw ability log-normal distribution का पालन कर सकती है। टेस्ट में शामिल होना ही शायद IQ की एक implicit lower bound मानता है, और sports जैसे high-performance domains में long tail भी होती है। टेस्ट प्रदर्शन को मापने की कोशिश करता है, लेकिन उसे normal distribution या 4 categories में समेट देता है; लोग task और grading के अनुभव के आधार पर अपनी क्षमता का अनुमान लगाते हैं, जो फिर normal distribution या constant distribution में सिमट जाता है। यानी dimension reduction implicit और explicit रूप से तीन जगह हो रहा है, इसलिए इस प्याज़ की परतें खोलने वाले researchers से मुझे ईर्ष्या नहीं है। फिर भी, accessible तरीक़े से डिज़ाइन किए गए experiments में इन समस्याओं का खुलकर सामने आना समझ को बेहतर बनाता है
- डेटा की boundedness भी यहाँ एक मुख्य तर्क है: https://www.frontiersin.org/articles/10.3389/fpsyg.2022.8401...
पोस्ट की टिप्पणियों में Nicolas Boneel और लेखक के बीच की बहस दिलचस्प है, और पढ़ते समय जो संदेह मेरे मन में आया था उसे Nicolas ने अच्छी तरह व्यक्त किया।
D-K effect का सार यह है कि लोग अपनी क्षमता का अनुमान लगाने में कमजोर होते हैं, इसलिए अगर मान लें कि वे skill level का अनुमान random तरीके से लगाते हैं, तो नतीजा स्वाभाविक रूप से दोहराया जाएगा। D-K के बिना दुनिया का सही model लगभग estimated test score = actual test score + noise होना चाहिए, और तब जो fake D-K दिखेगा वह केवल minimum-maximum score boundaries की वजह से होगा। यह effect noise variance के अनुपात में होना चाहिए, लेकिन अतिरिक्त dataset का variance इतना कम लगता है कि observed effect को पूरी तरह समझा सके। और इस model में औसतन सबको कम से कम यह तो सही बताना चाहिए कि वे distribution के किस आधे हिस्से में हैं, लेकिन सबसे निचले quartile ने भी शायद अपनी क्षमता 50th percentile या उससे ऊपर आँकी
- सही model शायद estimated test score + estimation noise = actual test score + test noise होगा।
  टेस्ट में guessing जैसे random elements होते हैं, और व्यक्ति उनका अनुमान नहीं लगा सकता।
  https://en.m.wikipedia.org/wiki/Regression_dilution
  https://en.m.wikipedia.org/wiki/Errors-in-variables_models
- सिर्फ़ इसलिए कि डेटा random जैसा दिखता है, इसका मतलब यह नहीं कि हम कारण तक पहुँच गए।
  वे charts कुल मिलाकर low skill को दिखा सकते हैं, या नीचे के स्तर पर estimation ability की कमी, बीच में उसका सुधार, और ऊपर के स्तर पर high skill तथा सीखी हुई विनम्रता के मिश्रण जैसी ज़्यादा सूक्ष्म संरचना भी हो सकती है
- यह इस पर निर्भर करता है कि कौन-सा noise लगाया गया। अगर सब पर -10% से +100% का noise लगाया जाए, तो Dunning-Kruger द्वारा प्राप्त ग्राफ के क़रीब-क़रीब वही shape मिलती है।
  इसलिए यह मानने की कोई वजह नहीं कि सबसे अच्छे performer अपनी क्षमता का बेहतर अनुमान लगाते हैं; बस उन पर यह बाधा होती है कि वे अपनी rank को सबसे ऊपर से भी ऊँचा नहीं आँक सकते
गैर-मानक terminology से सावधान रहें: लेखक autocorrelation शब्द का इस्तेमाल ऐसे तरीके से कर रहा है जैसा मैंने पहले कभी नहीं देखा।
आमतौर पर autocorrelation से मतलब होता है किसी time series का अपने ही shifted version के साथ संबंध। मूल लेख की तरह इसका उपयोग statistics जानने वालों को भ्रमित कर सकता है, और उलटा भी सच है
- नरमी से कहें तो यह nonstandard terminology है; अधिक सटीक रूप से कहें तो यह autocorrelation के मूल आशय को बिगाड़ देता है, क्योंकि यह temporal relationship को स्पष्ट नहीं करता।
  लेख कहता है कि “autocorrelation तब होती है जब किसी variable को उसी variable के साथ correlate किया जाता है”, लेकिन standard definition इससे अधिक इस तरह है: “एक ही variables के बीच लगातार दो time intervals में correlation की डिग्री”; यह time series में lagged values का मूल मानों से संबंध मापने की अवधारणा है, और इसे serial correlation भी कहा जाता है
- autocorrelation सबसे ज़्यादा time series में ही दिखाई देती है, लेकिन उस संदर्भ में भी लेखक की बात पूरी तरह ग़लत नहीं है।
  time-series autocorrelation में उसी time-series function को अलग-अलग समय बिंदुओं पर संबंधित किया जाता है। सबसे सरल रूप में X[i] = f(t[i]) वाले array X को X के साथ plot किया जा सकता है, और आगे बढ़कर moving average जैसी transformation g(X) बनाम X के रूप में इसे अधिक जटिल भी बनाया जा सकता है
- मैं जानना चाहता हूँ कि लेखक जिस बात की ओर इशारा कर रहा है, उसके लिए कौन-सा term उपयुक्त होगा
अगर लेखक द्वारा वर्णित उस काल्पनिक दुनिया की कल्पना करें, जहाँ लोगों का अपने स्कोर का अनुमान वास्तविक स्कोर से स्वतंत्र है, तो क्या उस दुनिया में D-K प्रभाव वास्तव में मौजूद है ऐसा कहना ठीक नहीं होगा?
इस प्रभाव का मूल यह है कि कम स्कोर पाने वाले लोग अपने स्कोर को ज़्यादा आँकते हैं और अधिक स्कोर पाने वाले लोग उसे कम आँकते हैं। ऐसा होने के कई तर्कसंगत कारण हो सकते हैं, और इनमें लेखक के toy example की तरह वह स्थिति भी शामिल हो सकती है जहाँ किसी को भी अपने स्कोर का ठीक अंदाज़ा नहीं होता, लेकिन घटना स्वयं तो सही लगती है
- यही तो असली मुद्दा है
  लेखक का random point example अच्छा नहीं है, क्योंकि यह अपेक्षा करना तर्कसंगत है कि लोग uniform random points की तरह व्यवहार नहीं करेंगे। जो किसी काम में अच्छे होते हैं, वे आम तौर पर मानेंगे कि वे अच्छे हैं, और जो कमजोर होते हैं, वे मानेंगे कि वे कमजोर हैं। हमारे बच्चे गणित पसंद करते हैं और सोचते हैं कि वे गणित की परीक्षा में अच्छा करेंगे, और आम तौर पर वे सचमुच अच्छा करते भी हैं। उनकी कक्षा में कुछ बच्चे ऐसे भी हैं जो ज़ोर देकर कहते हैं कि उन्हें गणित पसंद नहीं है, वे अच्छा नहीं करेंगे, और वास्तव में कुछ हद तक खराब भी करते हैं। मैं भी खाना बनाने में अच्छा नहीं हूँ, इसलिए अगर मैं cooking competition में जाऊँ तो कम जजिंग स्कोर मिलेगा, इस पर मुझे कोई संदेह नहीं। अपेक्षित डेटा correlated होता है। लेकिन अगर किसी अध्ययन में यह सहसंबंध वास्तव में लगभग न के बराबर हो, और बहुत से लोग जो सोचते थे कि वे अच्छा करेंगे, खराब करें, और बहुत से लोग जो सोचते थे कि वे खराब करेंगे, अच्छा करें — यानी डेटा uniform random data जैसा दिखे — तो क्या वह चौंकाने वाला परिणाम और D-K प्रभाव नहीं होगा? मैं सांख्यिकीविद् नहीं हूँ, इसलिए हो सकता है मुझसे कुछ छूट रहा हो
- अगर यह सांख्यिकीय भ्रम भी हो, तब भी यह सहसंबंध सच है, लेकिन फिर मनोवैज्ञानिकों के पास उसका अध्ययन करने का कारण नहीं बचेगा
  आप एक पासा फेंकें, फिर दूसरा पासा फेंकें, और उसके बाद यह अध्ययन करें कि दूसरा पासा पहले के साथ मिलकर 7 क्यों बनाना चाहता है। पासों के मामले में हम इसे मूर्खतापूर्ण विचार कहकर हटा देंगे, लेकिन जब विषय मनुष्य हों, तो उनके बारे में मनोवैज्ञानिक सिद्धांतों की ओर गलत ढंग से खिंच जाना आसान है
यहाँ लेख में autocorrelation की परिभाषा “जब किसी variable को उसी के साथ correlate किया जाता है” जैसी दी गई है, लेकिन Wikipedia की परिभाषा है: “discrete time में इसे serial correlation भी कहते हैं, और यह signal को उसके delayed copy के साथ, delay के एक function के रूप में correlate करना है”
बेशक delay 0 time delay का एक trivial case है, लेकिन लेख की परिभाषा उदारतापूर्वक कहें तो भी सटीक नहीं है। D-K का time delay से कोई लेना-देना नहीं है, और इसे autocorrelation कहना कुछ कमज़ोर शब्द-खेल जैसा लगता है
- निष्पक्षता से कहें तो geostatistics में spatial autocorrelation भी होता है, इसलिए autocorrelation शब्द का अर्थ यह ज़रूरी नहीं कि बदलाव का आयाम समय ही हो
यहाँ शायद “bias” का क्या मतलब है, इसे लेकर भ्रम है
अगर लोग अपने बारे में random self-assessment करें, तो top performers सभी अपने को कम आँकेंगे, लेकिन चूँकि चयन स्वयं random है, इसलिए यह underestimation की दिशा में bias नहीं है। हाँ, D-K chart एक अलग bias दिखाता है, और वह अपेक्षाओं से मोटे तौर पर मेल खाता है। जिन लोगों के पास ज्ञान नहीं है, वे खुद को औसत क्षमता वाला मानकर अपनी स्थिति बढ़ा-चढ़ाकर देखते हैं, और बहुत उत्कृष्ट लोग यह मान लेते हैं कि दूसरे भी लगभग उतना ही जानते हैं, इसलिए वे खुद को सर्वोच्च नहीं मानते। दोनों समूहों की साझा धारणा यह है कि वे स्वयं सामान्य हैं और दूसरे भी लगभग वैसे ही हैं। संभवतः अधिकांश लोग खुद को average मानते होंगे; अगर उनसे यह आकलन कराया जाए कि average व्यक्ति परीक्षा में कितना अच्छा करेगा, और फिर उसकी तुलना उनके व्यक्तिगत स्कोर से की जाए, तो इसे आसानी से परखा जा सकता है। लगभग निश्चित रूप से top performers average को ज़्यादा आँकेंगे और bottom performers कम आँकेंगे
अगर परीक्षा स्कोर X, यानी क्षमता, और self-assessment Y, यानी self-awareness, के बीच linear संबंध है, तो random variable को Y ~ aX + b + N के रूप में model किया जा सकता है
यहाँ N mean 0 वाला सांख्यिकीय रूप से independent noise है। तब covariance Cov(Y-X, X) = (a-1) Var[X] होगा, और “D-K effect” पाने के लिए (a-1) < 0, यानी a < 1 होना चाहिए। ब्लॉग पोस्ट की तरह a=0 हो तो यह निश्चित रूप से सही है, और ideal case a=1, b=0 में यह बस-बस सही नहीं रहता। a > 1 हो तो overconfident experts के बारे में एक बिल्कुल नया प्रभाव पैदा होता है। इसलिए इस autocorrelation दृष्टिकोण से महत्वपूर्ण बात सिर्फ यह है कि क्षमता बढ़ने पर व्यक्ति का self-assessment कितनी तेज़ी से बढ़ता है। जब तक वृद्धि को कम आँका जाता है, D-K effect पैदा होगा। लेकिन यह analysis b को नज़रअंदाज़ करता है। अगर a=0.8, b=0 हो, तो autocorrelation दृष्टिकोण से यह ठीक बैठेगा, लेकिन चूँकि हर कोई अपनी क्षमता को कम आँक रहा है, इसलिए तथाकथित D-K effect दिखाई नहीं देगा। अंततः b — यानी वह prior ability value जिसे हर कोई अपने लिए मान लेता है — महत्वपूर्ण है। D-K paper जो दिखाता है वह b > .5 है, और यह लोकप्रिय व्याख्या की भावना से मेल खाता है। लोगों को यह मानकर नहीं चलना चाहिए कि उनमें कम-से-कम average से ऊपर की क्षमता है। साथ ही b, .5 से बेतुका रूप से अधिक भी नहीं है, इसलिए “अनुभवहीन और अनजान लोगों” के लिए कुछ गुंजाइश छोड़ने का मन भी करता है। baseline को average मानना व्यवहार में संभव नहीं, लेकिन सहज रूप से कुछ विश्वसनीय लगता है
वह autocorrelation नहीं है। मूल लेख linear dependence को autocorrelation के बराबर मान रहा है, लेकिन इस शब्द का ऐसा उपयोग नहीं होता
autocorrelation का मतलब है कि कोई stochastic process अपने ही time-delayed version के साथ correlated हो
लगता है बहुत से लोगों ने मूल लेख पूरा पढ़ा ही नहीं। असली बात इस paper का हवाला देने पर सामने आती है: https://digitalcommons.usf.edu/cgi/viewcontent.cgi?article=1...
इस paper की figure 2 ऐसे experiment के परिणाम दिखाती है जिसमें skill और अपनी skill की perception को स्वतंत्र रूप से मापा गया था। यह design autocorrelation जैसे सांख्यिकीय artifact को हटाने के लिए था। लेकिन औसतन skill का self-assessment accuracy से कोई सहसंबंध नहीं है, और D-K effect भी बिल्कुल नहीं है। वास्तव में जो दिखता है वह बस इतना है कि अधिक सक्षम लोग अपनी skill का अनुमान अधिक consistently लगाते हैं — यानी उनके आकलन में variance कम होता है — जबकि average accuracy अब भी 0 रहती है। इसलिए औसतन वास्तविक skill और perceived skill के बीच कोई correlation नहीं है, और random numbers जैसे दिखने वाले numerical proof का मतलब भी यही है। इसी कारण बहुत-से मामलों में Occam’s razor लागू करने का मन होता है

Dunning-Kruger प्रभाव वास्तव में autocorrelation है

Dunning-Kruger प्रभाव को सांख्यिकीय नज़रिए से दोबारा देखना

मूल Dunning-Kruger चार्ट की संरचना

दो रेखाओं का अंतर कैसे autocorrelation बनाता है

यादृच्छिक डेटा भी वही पैटर्न बना सकता है

Nuhfer आदि की वैकल्पिक जांच

percentile conversion से जुड़ने वाला अतिरिक्त bias

यह आलोचना व्यापक रूप से क्यों नहीं फैल पाई

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की टिप्पणियाँ