सरल डेटा पर least squares fit लागू करने पर यह पक्षपाती क्यों दिखाई देता है

(stats.stackexchange.com)

1 पॉइंट द्वारा GN⁺ 2026-01-06 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Linear least squares regression line साधारण test data पर वास्तविकता की तुलना में अधिक झुकी हुई क्यों दिखती है, इसका कारण data generation process की विशेषताएँ हैं
Regression model यह मानकर चलता है कि error term, X से independent है, और इसका रूप ( Y = \beta_0 + \beta_1 X + \varepsilon ) होता है
जैसे-जैसे error variance बढ़ती है, डेटा का variance vertical दिशा में बढ़ता है, और PCA के principal component की दिशा धीरे-धीरे vertical के अधिक करीब चली जाती है
इसके विपरीत, जब X का variance error से बहुत बड़ा होता है, तब PCA और OLS regression line लगभग एक जैसी हो जाती हैं
यह अंतर इसलिए आता है क्योंकि PCA और OLS के उद्देश्य अलग हैं (variance को अधिकतम करना बनाम error को न्यूनतम करना), और डेटा के distribution shape के अनुसार दृश्य रूप से अलग परिणाम दिखाई देते हैं

Regression model और data generation process

सरल OLS (least squares method) का रूप ( Y = \beta_0 + \beta_1 X + \varepsilon ) होता है, और यह X तथा error term (\varepsilon) के independent होने की धारणा पर आधारित है
जब error term 0 होता है, तो सभी बिंदु regression line पर स्थित होते हैं, और PCA के principal component की दिशा regression line के समान होती है
Error जोड़ने पर variance vertical दिशा में बढ़ता है, और PCA इस variance को प्रतिबिंबित करते हुए अधिक तीव्र ढाल वाली दिशा को principal component के रूप में चुनता है

संबंध ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) में
यदि ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) हो, तो अधिकांश परिवर्तन vertical दिशा में केंद्रित हो जाता है
इस स्थिति में PCA के principal component की दिशा लगभग vertical के करीब हो जाती है, यानी वह regression line की तुलना में अधिक steep दिखती है
इसके विपरीत, यदि ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) हो, तो PCA और OLS लगभग एक जैसे हो जाते हैं

Covariance ellipse केवल तब डेटा के आकार को अच्छी तरह दर्शाता है जब ( (X, Y) ) joint normal distribution का पालन करते हों
X का distribution चाहे binomial, uniform, bimodal, triangular आदि क्यों न हो,
यदि X का variance बड़ा है तो PCA और regression line मेल खाते हैं, और यदि error बड़ा है तो PCA vertical दिशा की ओर खिसकता है
Ellipse डेटा की directionality दिखाता है, लेकिन density या वास्तविक distribution shape को सटीक रूप से व्यक्त नहीं करता

कोड में make_y_from_x फ़ंक्शन, OLS assumptions के अनुरूप, Y को X के linear function और IID Gaussian noise से उत्पन्न करता है
X का random variable होना अनिवार्य नहीं है; experimental design के अनुसार यह fixed values भी हो सकता है
Covariance ellipse, X और Y को symmetric तरीके से संभालता है, लेकिन वास्तविक data generation process asymmetric होती है

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA और OLS मेल खाते हैं
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA vertical दिशा की ओर खिसकता है
X का random variable होना आवश्यक नहीं है, और न ही उसका normal distribution का पालन करना आवश्यक है
PCA variance की दिशा पर केंद्रित है, जबकि OLS prediction error को न्यूनतम करने पर, इसलिए दोनों के परिणाम अलग दिखाई देते हैं