सरल डेटा पर least squares fit लागू करने पर यह पक्षपाती क्यों दिखाई देता है
(stats.stackexchange.com)- Linear least squares regression line साधारण test data पर वास्तविकता की तुलना में अधिक झुकी हुई क्यों दिखती है, इसका कारण data generation process की विशेषताएँ हैं
- Regression model यह मानकर चलता है कि error term, X से independent है, और इसका रूप ( Y = \beta_0 + \beta_1 X + \varepsilon ) होता है
- जैसे-जैसे error variance बढ़ती है, डेटा का variance vertical दिशा में बढ़ता है, और PCA के principal component की दिशा धीरे-धीरे vertical के अधिक करीब चली जाती है
- इसके विपरीत, जब X का variance error से बहुत बड़ा होता है, तब PCA और OLS regression line लगभग एक जैसी हो जाती हैं
- यह अंतर इसलिए आता है क्योंकि PCA और OLS के उद्देश्य अलग हैं (variance को अधिकतम करना बनाम error को न्यूनतम करना), और डेटा के distribution shape के अनुसार दृश्य रूप से अलग परिणाम दिखाई देते हैं
Regression model और data generation process
- सरल OLS (least squares method) का रूप ( Y = \beta_0 + \beta_1 X + \varepsilon ) होता है, और यह X तथा error term (\varepsilon) के independent होने की धारणा पर आधारित है
- जब error term 0 होता है, तो सभी बिंदु regression line पर स्थित होते हैं, और PCA के principal component की दिशा regression line के समान होती है
- Error जोड़ने पर variance vertical दिशा में बढ़ता है, और PCA इस variance को प्रतिबिंबित करते हुए अधिक तीव्र ढाल वाली दिशा को principal component के रूप में चुनता है
जब error variance हावी हो
- संबंध ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) में
यदि ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) हो, तो अधिकांश परिवर्तन vertical दिशा में केंद्रित हो जाता है - इस स्थिति में PCA के principal component की दिशा लगभग vertical के करीब हो जाती है, यानी वह regression line की तुलना में अधिक steep दिखती है
- इसके विपरीत, यदि ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) हो, तो PCA और OLS लगभग एक जैसे हो जाते हैं
Covariance ellipse और distribution shape
- Covariance ellipse केवल तब डेटा के आकार को अच्छी तरह दर्शाता है जब ( (X, Y) ) joint normal distribution का पालन करते हों
- X का distribution चाहे binomial, uniform, bimodal, triangular आदि क्यों न हो,
यदि X का variance बड़ा है तो PCA और regression line मेल खाते हैं, और यदि error बड़ा है तो PCA vertical दिशा की ओर खिसकता है - Ellipse डेटा की directionality दिखाता है, लेकिन density या वास्तविक distribution shape को सटीक रूप से व्यक्त नहीं करता
X की प्रकृति और modeling considerations
- कोड में
make_y_from_xफ़ंक्शन, OLS assumptions के अनुरूप, Y को X के linear function और IID Gaussian noise से उत्पन्न करता है - X का random variable होना अनिवार्य नहीं है; experimental design के अनुसार यह fixed values भी हो सकता है
- Covariance ellipse, X और Y को symmetric तरीके से संभालता है, लेकिन वास्तविक data generation process asymmetric होती है
मुख्य सारांश
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA और OLS मेल खाते हैं
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA vertical दिशा की ओर खिसकता है
- X का random variable होना आवश्यक नहीं है, और न ही उसका normal distribution का पालन करना आवश्यक है
- PCA variance की दिशा पर केंद्रित है, जबकि OLS prediction error को न्यूनतम करने पर, इसलिए दोनों के परिणाम अलग दिखाई देते हैं
1 टिप्पणियां
Hacker News की राय
इसके विपरीत, जब देखने में X और Y दोनों में noise माना जाता है, तो इसे Total Least Squares(TLS) कहा जाता है
इसलिए वे आम तौर पर Deming regression को ज़्यादा पसंद करने की बात सिखाते थे (Deming regression)
उदाहरण के लिए, अगर कोई sensor 1kHz पर sampling कर रहा ho, तो MCU के clock jitter की तुलना में sensor का अपना noise बहुत अधिक होगा
अगर x variance बहुत छोटा हो, तो delta बड़ा हो जाता है और condition number खराब वाला model बन सकता है
उदाहरण के लिए, analog-to-digital converter में समय quartz oscillator की वजह से स्थिर होता है, लेकिन measured value वैसी नहीं होती
1st power, 3rd power, 4th power जैसे दूसरे exponents भी हो सकते हैं, फिर square ही बार-बार क्यों आता है यह सवाल है
अगर error distribution अलग हो, तो कोई और loss function ज़्यादा उपयुक्त हो सकता है
उदाहरण के लिए Huber loss, छोटे errors पर square और बड़े errors पर linear की तरह काम करता है, इसलिए outliers के प्रति robust होता है
विस्तृत सूत्रों के लिए Boyd & Vandenberghe की Convex Optimization के पेज 352–353 देखें
साथ ही ANOVA, Pythagorean theorem पर आधारित है, इसलिए squared terms अनिवार्य हैं
Gauss–Markov theorem यह सुनिश्चित करता है कि यह estimator unbiased है और उसका variance न्यूनतम है
1 से छोटे exponents में एक बड़े error को कई छोटे errors की तुलना में पसंद करने जैसी अजीब विशेषता होती है
इसके विपरीत square गणितीय रूप से संभालना आसान है, और simple linear regression के numerical properties भी अच्छे हैं
4th power या उससे ऊपर के higher-order terms में local optima बहुत होते हैं, और differentiation जटिल हो जाती है, इसलिए computational simplicity घटती है
कोई नया दृष्टिकोण देना आसान नहीं है
इसे बस एक गणितीय observation के रूप में दिलचस्प कहा जा सकता है
पहला Y-axis दिशा में squared distances के sum को, और दूसरा रेखा के प्रति orthogonal distance के squared sum को minimize करता है
क्लास के दौरान यह देखकर मैं घबरा गया था। लगा था कि शायद normalization से यह ठीक हो जाए
सही slope जाँचने के लिए देखना चाहिए कि किसी विशेष x पर residual दोनों तरफ़ संतुलित हैं या नहीं
उदाहरण के लिए, अगर data को y = 1.5x + noise से बनाया जाए, तो regression line 1.5 slope को अच्छी तरह recover करती है, लेकिन देखने में अजीब लग सकती है
StackExchange का सवाल यह है कि X में error न होने पर भी regression line 3σ ellipse axis के साथ align क्यों नहीं होती
यह answer X error = 0 वाला उदाहरण दिखाता है