• Linear least squares regression line साधारण test data पर वास्तविकता की तुलना में अधिक झुकी हुई क्यों दिखती है, इसका कारण data generation process की विशेषताएँ हैं
  • Regression model यह मानकर चलता है कि error term, X से independent है, और इसका रूप ( Y = \beta_0 + \beta_1 X + \varepsilon ) होता है
  • जैसे-जैसे error variance बढ़ती है, डेटा का variance vertical दिशा में बढ़ता है, और PCA के principal component की दिशा धीरे-धीरे vertical के अधिक करीब चली जाती है
  • इसके विपरीत, जब X का variance error से बहुत बड़ा होता है, तब PCA और OLS regression line लगभग एक जैसी हो जाती हैं
  • यह अंतर इसलिए आता है क्योंकि PCA और OLS के उद्देश्य अलग हैं (variance को अधिकतम करना बनाम error को न्यूनतम करना), और डेटा के distribution shape के अनुसार दृश्य रूप से अलग परिणाम दिखाई देते हैं

Regression model और data generation process

  • सरल OLS (least squares method) का रूप ( Y = \beta_0 + \beta_1 X + \varepsilon ) होता है, और यह X तथा error term (\varepsilon) के independent होने की धारणा पर आधारित है
  • जब error term 0 होता है, तो सभी बिंदु regression line पर स्थित होते हैं, और PCA के principal component की दिशा regression line के समान होती है
  • Error जोड़ने पर variance vertical दिशा में बढ़ता है, और PCA इस variance को प्रतिबिंबित करते हुए अधिक तीव्र ढाल वाली दिशा को principal component के रूप में चुनता है

जब error variance हावी हो

  • संबंध ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) में
    यदि ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) हो, तो अधिकांश परिवर्तन vertical दिशा में केंद्रित हो जाता है
  • इस स्थिति में PCA के principal component की दिशा लगभग vertical के करीब हो जाती है, यानी वह regression line की तुलना में अधिक steep दिखती है
  • इसके विपरीत, यदि ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) हो, तो PCA और OLS लगभग एक जैसे हो जाते हैं

Covariance ellipse और distribution shape

  • Covariance ellipse केवल तब डेटा के आकार को अच्छी तरह दर्शाता है जब ( (X, Y) ) joint normal distribution का पालन करते हों
  • X का distribution चाहे binomial, uniform, bimodal, triangular आदि क्यों न हो,
    यदि X का variance बड़ा है तो PCA और regression line मेल खाते हैं, और यदि error बड़ा है तो PCA vertical दिशा की ओर खिसकता है
  • Ellipse डेटा की directionality दिखाता है, लेकिन density या वास्तविक distribution shape को सटीक रूप से व्यक्त नहीं करता

X की प्रकृति और modeling considerations

  • कोड में make_y_from_x फ़ंक्शन, OLS assumptions के अनुरूप, Y को X के linear function और IID Gaussian noise से उत्पन्न करता है
  • X का random variable होना अनिवार्य नहीं है; experimental design के अनुसार यह fixed values भी हो सकता है
  • Covariance ellipse, X और Y को symmetric तरीके से संभालता है, लेकिन वास्तविक data generation process asymmetric होती है

मुख्य सारांश

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA और OLS मेल खाते हैं
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA vertical दिशा की ओर खिसकता है
  • X का random variable होना आवश्यक नहीं है, और न ही उसका normal distribution का पालन करना आवश्यक है
  • PCA variance की दिशा पर केंद्रित है, जबकि OLS prediction error को न्यूनतम करने पर, इसलिए दोनों के परिणाम अलग दिखाई देते हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.