1 पॉइंट द्वारा GN⁺ 2026-01-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Linear least squares regression line साधारण test data पर वास्तविकता की तुलना में अधिक झुकी हुई क्यों दिखती है, इसका कारण data generation process की विशेषताएँ हैं
  • Regression model यह मानकर चलता है कि error term, X से independent है, और इसका रूप ( Y = \beta_0 + \beta_1 X + \varepsilon ) होता है
  • जैसे-जैसे error variance बढ़ती है, डेटा का variance vertical दिशा में बढ़ता है, और PCA के principal component की दिशा धीरे-धीरे vertical के अधिक करीब चली जाती है
  • इसके विपरीत, जब X का variance error से बहुत बड़ा होता है, तब PCA और OLS regression line लगभग एक जैसी हो जाती हैं
  • यह अंतर इसलिए आता है क्योंकि PCA और OLS के उद्देश्य अलग हैं (variance को अधिकतम करना बनाम error को न्यूनतम करना), और डेटा के distribution shape के अनुसार दृश्य रूप से अलग परिणाम दिखाई देते हैं

Regression model और data generation process

  • सरल OLS (least squares method) का रूप ( Y = \beta_0 + \beta_1 X + \varepsilon ) होता है, और यह X तथा error term (\varepsilon) के independent होने की धारणा पर आधारित है
  • जब error term 0 होता है, तो सभी बिंदु regression line पर स्थित होते हैं, और PCA के principal component की दिशा regression line के समान होती है
  • Error जोड़ने पर variance vertical दिशा में बढ़ता है, और PCA इस variance को प्रतिबिंबित करते हुए अधिक तीव्र ढाल वाली दिशा को principal component के रूप में चुनता है

जब error variance हावी हो

  • संबंध ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) में
    यदि ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) हो, तो अधिकांश परिवर्तन vertical दिशा में केंद्रित हो जाता है
  • इस स्थिति में PCA के principal component की दिशा लगभग vertical के करीब हो जाती है, यानी वह regression line की तुलना में अधिक steep दिखती है
  • इसके विपरीत, यदि ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) हो, तो PCA और OLS लगभग एक जैसे हो जाते हैं

Covariance ellipse और distribution shape

  • Covariance ellipse केवल तब डेटा के आकार को अच्छी तरह दर्शाता है जब ( (X, Y) ) joint normal distribution का पालन करते हों
  • X का distribution चाहे binomial, uniform, bimodal, triangular आदि क्यों न हो,
    यदि X का variance बड़ा है तो PCA और regression line मेल खाते हैं, और यदि error बड़ा है तो PCA vertical दिशा की ओर खिसकता है
  • Ellipse डेटा की directionality दिखाता है, लेकिन density या वास्तविक distribution shape को सटीक रूप से व्यक्त नहीं करता

X की प्रकृति और modeling considerations

  • कोड में make_y_from_x फ़ंक्शन, OLS assumptions के अनुरूप, Y को X के linear function और IID Gaussian noise से उत्पन्न करता है
  • X का random variable होना अनिवार्य नहीं है; experimental design के अनुसार यह fixed values भी हो सकता है
  • Covariance ellipse, X और Y को symmetric तरीके से संभालता है, लेकिन वास्तविक data generation process asymmetric होती है

मुख्य सारांश

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA और OLS मेल खाते हैं
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA vertical दिशा की ओर खिसकता है
  • X का random variable होना आवश्यक नहीं है, और न ही उसका normal distribution का पालन करना आवश्यक है
  • PCA variance की दिशा पर केंद्रित है, जबकि OLS prediction error को न्यूनतम करने पर, इसलिए दोनों के परिणाम अलग दिखाई देते हैं

1 टिप्पणियां

 
GN⁺ 2026-01-06
Hacker News की राय
  • रैखिक प्रतिगमन (Linear Regression), यानी Ordinary Least Squares(OLS), यह मानता है कि noise सिर्फ Y में है और X सटीक है
    इसके विपरीत, जब देखने में X और Y दोनों में noise माना जाता है, तो इसे Total Least Squares(TLS) कहा जाता है
    • Wikipedia के Total Least Squares चित्र को देखने पर इसे सहज रूप से समझा जा सकता है
    • x और y को आपस में बदलकर slope फिर से निकालें, तो TLS क्या करता है इसका अंदाज़ा मिलता है
  • पहले QuantSci के एक प्रोफेसर ने पूछा था, “ऐसा data collection scenario बताइए जिसमें x data में बिल्कुल भी error न हो”
    इसलिए वे आम तौर पर Deming regression को ज़्यादा पसंद करने की बात सिखाते थे (Deming regression)
    • ज़्यादातर sensor data में Y-axis का noise, X-axis से कहीं ज़्यादा होता है
      उदाहरण के लिए, अगर कोई sensor 1kHz पर sampling कर रहा ho, तो MCU के clock jitter की तुलना में sensor का अपना noise बहुत अधिक होगा
    • Deming regression में delta(δ), y variance और x variance के अनुपात को कहते हैं
      अगर x variance बहुत छोटा हो, तो delta बड़ा हो जाता है और condition number खराब वाला model बन सकता है
    • मेरे क्षेत्र में X data का measurement jitter 10ns से कम है, इसलिए व्यावहारिक रूप से इसे error-free माना जा सकता है
    • OLS की खास बात यह है कि यह BLUE(Best Linear Unbiased Estimator) है, यानी न्यूनतम variance वाला linear estimator
    • ज़्यादातर time series में time measurement noise को नज़रअंदाज़ किया जा सकता है, लेकिन GPS coordinates जैसे अन्य variables में जटिल coupling effects हो सकते हैं
  • Linear regression सिर्फ Y के noise को model करता है, लेकिन PCA का ellipse/eigenvector X और Y दोनों के noise को ध्यान में रखता है
    • यह दिलचस्प है कि कई systems में Y का noise, X से बड़ा होता है
      उदाहरण के लिए, analog-to-digital converter में समय quartz oscillator की वजह से स्थिर होता है, लेकिन measured value वैसी नहीं होती
    • Data analysis में trend line निकालते समय क्या PCA के eigenvector direction का उपयोग करना बेहतर नहीं होगा, ऐसा सवाल उठता है
    • अगर input और output दोनों में noise मानकर neural network को train किया जाए, तो वह दिलचस्प हो सकता है
    • अगर यह पता हो कि Y, X से n गुना अधिक noisy है, तो क्या उस जानकारी का उपयोग करके बेहतर fitting की जा सकती है, यह जानने की जिज्ञासा है
  • काफ़ी समय से statistics नहीं पढ़ा, इसलिए यह समझ नहीं आता कि हमेशा squares ही क्यों इस्तेमाल होते हैं
    1st power, 3rd power, 4th power जैसे दूसरे exponents भी हो सकते हैं, फिर square ही बार-बार क्यों आता है यह सवाल है
    • Sum of squared errors को न्यूनतम करना, errors के normal distribution(iid normal) मानने पर maximum likelihood estimation(MLE) देता है
      अगर error distribution अलग हो, तो कोई और loss function ज़्यादा उपयुक्त हो सकता है
      उदाहरण के लिए Huber loss, छोटे errors पर square और बड़े errors पर linear की तरह काम करता है, इसलिए outliers के प्रति robust होता है
      विस्तृत सूत्रों के लिए Boyd & Vandenberghe की Convex Optimization के पेज 352–353 देखें
      साथ ही ANOVA, Pythagorean theorem पर आधारित है, इसलिए squared terms अनिवार्य हैं
    • Mean, L2 norm को minimize करता है, इसलिए OLS को random variable के नज़रिये से देखें तो conditional expectation E[Y|X] का अनुमान लगाने के लिए L2 स्वाभाविक रूप से सामने आता है
      Gauss–Markov theorem यह सुनिश्चित करता है कि यह estimator unbiased है और उसका variance न्यूनतम है
    • 1st power में solution unique नहीं होता। उदाहरण के लिए (0,0), (1,0), (1,1) इन तीन बिंदुओं में a अगर 0 से 1 के बीच हो, तो सभी में error sum समान मिलता है
      1 से छोटे exponents में एक बड़े error को कई छोटे errors की तुलना में पसंद करने जैसी अजीब विशेषता होती है
      इसके विपरीत square गणितीय रूप से संभालना आसान है, और simple linear regression के numerical properties भी अच्छे हैं
    • Wikipedia के Least Squares लेख में अलग-अलग approaches व्यवस्थित हैं
      4th power या उससे ऊपर के higher-order terms में local optima बहुत होते हैं, और differentiation जटिल हो जाती है, इसलिए computational simplicity घटती है
    • संक्षेप में कहें तो abs, 0 के पास differentiable नहीं है; 4th power noise के प्रति ज़रूरत से ज़्यादा संवेदनशील है; और 3rd power variance की linearity को तोड़ देता है
  • इस thread की ज़्यादातर बातें पहले से ही StackExchange discussion में अच्छी तरह व्यवस्थित हैं
    कोई नया दृष्टिकोण देना आसान नहीं है
    • StackExchange के answers पहले से ही काफ़ी परिपक्व हैं
      इसे बस एक गणितीय observation के रूप में दिलचस्प कहा जा सकता है
    • फिर भी, ऐसे topics लाने का मतलब है क्योंकि StackExchange की तुलना में यहाँ ज़्यादा खुली बातचीत संभव है
    • इस forum के लिए शायद जवाब कुछ ज़्यादा ही परिपक्व हों
  • Least Squares और PCA अलग-अलग loss functions को minimize करते हैं
    पहला Y-axis दिशा में squared distances के sum को, और दूसरा रेखा के प्रति orthogonal distance के squared sum को minimize करता है
    • तो फिर least-squares line नीचे की ओर झुकी हुई क्यों दिखती है? इसकी दिशा कुछ मनमानी सी लगती है
    • Least squares को Gaussian distribution पर fitting की प्रक्रिया की तरह देखें, तो समझना आसान हो जाता है
  • y को x पर regress करें और x को y पर regress करें, तो दो अलग-अलग lines मिलती हैं
    क्लास के दौरान यह देखकर मैं घबरा गया था। लगा था कि शायद normalization से यह ठीक हो जाए
    • लेकिन bias हटाने का सही तरीका normalization नहीं, बल्कि coordinate-independent regression technique का उपयोग करना है
  • शब्दावली के बारे में एक और बात जोड़ें तो, least-squares model x में noise हो या न हो, mean error 0 वाली prediction, यानी सांख्यिकीय रूप से unbiased prediction देता है
  • Regression result देखते समय line देखने में ग़लत लगे, फिर भी model वास्तव में सही हो सकता है
    सही slope जाँचने के लिए देखना चाहिए कि किसी विशेष x पर residual दोनों तरफ़ संतुलित हैं या नहीं
    उदाहरण के लिए, अगर data को y = 1.5x + noise से बनाया जाए, तो regression line 1.5 slope को अच्छी तरह recover करती है, लेकिन देखने में अजीब लग सकती है
    • residual plot की तुलना करें, तो यह सबसे स्पष्ट रूप से दिखता है
  • इस समस्या को अक्सर Regression Dilution कहा जाता है (Wikipedia link)
    • लेकिन Regression Dilution का मतलब वह स्थिति है जहाँ X data की errors की वजह से regression line biased हो जाती है
      StackExchange का सवाल यह है कि X में error न होने पर भी regression line 3σ ellipse axis के साथ align क्यों नहीं होती
      यह answer X error = 0 वाला उदाहरण दिखाता है