En la regresión lineal simple, ¿de dónde viene la fórmula para la varianza de los residuos?

21

Según un texto que estoy usando, la fórmula para la varianza del residuo yoth viene dada por:

σ2(1-1norte-(Xyo-X¯)2SXX)

Me parece difícil de creer ya que la yoth residual es la diferencia entre el yoth valor observado y el yoth valor ajustado; Si uno calculara la varianza de la diferencia, al menos esperaría algunas "ventajas" en la expresión resultante. Cualquier ayuda para entender la derivación sería apreciada.

Eric
fuente
¿Es posible que algunos signos " + " en el texto estén mal interpretados (o mal interpretados) como signos " - "?
whuber
Pensé esto, pero sucedió dos veces en el texto (2 capítulos diferentes), así que pensé que era poco probable. ¡Por supuesto, una derivación de la fórmula ayudaría! :)
Eric
Los negativos son el resultado de la correlación positiva entre una observación y su valor ajustado, lo que reduce la varianza de la diferencia.
Glen_b -Reinstate Monica
@Glen Gracias por explicar por qué resulta que la fórmula tiene sentido, junto con la derivación de su matriz a continuación.
Eric

Respuestas:

27

La intuición acerca de los signos "más" relacionados con la varianza (del hecho de que incluso cuando calculamos la varianza de una diferencia de variables aleatorias independientes, agregamos sus varianzas) es correcta pero fatalmente incompleta: si las variables aleatorias involucradas no son independientes , entonces las covarianzas también están involucradas, y las covarianzas pueden ser negativas. Existe una expresión que es casi igual que la expresión en la pregunta se pensaba que "debería" ser por la OP (y yo), y es la varianza de la predicción de error , denotan que , donde y 0 = β 0 +mi0 0=y0 0-y^0 0 :y0 0=β0 0+β1X0 0+tu0 0

Var(mi0 0)=σ2(1+1norte+(X0 0-X¯)2SXX)

La diferencia crítica entre la varianza del error de predicción y la varianza de la estimación de error (es decir, de la residual), es que el término de error de la observación predicho no se correlaciona con el estimador , ya que el valor se no utilizados en la construcción el estimador y el cálculo de las estimaciones, siendo un valor fuera de muestra.y0 0

El álgebra para ambos procede exactamente de la misma manera hasta un punto (usando 0 en lugar de i ), pero luego diverge. Específicamente:0i

En el sencillo de regresión lineal , Var ( u i ) = σ 2 , la varianza del estimador β = ( β 0 , β 1 ) ' es todavíayi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)

Var(β^)=σ2(XX)-1

Tenemos

XX=[norteXyoXyoXyo2]

y entonces

(XX)-1=[Xyo2-Xyo-Xyonorte][norteXyo2-(Xyo)2]-1

Tenemos

[nxi2(xi)2]=[nxi2n2x¯2]=n[xi2nx¯2]=n(xi2x¯2)nSxx

Entonces

(XX)1=[(1/n)xi2x¯x¯1](1/Sxx)

Lo que significa que

Var(β^0)=σ2(1nxi2) (1/Sxx)=σ2nSxx+nx¯2Sxx=σ2(1n+x¯2Sxx)

Var(β^1)=σ2(1/Sxx)

Cov(β^0,β^1)=σ2(x¯/Sxx)

El residual-ésimo se define comoi

u^i=yiy^i=(β0β^0)+(β1β^1)xi+ui

Los coeficientes reales se tratan como constantes, el regresor es fijo (o está condicionado a él) y tiene cero covarianza con el término de error, pero los estimadores están correlacionados con el término de error, porque los estimadores contienen la variable dependiente y la variable dependiente contiene el término de error. Entonces tenemos

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

=[σ2+σ2(1n+x¯2Sxx)+xi2σ2(1/Sxx)+2Cov([(β0β^0)+(β1β^1)xi],ui)

Pack it up a bit to obtain

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

The term in the big parenthesis has exactly the same structure with the variance of the prediction error, with the only change being that instead of xi we will have x0 (and the variance will be that of e0 and not of u^i). The last covariance term is zero for the prediction error because y0 and hence u0 is not included in the estimators, but not zero for the estimation error because yi and hence ui is part of the sample and so it is included in the estimator. We have

2Cov([(β0β^0)+(β1β^1)xi],ui)=2E([(β0β^0)+(β1β^1)xi]ui)

=2E(β^0ui)2xiE(β^1ui)=2E([y¯β^1x¯]ui)2xiE(β^1ui)

the last substitution from how β^0 is calculated. Continuing,

...=2E(y¯ui)2(xix¯)E(β^1ui)=2σ2n2(xix¯)E[(xix¯)(yiy¯)Sxxui]

=2σ2n2(xix¯)Sxx[(xix¯)E(yiuiy¯ui)]

=2σ2n2(xix¯)Sxx[σ2nji(xjx¯)+(xix¯)σ2(11n)]

=2σ2n2(xix¯)Sxx[σ2n(xix¯)+(xix¯)σ2]

=2σ2n2(xix¯)Sxx[0+(xix¯)σ2]=2σ2n2σ2(xix¯)2Sxx

Inserting this into the expression for the variance of the residual, we obtain

Var(u^i)=σ2(11n(xix¯)2Sxx)

So hats off to the text the OP is using.

(I have skipped some algebraic manipulations, no wonder OLS algebra is taught less and less these days...)

SOME INTUITION

So it appears that what works "against" us (larger variance) when predicting, works "for us" (lower variance) when estimating. This is a good starting point for one to ponder why an excellent fit may be a bad sign for the prediction abilities of the model (however counter-intuitive this may sound...).
The fact that we are estimating the expected value of the regressor, decreases the variance by 1/n. Why? because by estimating, we "close our eyes" to some error-variability existing in the sample,since we essentially estimating an expected value. Moreover, the larger the deviation of an observation of a regressor from the regressor's sample mean, the smaller the variance of the residual associated with this observation will be... the more deviant the observation, the less deviant its residual... It is variability of the regressors that works for us, by "taking the place" of the unknown error-variability.

But that's good for estimation. For prediction, the same things turn against us: now, by not taking into account, however imperfectly, the variability in y0 (since we want to predict it), our imperfect estimators obtained from the sample show their weaknesses: we estimated the sample mean, we don't know the true expected value -the variance increases. We have an x0 that is far away from the sample mean as calculated from the other observations -too bad, our prediction error variance gets another boost, because the predicted y^0 will tend to go astray... in more scientific language "optimal predictors in the sense of reduced prediction error variance, represent a shrinkage towards the mean of the variable under prediction". We do not try to replicate the dependent variable's variability -we just try to stay "close to the average".

Alecos Papadopoulos
fuente
Thank you for a very clear answer! I'm glad that my "intuition" was correct.
Eric
Alecos, I really don't think this is right.
Glen_b -Reinstate Monica
@Alecos the mistake is in taking the parameter estimates to be uncorrelated with the error term. This part: Var(u^i)=Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1) isn't right.
Glen_b -Reinstate Monica
@Eric I apologize for misleading you earlier. I have tried to provide some intuition for both formulas.
Alecos Papadopoulos
+1 You can see why I did the multiple regression case for this... thanks for going to the extra effort of doing the simple-regression case.
Glen_b -Reinstate Monica
19

Sorry for the somewhat terse answer, perhaps overly-abstract and lacking a desirable amount of intuitive exposition, but I'll try to come back and add a few more details later. At least it's short.

Given H=X(XTX)1XT,

Var(yy^)=Var((IH)y)=(IH)Var(y)(IH)T=σ2(IH)2=σ2(IH)

Hence

Var(yiy^i)=σ2(1hii)

In the case of simple linear regression ... this gives the answer in your question.

This answer also makes sense: since y^i is positively correlated with yi, the variance of the difference should be smaller than the sum of the variances.

--

Edit: Explanation of why (IH) is idempotent.

(i) H is idempotent:

H2=X(XTX)1XTX(XTX)1XT =X [(XTX)1XTX] (XTX)1XT=X(XTX)1XT=H

(ii) (IH)2=I2IHHI+H2=I2H+H=IH

Glen_b -Reinstate Monica
fuente
1
This is a very nice derivation for its simplicity, although one step that is not clear to me is why (IH)2=(IH). Maybe when you expand on your answer a little, as you're planning to do anyway, you could say a little something about that?
Jake Westfall
@Jake Added a couple of lines at the end
Glen_b -Reinstate Monica