¿Por qué no importa la correlación de residuos cuando se prueba la normalidad?

9

Cuando (es decir, Y proviene del modelo de regresión lineal), ε N ( 0 , σ 2 I )Y=AX+εY Y en ese caso los residuos e 1 , ... , e n están correlacionados y no independientes. Pero cuando hacemos diagnósticos de regresión y queremos probar la hipótesis de ε ~ N ( 0 , σ 2 I ) , los libros de texto sugiere utilizar parcelas Q-Q y pruebas estadísticas sobre residuos e que fueron diseñados para probar si e ~ N ( 0 , σ 2 I ) para algunos σ 2R .

εN(0,σ2I)e^=(IH)YN(0,(IH)σ2)
e^1,,e^nεN(0,σ2I)e^e^N(0,σ2I)σ2R

¿Por qué no importa para estas pruebas que los residuos estén correlacionados y no sean independientes? A menudo se sugiere para uso normalizado pero eso solo los hace homoscedastic, no independientes.

e^i=e^i1hii,

Para reformular la pregunta: los residuos de la regresión OLS están correlacionados. Entiendo que en la práctica, estas correlaciones son tan pequeñas (¿la mayoría de las veces? ¿Siempre?), Que pueden ignorarse al probar si los residuos provienen de una distribución normal. Mi pregunta es, ¿por qué?

Zoran Loncarevic
fuente
1
Los hace homoscedastic.
Scortchi - Restablece a Monica
1
¿Pregunta acerca de la aplicabilidad de estas pruebas cuando los residuos tienen correlaciones fuertes o simplemente le preocupa la correlación negativa (muy leve e intrascendente) que surge del procedimiento de estimación de mínimos cuadrados?
whuber
1
@whuber Estoy preguntando sobre la correlación que surge del procedimiento de estimación de mínimos cuadrados. Si son leves e intrascendentes, me gustaría saber por qué.
Zoran Loncarevic

Respuestas:

3

En su notación, es la proyección y el espacio de la columna de X , es decir, el subespacio que abarca todos los regresores. Por lo tanto, M : = I n - H es la proyección de todo lo ortogonal al subespacio que abarcan todos los regresores.HXM:=InH

Si , a continuación, eR n es singular distribuye normal y los elementos están correlacionados, como estado.XRn×ke^Rn

Los errores no son observables y no son en general ortogonal al subespacio atravesado por X . Por razones de argumento, suponga que el error ε span ( X ) . Si esto fuera cierto, tendríamos y = X β + ε = ˜ y + ε con ˜ yε . Como ˜ y = X β span ( X ) , podríamos descomponer y y obtener el verdadero ε .εXεspan(X)y=Xβ+ε=y~+εy~εy~=Xβspan(X)yε

Asumamos que tenemos una base de R n , donde el primer b 1 , ... , b k lapso base vector el subespacio lapso ( X ) y los restantes b k + 1 , ... , b n lapso lapso ( X ) . En general, el error ε = α 1 b 1 + + α nb1,,bnRnb1,,bkspan(X)bk+1,,bnspan(X) tendrá componentes distintos de cero α i para i { 1 , ... , k } . Estos componentes distintos de cero se mezclarán con X β y, por lo tanto, no se pueden recuperar por proyección en el tramo ( X ) .ε=α1b1++αnbnαii{1,,k}Xβspan(X)

εe^ne^RneRnk

eNnk(0,σ2Ink),
ee

En el breve documento Sobre la prueba de perturbaciones de regresión para normalidad , encontrará una comparación de los residuos de OLS y BLUS. En la configuración probada de Monte Carlo, los residuos de OLS son superiores a los residuos de BLUS. Pero esto debería darle algún punto de partida.

Marco Breitig
fuente