Cuando (es decir, Y proviene del modelo de regresión lineal), ε ∼ N ( 0 , σ 2 I ) Y en ese caso los residuos e 1 , ... , e n están correlacionados y no independientes. Pero cuando hacemos diagnósticos de regresión y queremos probar la hipótesis de ε ~ N ( 0 , σ 2 I ) , los libros de texto sugiere utilizar parcelas Q-Q y pruebas estadísticas sobre residuos e que fueron diseñados para probar si e ~ N ( 0 , σ 2 I ) para algunos σ 2 ∈ R .
¿Por qué no importa para estas pruebas que los residuos estén correlacionados y no sean independientes? A menudo se sugiere para uso normalizado pero eso solo los hace homoscedastic, no independientes.
Para reformular la pregunta: los residuos de la regresión OLS están correlacionados. Entiendo que en la práctica, estas correlaciones son tan pequeñas (¿la mayoría de las veces? ¿Siempre?), Que pueden ignorarse al probar si los residuos provienen de una distribución normal. Mi pregunta es, ¿por qué?
fuente
Respuestas:
En su notación, es la proyección y el espacio de la columna de X , es decir, el subespacio que abarca todos los regresores. Por lo tanto, M : = I n - H es la proyección de todo lo ortogonal al subespacio que abarcan todos los regresores.H X METRO: = Inorte- H
Si , a continuación, e ∈ R n es singular distribuye normal y los elementos están correlacionados, como estado.X∈ Rn × k mi^∈ Rnorte
Los errores no son observables y no son en general ortogonal al subespacio atravesado por X . Por razones de argumento, suponga que el error ε ⊥ span ( X ) . Si esto fuera cierto, tendríamos y = X β + ε = ˜ y + ε con ˜ y ⊥ ε . Como ˜ y = X β ∈ span ( X ) , podríamos descomponer y y obtener el verdadero ε .ε X ε⊥span(X) y=Xβ+ε=y~+ε y~⊥ε y~=Xβ∈span(X) y ε
Asumamos que tenemos una base de R n , donde el primer b 1 , ... , b k lapso base vector el subespacio lapso ( X ) y los restantes b k + 1 , ... , b n lapso lapso ( X ) ⊥ . En general, el error ε = α 1 b 1 + … + α nb1,…,bn Rn b1,…,bk span(X) bk+1,…,bn span(X)⊥ tendrá componentes distintos de cero α i para i ∈ { 1 , ... , k } . Estos componentes distintos de cero se mezclarán con X β y, por lo tanto, no se pueden recuperar por proyección en el tramo ( X ) .ε=α1b1+…+αnbn αi i∈{1,…,k} Xβ span(X)
En el breve documento Sobre la prueba de perturbaciones de regresión para normalidad , encontrará una comparación de los residuos de OLS y BLUS. En la configuración probada de Monte Carlo, los residuos de OLS son superiores a los residuos de BLUS. Pero esto debería darle algún punto de partida.
fuente