Me gustaría entender por qué, bajo el modelo OLS, el RSS (suma residual de cuadrados) se distribuye ( es el número de parámetros en el modelo, el número de observaciones).
Pido disculpas por hacer una pregunta tan básica, pero parece que no puedo encontrar la respuesta en línea (o en mis libros de texto más orientados a las aplicaciones).
regression
distributions
least-squares
Tal Galili
fuente
fuente
Respuestas:
Considero el siguiente modelo lineal: .y=Xβ+ϵ
El vector de los residuos se estima por
donde .Q=I−X(X′X)−1X′
Observe que (la traza es invariante bajo permutación cíclica) y que . Los valores propios de son, por lo tanto, y (algunos detalles a continuación). Por lo tanto, existe una matriz unitaria tal que (las matrices son diagonalizables por matrices unitarias si y solo si son normales ) .tr(Q)=n−p Q′=Q=Q2 Q 0 1 V
Ahora, deje que .K=V′ϵ^
Como , tenemos y, por lo tanto, . Asíϵ^∼N(0,σ2Q) K∼N(0,σ2Δ) Kn−p+1=…=Kn=0
con .K⋆=(K1,…,Kn−p)′
Además, como es una matriz unitaria, también tenemosV
Así
Finalmente, observe que este resultado implica que
Como , el polinomio mínimo de divide el polinomio . Entonces, los valores propios de están entre y . Como es también la suma de los valores propios multiplicados por su multiplicidad, necesariamente tenemos que es un valor propio con multiplicidad y cero es un valor propio con multiplicidad .Q2−Q=0 Q z2−z Q 0 1 tr(Q)=n−p 1 n−p p
fuente
En mi humilde opinión, la notación matricial complica las cosas. El lenguaje puro del espacio vectorial es más limpio. El modelo se puede escribir donde tiene la distribución normal estándar en y se supone que pertenece a un subespacio vectorial .Y=Xβ+ϵ Y=μ+σG G Rn μ W⊂Rn
Ahora entra en juego el lenguaje de la geometría elemental. El estimador de mínimos cuadrados de no es más que : la proyección ortogonal de la observable en el espacio al que se supone que pertenece . El vector de los residuos es : proyección en el complemento ortogonal de en . La dimensión de es .μ^ μ PWY Y W μ P⊥WY W⊥ W Rn W⊥ dim(W⊥)=n−dim(W)
Finalmente, y tiene la distribución normal estándar en , por lo tanto, su norma al cuadrado tiene la con grados de libertad .
Esta demostración usa solo un teorema, en realidad un teorema de definición:
Definición y teorema . Un vector aleatorio en tiene la distribución normal estándar en un espacio vectorial si toma sus valores en y sus coordenadas en una ( en total) base ortonormal de son distribuciones normales estándar unidimensionales independientesRn U⊂Rn U ⟺ U
(a partir de este teorema de definición, el teorema de Cochran es tan obvio que no vale la pena decirlo)
fuente