¿Por qué se distribuye RSS chi square times np?

Me gustaría entender por qué, bajo el modelo OLS, el RSS (suma residual de cuadrados) se distribuye ( es el número de parámetros en el modelo, el número de observaciones).

χ^{2} \cdot (n - p)

$\chi^2\cdot (n-p)$

p

$p$

n

$n$

Pido disculpas por hacer una pregunta tan básica, pero parece que no puedo encontrar la respuesta en línea (o en mis libros de texto más orientados a las aplicaciones).

regression distributions least-squares Tal Galili
fuente

Tenga en cuenta que las respuestas demuestran que la afirmación no es del todo correcta: la distribución de RSS es (no ) veces una donde es la verdadera varianza de los errores.

σ^{2}

$\sigma^2$

n - p

$n-p$

χ^{2} (n - p)

$\chi^2(n-p)$

σ^{2}

$\sigma^2$

whuber

Respuestas:

Considero el siguiente modelo lineal: . ${y} = X \beta + \epsilon$

El vector de los residuos se estima por

\hat{ϵ} = y - X \hat{β} = (I - X (X^{'} X)^{- 1} X^{'}) y = Q y = Q (X β + ϵ) = Q ϵ

$\hat{\epsilon} = y - X \hat{\beta} = (I - X (X'X)^{-1} X') y = Q y = Q (X \beta + \epsilon) = Q \epsilon$

donde . $Q = I - X (X'X)^{-1} X'$

Observe que (la traza es invariante bajo permutación cíclica) y que . Los valores propios de son, por lo tanto, y (algunos detalles a continuación). Por lo tanto, existe una matriz unitaria tal que (las matrices son diagonalizables por matrices unitarias si y solo si son normales ) . $\textrm{tr}(Q) = n - p$ $Q'=Q=Q^2$ $Q$ $0$ $1$ $V$

V^{'} Q V = Δ = diag (\underset{n - p times}{\underset{⏟}{1, \dots, 1}}, \underset{p times}{\underset{⏟}{0, \dots, 0}})

$V'QV = \Delta = \textrm{diag}(\underbrace{1, \ldots, 1}_{n-p \textrm{ times}}, \underbrace{0, \ldots, 0}_{p \textrm{ times}})$

Ahora, deje que . $K = V' \hat{\epsilon}$

Como , tenemos y, por lo tanto, . Así $\hat{\epsilon} \sim N(0, \sigma^2 Q)$ $K \sim N(0, \sigma^2 \Delta)$ $K_{n-p+1}=\ldots=K_n=0$

\frac{‖ K ‖^{2}}{σ^{2}} = \frac{‖ K^{⋆} ‖^{2}}{σ^{2}} \sim χ_{n - p}^{2}

$\frac{\|K\|^2}{\sigma^2} = \frac{\|K^{\star}\|^2}{\sigma^2} \sim \chi^2_{n-p}$

con . $K^{\star} = (K_1, \ldots, K_{n-p})'$

Además, como es una matriz unitaria, también tenemos $V$

‖ \hat{ϵ} ‖^{2} = ‖ K ‖^{2} = ‖ K^{⋆} ‖^{2}

$\|\hat{\epsilon}\|^2 = \|K\|^2=\|K^{\star}\|^2$

Así

\frac{RSS}{σ^{2}} \sim χ_{n - p}^{2}

$\frac{\textrm{RSS}}{\sigma^2} \sim \chi^2_{n-p}$

Finalmente, observe que este resultado implica que

E (\frac{RSS}{n - p}) = σ^{2}

$E\left(\frac{\textrm{RSS}}{n-p}\right) = \sigma^2$

Como , el polinomio mínimo de divide el polinomio . Entonces, los valores propios de están entre y . Como es también la suma de los valores propios multiplicados por su multiplicidad, necesariamente tenemos que es un valor propio con multiplicidad y cero es un valor propio con multiplicidad . $Q^2 - Q =0$ $Q$ $z^2 - z$ $Q$ $0$ $1$ $\textrm{tr}(Q) = n-p$ $1$ $n-p$ $p$

ocram
fuente

(+1) Buena respuesta. Se puede restringir la atención a ortogonal, en lugar de unitaria, ya que es real y simétrica. Además, ¿qué es ? No lo veo definido. Al reajustar ligeramente el argumento, también se puede evitar el uso de una normal degenerada, en caso de que cause cierta consternación a aquellos que no están familiarizados con él.

V

$V$

Q

$Q$

S C R

$\mathrm{SCR}$

cardenal

@Cardenal. Buen punto. SCR ('Somme des Carrés Résiduels' en francés) debería haber sido RSS.

ocram

Gracias por la respuesta detallada Ocram! Algunos pasos requerirán que busque más, pero ahora tengo un esquema en el que pensar: ¡gracias!

Tal Galili

@Glen_b: Oh, hice una edición hace un par de días para cambiar SCR a SRR. No recordaba que SCR se menciona en mi comentario. Perdón por la confusion.

ocram

@Glen_b: Se suponía que significaba RSS: -S Editado nuevamente. Thx

ocram

En mi humilde opinión, la notación matricial complica las cosas. El lenguaje puro del espacio vectorial es más limpio. El modelo se puede escribir donde tiene la distribución normal estándar en y se supone que pertenece a un subespacio vectorial . $Y=X\beta+\epsilon$ $\boxed{Y=\mu + \sigma G}$ $G$ $\mathbb{R}^n$ $\mu$ $W \subset \mathbb{R}^n$

Ahora entra en juego el lenguaje de la geometría elemental. El estimador de mínimos cuadrados de no es más que : la proyección ortogonal de la observable en el espacio al que se supone que pertenece . El vector de los residuos es : proyección en el complemento ortogonal de en . La dimensión de es . $\hat\mu$ $\mu$ $P_WY$ $Y$ $W$ $\mu$ $P^\perp_WY$ $W^\perp$ $W$ $\mathbb{R^n}$ $W^\perp$ $\dim(W^\perp)=n-\dim(W)$

Finalmente, y tiene la distribución normal estándar en , por lo tanto, su norma al cuadrado tiene la con grados de libertad .

P_{W}^{⊥} Y = P_{W}^{⊥} (μ + σ G) = 0 + σ P_{W}^{⊥} G,

$P^\perp_WY = P^\perp_W(\mu + \sigma G) = 0 + \sigma P^\perp_WG,$

P_{W}^{⊥} G

$P^\perp_WG$

W^{⊥}

$W^\perp$

χ^{2}

$\chi^2$

\dim (W^{⊥})

$\dim(W^\perp)$

Esta demostración usa solo un teorema, en realidad un teorema de definición:

Definición y teorema . Un vector aleatorio en tiene la distribución normal estándar en un espacio vectorial si toma sus valores en y sus coordenadas en una ( en total) base ortonormal de son distribuciones normales estándar unidimensionales independientes $\mathbb{R}^n$ $U \subset \mathbb{R}^n$ $U$ $\iff$ $U$

(a partir de este teorema de definición, el teorema de Cochran es tan obvio que no vale la pena decirlo)

Stéphane Laurent
fuente