Regresión lineal: * ¿Por qué * puede dividir sumas de cuadrados?

9

Esta publicación se refiere a un modelo de regresión lineal bivariado, . Siempre he tomado la división de la suma total de cuadrados (SSTO) en la suma de cuadrados por error (SSE) y la suma de cuadrados para el modelo (SSR) por fe, pero una vez que comencé a pensar realmente en eso, no entiendo por qué funciona ... $Y_i = \beta_0 + \beta_1x_i$

La parte que no entiendo:

$y_i$ : un valor observado de y

$\bar{y}$ : la media de todos los s observados $y_i$

$\hat{y}_i$ : el valor ajustado / pronosticado de y para una observación dada x

$y_i - \hat{y}_i$ : Residual / error (si se ajusta al cuadrado y se suma para todas las observaciones, esto es SSE)

$\hat{y}_i - \bar{y}$ : cuánto difiere el valor ajustado del modelo de la media (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSR)

$y_i - \bar{y}$ : cuánto difiere un valor observado de la media (si se suaviza y suma para todas las observaciones, esto es SSTO).

Puedo entender por qué, para una sola observación, sin cuadrar nada, . Y puedo entender por qué, si quieres sumar cosas sobre todas las observaciones, tienes que cuadrarlas o sumarán 0. $(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i)$

La parte que no entiendo es por qué (por ejemplo, SSTO = SSR + SSE). Parece ser que si tiene una situación en la que , entonces , no . ¿Por qué no es ese el caso aquí? $(y_i - \bar{y})^2 = (\hat{y}_i - \bar{y})^2 + (y_i - \hat{y}_i)^2$ $A = B + C$ $A^2 = B^2 + 2BC + C^2$ $A^2 = B^2 + C^2$

regression sums-of-squares orthogonal bluemouse
fuente

55

Dejaste el resumen en tu último párrafo. SST = SSR + SSE es una suma sobre , pero su igualdad que escribió inmediatamente antes no es realmente verdadera sin el signo de suma allí.

i

$i$

Glen_b -Reinstate Monica

En su último párrafo, desea (es decir, SSTO = SSR + SSE) no (por ejemplo, SSTO = SSR + SSE). "eg" es una abreviatura de la frase latina " exempli gratia " o "por ejemplo" en inglés. "ie" es una abreviatura de " id est " y se puede leer en inglés como "eso es".

Matthew Gunn el

9

Parece ser que si tiene una situación en la que , entonces , no . ¿Por qué no es ese el caso aquí? $A = B + C$ $A^2 = B^2 + 2BC + C^2$ $A^2 = B^2 + C^2$

Conceptualmente, la idea es que porque y son ortogonales (es decir, son perpendiculares). $BC = 0$ $B$ $C$

En el contexto de la regresión lineal aquí, los residuos son ortogonales al pronóstico degradado . El pronóstico de la regresión lineal crea una descomposición ortogonal de en un sentido similar a como es una descomposición ortogonal. $\epsilon_i = y_i - \hat{y}_i$ $\hat{y}_i - \bar{y}$ $\mathbf{y}$ $(3,4) = (3,0) + (0,4)$

Versión de álgebra lineal:

Dejar:

z = [\begin{matrix} y_{1} - \bar{y} \\ y_{2} - \bar{y} \\ \dots \\ y_{n} - \bar{y} \end{matrix}] \hat{z} = [\begin{matrix} {\hat{y}}_{1} - \bar{y} \\ {\hat{y}}_{2} - \bar{y} \\ \dots \\ {\hat{y}}_{n} - \bar{y} \end{matrix}] ϵ = [\begin{matrix} y_{1} - {\hat{y}}_{1} \\ y_{2} - {\hat{y}}_{2} \\ \dots \\ y_{n} - {\hat{y}}_{n} \end{matrix}] = z - \hat{z}

$\mathbf{z} = \begin{bmatrix} y_1 - \bar{y} \\ y_2 - \bar{y}\\ \ldots \\ y_n - \bar{y} \end{bmatrix} \quad \quad \mathbf{\hat{z}} = \begin{bmatrix} \hat{y}_1 - \bar{y} \\ \hat{y}_2 - \bar{y} \\ \ldots \\ \hat{y}_n - \bar{y} \end{bmatrix} \quad \quad \boldsymbol{\epsilon} = \begin{bmatrix} y_1 - \hat{y}_1 \\ y_2 - \hat{y}_2 \\ \ldots \\ y_n - \hat{y}_n \end{bmatrix} = \mathbf{z} - \hat{\mathbf{z}}$

La regresión lineal (con una constante incluida) descompone en la suma de dos vectores: un pronóstico y un residual $\mathbf{z}$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon}$

z = \hat{z} + ϵ

$\mathbf{z} = \hat{\mathbf{z}} + \boldsymbol{\epsilon}$

Let denota el producto punto . (Más generalmente, puede ser el producto interno ). $\langle .,. \rangle$ $\langle X,Y \rangle$ $E[XY]$

\begin{aligned} ⟨ z, z ⟩ & = ⟨ \hat{z} + ϵ, \hat{z} + ϵ ⟩ \\ = ⟨ \hat{z}, \hat{z} ⟩ + 2 ⟨ \hat{z}, ϵ ⟩ + ⟨ ϵ, ϵ ⟩ \\ = ⟨ \hat{z}, \hat{z} ⟩ + ⟨ ϵ, ϵ ⟩ \end{aligned}

$\begin{align*} \langle \mathbf{z} , \mathbf{z} \rangle &= \langle \hat{\mathbf{z}} + \boldsymbol{\epsilon}, \hat{\mathbf{z}} + \boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + 2 \langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \end{align*}$

Donde la última línea se deduce del hecho de que (es decir, que y son ortogonales). Puede demostrar que y son ortogonales en función de cómo la regresión de mínimos cuadrados ordinarios construye . $\langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle = 0$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon} = \mathbf{z}- \hat{\mathbf{z}}$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon}$ $\hat{\mathbf{z}}$

$\hat{\mathbf{z}}$ es la proyección lineal de en el subespacio definido por el tramo lineal de los regresores , , etc. el residual es ortogonal a todo ese subespacio, por lo tanto, (que se encuentra en el intervalo de , , etc.) es ortogonal a . $\mathbf{z}$ $\mathbf{x}_1$ $\mathbf{x}_2$ $\boldsymbol{\epsilon}$ $\hat{\mathbf{z}}$ $\mathbf{x}_1$ $\mathbf{x}_2$ $\boldsymbol{\epsilon}$

Tenga en cuenta que, como como producto punto, es simplemente otra forma de escribir (es decir, SSTO = SSR + SSE) $\langle .,.\rangle$ $\langle \mathbf{z} , \mathbf{z} \rangle = \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle$ $\sum_i (y_i - \bar{y})^2 = \sum_i (\hat{y}_i - \bar{y})^2 + \sum_i (y_i - \hat{y}_i)^2$

Matthew Gunn
fuente

8

Todo el punto muestra que ciertos vectores son ortogonales y luego usan el teorema de Pitágoras.

Consideremos la regresión lineal multivariante . Sabemos que el estimador OLS es . Ahora considere la estimación $Y = X\beta + \epsilon$ $\hat{\beta} = (X^tX)^{-1}X^tY$

$\hat{Y} = X\hat{\beta} = X(X^tX)^{-1}X^tY = HY$ (la matriz H también se llama matriz "hat")

donde es una matriz de proyección ortogonal de Y sobre . Ahora tenemos $H$ $S(X)$

$Y - \hat{Y} = Y - HY = (I - H)Y$

donde es una matriz de proyección sobre el complemento ortogonal de que es . Por lo tanto, sabemos que y son ortogonales. $(I-H)$ $S(X)$ $S^{\bot}(X)$ $Y-\hat{Y}$ $\hat{Y}$

Ahora considere un submodelo $Y = X_0\beta_0 + \epsilon$

donde y de manera similar tenemos el estimador OLS y estimamos y con la matriz de proyección en . Del mismo modo, tenemos que y son ortogonales. Y ahora $X = [X_0 | X_1 ]$ $\hat{\beta_0}$ $\hat{Y_0}$ $H_0$ $S(X_0)$ $Y - \hat{Y_0}$ $\hat{Y_0}$

$\hat{Y} - \hat{Y_0} = HY - H_0Y = HY - H_0HY = (I - H_0)HY$

donde nuevamente es una matriz de proyección ortogonal en complemento de que es . Por lo tanto, tenemos ortogonalidad de y . Entonces al final tenemos $(I-H_0)$ $S(X_0)$ $S^{\bot}(X_0)$ $\hat{Y} - \hat{Y_0}$ $\hat{Y_0}$

$||Y - \hat{Y}||^2 = ||Y||^2 - ||\hat{Y}||^2 = ||Y - \hat{Y_0}||^2 + ||\hat{Y_0}||^2 - ||\hat{Y} - \hat{Y_0}||^2 - ||\hat{Y_0}||^2$

y finalmente $||Y - \hat{Y_0}||^2 = ||Y - \hat{Y}||^2 + ||\hat{Y} - \hat{Y_0}||^2$

Por último, la media es simplemente cuando se considera el modelo nulo . $\bar{Y}$ $\hat{Y_0}$ $Y = \beta_0 + e$

Łukasz Grad
fuente

¡Gracias por su respuesta! ¿Qué es S () (como en S (X) en tu publicación)?

bluemouse

S (X)

$S(X)$ es un subespacio generado por las columnas de la matriz

X

$X$

Łukasz Grad

Regresión lineal: * ¿Por qué * puede dividir sumas de cuadrados?

Respuestas:

Versión de álgebra lineal: