Regresión lineal: * ¿Por qué * puede dividir sumas de cuadrados?

9

Esta publicación se refiere a un modelo de regresión lineal bivariado, . Siempre he tomado la división de la suma total de cuadrados (SSTO) en la suma de cuadrados por error (SSE) y la suma de cuadrados para el modelo (SSR) por fe, pero una vez que comencé a pensar realmente en eso, no entiendo por qué funciona ...Yi=β0+β1xi

La parte que no entiendo:

yi : un valor observado de y

yiy¯ : la media de todos los s observadosyi

y^i : el valor ajustado / pronosticado de y para una observación dada x

yiy^i : Residual / error (si se ajusta al cuadrado y se suma para todas las observaciones, esto es SSE)

y^iy¯ : cuánto difiere el valor ajustado del modelo de la media (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSR)

yiy¯ : cuánto difiere un valor observado de la media (si se suaviza y suma para todas las observaciones, esto es SSTO).

Puedo entender por qué, para una sola observación, sin cuadrar nada, . Y puedo entender por qué, si quieres sumar cosas sobre todas las observaciones, tienes que cuadrarlas o sumarán 0.(yiy¯)=(y^iy¯)+(yiy^i)

La parte que no entiendo es por qué (por ejemplo, SSTO = SSR + SSE). Parece ser que si tiene una situación en la que , entonces , no . ¿Por qué no es ese el caso aquí?A=B+CA2=B2+2BC+C2A2=B2+C2(yiy¯)2=(y^iy¯)2+(yiy^i)2A=B+CA2=B2+2BC+C2A2=B2+C2

bluemouse
fuente
55
Dejaste el resumen en tu último párrafo. SST = SSR + SSE es una suma sobre , pero su igualdad que escribió inmediatamente antes no es realmente verdadera sin el signo de suma allí. i
Glen_b -Reinstate Monica
En su último párrafo, desea (es decir, SSTO = SSR + SSE) no (por ejemplo, SSTO = SSR + SSE). "eg" es una abreviatura de la frase latina " exempli gratia " o "por ejemplo" en inglés. "ie" es una abreviatura de " id est " y se puede leer en inglés como "eso es".
Matthew Gunn el

Respuestas:

9

Parece ser que si tiene una situación en la que , entonces , no . ¿Por qué no es ese el caso aquí?A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2A=B+CA2=B2+2BC+C2A2=B2+C2

Conceptualmente, la idea es que porque y son ortogonales (es decir, son perpendiculares).B CBC=0BC


En el contexto de la regresión lineal aquí, los residuos son ortogonales al pronóstico degradado . El pronóstico de la regresión lineal crea una descomposición ortogonal de en un sentido similar a como es una descomposición ortogonal.y i - ˉ y y ( 3 , 4 ) = ( 3 , 0 ) + ( 0 , 4 )ϵi=yiy^iy^iy¯y(3,4)=(3,0)+(0,4)

Versión de álgebra lineal:

Dejar:

z=[y1y¯y2y¯yny¯]z^=[y^1y¯y^2y¯y^ny¯]ϵ=[y1y^1y2y^2yny^n]=zz^

La regresión lineal (con una constante incluida) descompone en la suma de dos vectores: un pronóstico y un residualzz^ϵ

z=z^+ϵ

Let denota el producto punto . (Más generalmente, puede ser el producto interno )..,.X,Y E[XY]

z,z=z^+ϵ,z^+ϵ=z^,z^+2z^,ϵ+ϵ,ϵ=z^,z^+ϵ,ϵ

Donde la última línea se deduce del hecho de que (es decir, que y son ortogonales). Puede demostrar que y son ortogonales en función de cómo la regresión de mínimos cuadrados ordinarios construye .z^,ϵ=0z^ϵ=zz^z^ϵz^

z^ es la proyección lineal de en el subespacio definido por el tramo lineal de los regresores , , etc. el residual es ortogonal a todo ese subespacio, por lo tanto, (que se encuentra en el intervalo de , , etc.) es ortogonal a .zx1x2ϵz^x1x2ϵ


Tenga en cuenta que, como como producto punto, es simplemente otra forma de escribir (es decir, SSTO = SSR + SSE).,.z,z=z^,z^+ϵ,ϵi(yiy¯)2=i(y^iy¯)2+i(yiy^i)2

Matthew Gunn
fuente
8

Todo el punto muestra que ciertos vectores son ortogonales y luego usan el teorema de Pitágoras.

Consideremos la regresión lineal multivariante . Sabemos que el estimador OLS es . Ahora considere la estimaciónY=Xβ+ϵβ^=(XtX)1XtY

Y^=Xβ^=X(XtX)1XtY=HY (la matriz H también se llama matriz "hat")

donde es una matriz de proyección ortogonal de Y sobre . Ahora tenemosHS(X)

YY^=YHY=(IH)Y

donde es una matriz de proyección sobre el complemento ortogonal de que es . Por lo tanto, sabemos que y son ortogonales.(IH)S(X)S(X)YY^Y^

Ahora considere un submodeloY=X0β0+ϵ

donde y de manera similar tenemos el estimador OLS y estimamos y con la matriz de proyección en . Del mismo modo, tenemos que y son ortogonales. Y ahoraX=[X0|X1]β0^Y0^H0S(X0)YY0^Y0^

Y^Y0^=HYH0Y=HYH0HY=(IH0)HY

donde nuevamente es una matriz de proyección ortogonal en complemento de que es . Por lo tanto, tenemos ortogonalidad de y . Entonces al final tenemos(IH0)S(X0)S(X0)Y^Y0^Y0^

||YY^||2=||Y||2||Y^||2=||YY0^||2+||Y0^||2||Y^Y0^||2||Y0^||2

y finalmente||YY0^||2=||YY^||2+||Y^Y0^||2

Por último, la media es simplemente cuando se considera el modelo nulo .Y¯Y0^Y=β0+e

Łukasz Grad
fuente
¡Gracias por su respuesta! ¿Qué es S () (como en S (X) en tu publicación)?
bluemouse
S(X) es un subespacio generado por las columnas de la matrizX
Łukasz Grad