Esta publicación se refiere a un modelo de regresión lineal bivariado, . Siempre he tomado la división de la suma total de cuadrados (SSTO) en la suma de cuadrados por error (SSE) y la suma de cuadrados para el modelo (SSR) por fe, pero una vez que comencé a pensar realmente en eso, no entiendo por qué funciona ...
La parte que no entiendo:
: un valor observado de y
yi : la media de todos los s observados
: el valor ajustado / pronosticado de y para una observación dada x
: Residual / error (si se ajusta al cuadrado y se suma para todas las observaciones, esto es SSE)
: cuánto difiere el valor ajustado del modelo de la media (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSR)
: cuánto difiere un valor observado de la media (si se suaviza y suma para todas las observaciones, esto es SSTO).
Puedo entender por qué, para una sola observación, sin cuadrar nada, . Y puedo entender por qué, si quieres sumar cosas sobre todas las observaciones, tienes que cuadrarlas o sumarán 0.
La parte que no entiendo es por qué (por ejemplo, SSTO = SSR + SSE). Parece ser que si tiene una situación en la que , entonces , no . ¿Por qué no es ese el caso aquí?A=B+CA2=B2+2BC+C2A2=B2+C2
fuente
Respuestas:
Conceptualmente, la idea es que porque y son ortogonales (es decir, son perpendiculares).B CBC=0 B C
En el contexto de la regresión lineal aquí, los residuos son ortogonales al pronóstico degradado . El pronóstico de la regresión lineal crea una descomposición ortogonal de en un sentido similar a como es una descomposición ortogonal.y i - ˉ y y ( 3 , 4 ) = ( 3 , 0 ) + ( 0 , 4 )ϵi=yi−y^i y^i−y¯ y (3,4)=(3,0)+(0,4)
Versión de álgebra lineal:
Dejar:
La regresión lineal (con una constante incluida) descompone en la suma de dos vectores: un pronóstico y un residualz z^ ϵ
Let denota el producto punto . (Más generalmente, puede ser el producto interno ).⟨.,.⟩ ⟨X,Y⟩ E[XY]
Donde la última línea se deduce del hecho de que (es decir, que y son ortogonales). Puede demostrar que y son ortogonales en función de cómo la regresión de mínimos cuadrados ordinarios construye .⟨z^,ϵ⟩=0 z^ ϵ=z−z^ z^ ϵ z^
Tenga en cuenta que, como como producto punto, es simplemente otra forma de escribir (es decir, SSTO = SSR + SSE)⟨.,.⟩ ⟨z,z⟩=⟨z^,z^⟩+⟨ϵ,ϵ⟩ ∑i(yi−y¯)2=∑i(y^i−y¯)2+∑i(yi−y^i)2
fuente
Todo el punto muestra que ciertos vectores son ortogonales y luego usan el teorema de Pitágoras.
Consideremos la regresión lineal multivariante . Sabemos que el estimador OLS es . Ahora considere la estimaciónY=Xβ+ϵ β^=(XtX)−1XtY
donde es una matriz de proyección ortogonal de Y sobre . Ahora tenemosH S(X)
donde es una matriz de proyección sobre el complemento ortogonal de que es . Por lo tanto, sabemos que y son ortogonales.(I−H) S(X) S⊥(X) Y−Y^ Y^
Ahora considere un submodeloY=X0β0+ϵ
donde y de manera similar tenemos el estimador OLS y estimamos y con la matriz de proyección en . Del mismo modo, tenemos que y son ortogonales. Y ahoraX=[X0|X1] β0^ Y0^ H0 S(X0) Y−Y0^ Y0^
donde nuevamente es una matriz de proyección ortogonal en complemento de que es . Por lo tanto, tenemos ortogonalidad de y . Entonces al final tenemos(I−H0) S(X0) S⊥(X0) Y^−Y0^ Y0^
y finalmente||Y−Y0^||2=||Y−Y^||2+||Y^−Y0^||2
Por último, la media es simplemente cuando se considera el modelo nulo .Y¯ Y0^ Y=β0+e
fuente