Estaba experimentando con la relación entre los errores y los residuos usando algunas simulaciones simples en R. Una cosa que he encontrado es que, independientemente del tamaño de la muestra o la varianza del error, siempre obtengo exactamente para la pendiente cuando se ajusta al modelo
Aquí está la simulación que estaba haciendo:
n <- 10
s <- 2.7
x <- rnorm(n)
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e
model <- lm(y ~ x)
r <- model$res
summary( lm(e ~ r) )
e
y r
están altamente (pero no perfectamente) correlacionados, incluso para muestras pequeñas, pero no puedo entender por qué sucede esto automáticamente. Se agradecería una explicación matemática o geométrica.
regression
least-squares
residuals
GoF_Logistic
fuente
fuente
lm(y~r)
,lm(e~r)
ylm(r~r)
, que por lo tanto deben ser todos iguales. Este último obviamente es . Pruebe estos tres comandos para ver. Para que el último funcione , debe crear una copia de , como . Para obtener más información sobre los diagramas geométricos de regresión, consulte stats.stackexchange.com/a/113207 .R
r
s<-r;lm(r~s)
Respuestas:
¡La respuesta de Whuber es genial! (+1) Resolví el problema usando la notación más familiar para mí y pensé que la derivación (menos interesante, más rutinaria) puede valer la pena incluir aquí.
Sea el modelo de regresión, para y el ruido. Luego, la regresión de contra las columnas de tiene ecuaciones normales dando estimacionesPor lo tanto, la regresión tiene residuos para .X ∈ R n × p ε y X X T ( Y - X β ) = 0 , β = ( X T X ) - 1 X T y . r = y - X β = ( I - H ) y = ( I - Hy= Xβ∗+ ϵ X∈ Rn × p ϵ y X XT(y−Xβ^)=0,
La regresión de en da como resultado una pendiente estimada dada por ya que es simétrico e idempotente y casi seguro.r ( r T r ) - 1 r T ϵϵ r I-Hϵ∉im(X)
Además, este argumento también es válido si incluimos una intersección cuando realizamos la regresión de los errores en los residuos si se incluyó una intersección en la regresión original, ya que las covariables son ortogonales (es decir, , de las ecuaciones normales )1Tr=0
fuente
Sin ninguna pérdida de generalidad conceptual (o práctica), primero elimine la constante de las variables como se describe en Cómo exactamente se "controla para otras variables" . Sea el regresor, el error, la respuesta, la estimación de mínimos cuadrados de , y los residuos. Todos estos vectores se encuentran en el mismo plano, lo que nos permite dibujar imágenes de ellos. La situación se puede representar así, donde designa el origen:x e Y=βx+e b β r=Y−bx O
Esta imagen fue construido comenzando con , a continuación, añadiendo el error para producir . La altitud se redujo a la base, encontrándola en la estimación de mínimos cuadrados . Claramente, la altitud es el vector residual y, por lo tanto, se ha etiquetado como .βx e Y bx Y−bx r
La base del triángulo es paralela al vector regresor . Las altitudes de los lados y son la altitud del triángulo mismo. Por definición, el residual es perpendicular a la base: por lo tanto, las distancias lejos de la base se pueden encontrar por proyección sobre . Por lo tanto, la altitud del triángulo se puede encontrar en cualquiera de las tres formas: regresando contra (encontrando la altura de ); retroceder contra (encontrar la altura de ), o retroceder contra (encontrar la altura dex OY (βx)Y r r Y r Y e r e r r r ) Los tres valores deben ser todos iguales (como puede verificar ejecutando estas regresiones). El último obviamente es , QED .1
Para aquellos que prefieren el álgebra, podemos convertir este análisis geométrico en una elegante demostración algebraica. Simplemente observe que , , e son todos módulos congruentes del subespacio generado por . Por lo tanto, deben tener proyecciones iguales en cualquier espacio ortogonal a , como el generado por , donde la proyección de tiene el coeficiente , QED . (Estadísticamente, simplemente "sacamos" el componente de en las tres expresiones, dejando en cada caso).e = r + ( β - b ) x Y = e + β x = r + ( 2 β - b ) x x x r r 1 x rr e=r+(β−b)x Y=e+βx=r+(2β−b)x x x r r 1 x r
fuente