¿Son "residuales studentizados" y "residuales estandarizados" iguales en los modelos de regresión? Construí un modelo de regresión lineal en R y quería trazar la gráfica de los valores ajustados de los residuos Studentizados v / s, pero no encontré una forma automatizada de hacerlo en R.
Supongamos que tengo un modelo
library(MASS)
lm.fit <- lm(Boston$medv~(Boston$lstat))
luego, el uso plot(lm.fit)
no proporciona ningún gráfico de residuos Studentizados versus valores ajustados, pero proporciona gráficos de residuos estandarizados vs. valores ajustados.
Utilicé plot(lm.fit$fitted.values,studres(lm.fit)
y trazará el gráfico deseado, así que solo quiero confirmar que estoy yendo por el camino correcto y que los residuos Studentizados y Estandarizados no son lo mismo. Si son diferentes, proporcione alguna guía para calcularlos y sus definiciones. Busqué en la red y lo encontré un poco confuso.
fuente
R
terminología es lo contrario de Montgomery, Peck y Vining (un libro de texto de regresión popular que ha existido durante 35 años). Así que tenga cuidado y asegúrese de estudiar laR
documentación y, si es necesario, su código fuente, en lugar de confiar en lo que cree que significa la terminología.Respuestas:
No, los residuos estudiados y los residuos estandarizados son conceptos diferentes (pero relacionados).
De hecho, R proporciona funciones integradas
rstandard()
yrstudent()
como parte de las medidas de influencia . El mismo paquete incorporado proporciona muchas funciones similares para el apalancamiento, la distancia de Cook, etc.,rstudent()
es esencialmente la mismaMASS::studres()
que puede verificar por usted mismo de la siguiente manera:Los residuos estandarizados son una forma de estimar el error para un punto de datos particular que tiene en cuenta el apalancamiento / influencia del punto. A veces se denominan "residuos internamente estudiados".
La motivación detrás de los residuos estandarizados es que, aunque nuestro modelo asumió la homocedasticidad con un término de error iid con varianza fija , la distribución, los residuos no pueden ser iid porque La suma de los residuos es siempre exactamente cero.ϵi∼N(0,σ2) ei
Los residuos estudiados para cualquier punto de datos se calculan a partir de un modelo ajustado a cualquier otro punto de datos, excepto el en cuestión. Estos se denominan "residuos residuales estudiados externamente", "residuos eliminados" o "residuos con efecto jackknifed".
Esto suena computacionalmente difícil ( parece que tendríamos que ajustar un nuevo modelo para cada punto) pero, de hecho, hay una manera de calcularlo desde el modelo original sin volver a ajustarlo. Si el residuo estandarizado es , entonces el residuo es:ri ti
La motivación detrás de los residuos studentizados proviene de su uso en pruebas atípicas. Si sospechamos que un punto es un valor atípico, entonces no se generó a partir del modelo asumido, por definición. Por lo tanto, sería un error, una violación de los supuestos, incluir ese valor atípico en la adaptación del modelo. Los residuos studentizados son ampliamente utilizados en la detección práctica de valores atípicos.
Los residuos studentizados también tienen la propiedad deseable de que para cada punto de datos, la distribución del residual será la distribución t de Student, suponiendo que se cumplieron los supuestos de normalidad del modelo de regresión original. (Los residuos estandarizados no tienen una distribución tan agradable).
Por último, para abordar cualquier inquietud de que la biblioteca R pueda estar siguiendo una nomenclatura diferente a la anterior, la documentación de R establece explícitamente que usan "estandarizado" y "estudiantilizado" en el mismo sentido descrito anteriormente.
fuente