La razón por la que pregunto esto es porque parece que los residuos internamente estudiados parecen tener el mismo patrón que los residuos brutos estimados. Sería genial si alguien pudiera ofrecer una explicación.
Suponga un modelo de regresión con matriz de diseño (una columna seguida de sus predictores), predicciones (donde es la "matriz de sombreros") y los residuos . El modelo de regresión supone que los errores verdaderos tienen la misma varianza (homoscedasticidad):X 1 y = X ( X ' X ) - 1 X ' y = H y H e = y - y ε
La matriz de covarianza de los residuos es . Esto significa que los residuos brutos tienen diferentes variaciones - la diagonal de la matriz . Los elementos diagonales de son los valores de sombrero .e i σ 2 ( 1 - h i i ) σ 2 ( I - H ) H h i i
Los residuos verdaderamente estandarizados con varianza 1 en todo momento son, por lo tanto, . El problema es que la varianza de error es desconocida, y los residuos estudiados interna / externamente resultan de elecciones particulares para una estimación .
Dado que se espera que los residuos en bruto sean heteroscedasticos incluso si el es homoscedastico, los residuos en bruto son teoricamente menos adecuados para diagnosticar problemas con el supuesto de homocedasticidad que los residuos estandarizados o estudiados.
¿En qué tipos de datos realizó sus parcelas de prueba? Cuando todos los supuestos se mantienen (o se acercan), entonces no esperaría mucha diferencia entre los residuos sin procesar y los residuales estudiantiles, la principal ventaja es cuando hay puntos muy influyentes. Considere estos datos (simulados) que tienen una tendencia lineal positiva y un valor atípico muy influyente:
Aquí está la gráfica de los valores ajustados frente a los residuos brutos:
Observe que el valor del residuo de nuestro punto influyente está más cerca de 0 que los residuos mínimo y máximo del resto de los puntos (no está en los 3 residuos brutos más extremos).
Ahora aquí está la gráfica con los residuos estandarizados (internamente estudiados):
En esta gráfica, el residuo estandarizado se destaca porque su influencia ha sido explicada.
En este sencillo ejemplo, es fácil ver lo que está sucediendo, pero ¿y si tuviéramos más de 1 variable y un punto que fuera muy influyente, pero no inusual en las gráficas de 2 dimensiones? No sería obvio a partir de las parcelas de residuos en bruto, pero los residuos estudiados mostrarían ese residuo como más extremo.X
fuente