Considere la siguiente figura de los Modelos lineales de Faraway con R (2005, p. 59).
La primera gráfica parece indicar que los residuos y los valores ajustados no están correlacionados, ya que deberían estar en un modelo lineal homoscedástico con errores distribuidos normalmente. Por lo tanto, los gráficos segundo y tercero, que parecen indicar dependencia entre los residuos y los valores ajustados, sugieren un modelo diferente.
Pero, ¿por qué la segunda gráfica sugiere, como lo señala Faraway, un modelo lineal heterocedástico, mientras que la tercera gráfica sugiere un modelo no lineal?
La segunda gráfica parece indicar que el valor absoluto de los residuos está fuertemente correlacionado positivamente con los valores ajustados, mientras que tal tendencia no es evidente en la tercera gráfica. Entonces, si fuera el caso que, teóricamente hablando, en un modelo lineal heteroscedástico con errores distribuidos normalmente
(donde la expresión de la izquierda es la matriz de varianza-covarianza entre los residuos y los valores ajustados) esto explicaría por qué la segunda y tercera parcelas concuerdan con las interpretaciones de Faraway.
¿Pero es éste el caso? Si no es así, ¿de qué otra forma se pueden justificar las interpretaciones de Faraway de la segunda y tercera trama? Además, ¿por qué la tercera gráfica necesariamente indica no linealidad? ¿No es posible que sea lineal, pero que los errores no se distribuyan normalmente o que se distribuyan normalmente, pero no se centren en cero?
fuente
Respuestas:
En realidad no *, en esas situaciones las tramas se ven diferentes a la tercera trama.
(ii) Si los errores no se distribuyen normalmente, el patrón de puntos podría ser más denso en algún lugar que no sea la línea central (si los datos estuvieran sesgados), por ejemplo, pero el residual medio local aún estaría cerca de 0.
Aquí las líneas de color púrpura aún representan una (muy) intervalo de aproximadamente el 95%, pero ya no es simétrica. (Estoy pasando por alto un par de cuestiones para evitar oscurecer el punto básico aquí.)
fuente
Tu escribiste
No "parece", lo hace. Y eso es lo que significa heteroscedastic.
Luego das una matriz de todos los 1, que es irrelevante; La correlación puede existir y ser menor que 1.
Entonces escribes
Ellos hacen centro en torno al 0. La mitad o menos están por debajo de 0, mitad por encima. Es más difícil saber si se distribuyen normalmente de esta gráfica, pero otra gráfica que generalmente se recomienda es una gráfica normal cuantil de los residuos, y eso mostraría si son normales o no.
fuente