Interpretación de la gráfica de valores residuales vs. valores ajustados para verificar los supuestos de un modelo lineal

34

Considere la siguiente figura de los Modelos lineales de Faraway con R (2005, p. 59).

ingrese la descripción de la imagen aquí

La primera gráfica parece indicar que los residuos y los valores ajustados no están correlacionados, ya que deberían estar en un modelo lineal homoscedástico con errores distribuidos normalmente. Por lo tanto, los gráficos segundo y tercero, que parecen indicar dependencia entre los residuos y los valores ajustados, sugieren un modelo diferente.

Pero, ¿por qué la segunda gráfica sugiere, como lo señala Faraway, un modelo lineal heterocedástico, mientras que la tercera gráfica sugiere un modelo no lineal?

La segunda gráfica parece indicar que el valor absoluto de los residuos está fuertemente correlacionado positivamente con los valores ajustados, mientras que tal tendencia no es evidente en la tercera gráfica. Entonces, si fuera el caso que, teóricamente hablando, en un modelo lineal heteroscedástico con errores distribuidos normalmente

Cor(e,y^)=[1111]

(donde la expresión de la izquierda es la matriz de varianza-covarianza entre los residuos y los valores ajustados) esto explicaría por qué la segunda y tercera parcelas concuerdan con las interpretaciones de Faraway.

¿Pero es éste el caso? Si no es así, ¿de qué otra forma se pueden justificar las interpretaciones de Faraway de la segunda y tercera trama? Además, ¿por qué la tercera gráfica necesariamente indica no linealidad? ¿No es posible que sea lineal, pero que los errores no se distribuyan normalmente o que se distribuyan normalmente, pero no se centren en cero?

Evan Aad
fuente
3
Ninguno de los tres gráficos muestra correlación (al menos no correlación lineal, que es el significado relevante de 'correlación' en el sentido en que se usa en " los residuos y los valores ajustados no están correlacionados ").
Glen_b -Reinstala a Monica el
1
@Glen_b: Gracias. He corregido el párrafo al que te referías sustituyendo "dependencia" por "correlación".
Evan Aad

Respuestas:

46

x±

diagramas de diagnóstico con media aproximada y dispersión en cada valor de ajustado marcado en

  • xyx

  • yx

¿No es posible que sea lineal, pero que los errores no se distribuyan normalmente o que se distribuyan normalmente, pero no se centren en cero?

En realidad no *, en esas situaciones las tramas se ven diferentes a la tercera trama.

θβ0+θ

(ii) Si los errores no se distribuyen normalmente, el patrón de puntos podría ser más denso en algún lugar que no sea la línea central (si los datos estuvieran sesgados), por ejemplo, pero el residual medio local aún estaría cerca de 0.

errores no normales

Aquí las líneas de color púrpura aún representan una (muy) intervalo de aproximadamente el 95%, pero ya no es simétrica. (Estoy pasando por alto un par de cuestiones para evitar oscurecer el punto básico aquí.)

xyx

Glen_b -Reinstate a Monica
fuente
1
y^y^x
2
x1x2x1
1
x
σ2IN(0,V)Vσ2IV
Evan Aad
1
(ctd) ... como debería poder ver en mi primer comentario debajo de mi respuesta, en particular como resultado de la oración que comienza "Se podría imaginar ...", pero prácticamente descarta la heterocedasticidad relacionada con el significado.
Glen_b -Reinstale a Monica el
2

Tu escribiste

El segundo gráfico parece indicar que el valor absoluto de los residuos está fuertemente correlacionado positivamente con los valores ajustados,

No "parece", lo hace. Y eso es lo que significa heteroscedastic.

Luego das una matriz de todos los 1, que es irrelevante; La correlación puede existir y ser menor que 1.

Entonces escribes

Además, ¿por qué la tercera gráfica necesariamente indica no linealidad? ¿No es posible que sea lineal, pero que los errores no se distribuyan normalmente o que se distribuyan normalmente, pero no se centren en cero?

Ellos hacen centro en torno al 0. La mitad o menos están por debajo de 0, mitad por encima. Es más difícil saber si se distribuyen normalmente de esta gráfica, pero otra gráfica que generalmente se recomienda es una gráfica normal cuantil de los residuos, y eso mostraría si son normales o no.

Peter Flom - Restablece a Monica
fuente
N(0,V)Vσ2I
1
Una gráfica normal cuantil solo mira la normalidad. La evidencia de homoscedasticidad en la primera trama es visual
Peter Flom - Restablece a Monica
@PeterFlom: Perdón por el necropost: estoy un poco confundido acerca de la cuantificación por la cual consideramos el error en cada punto (xi, yi): ¿Consideramos varias respuestas (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) para la entrada xi; i = 1,2, ..., n (número de puntos de datos) y luego encuentra la media y la varianza de los valores yi_j? Simplemente estoy confundido sobre por qué en una regresión lineal y = ax + b, x, y, a (o una multilineal y + a1x1 + a2x2 + ... ansn entonces ai, xi) son variables aleatorias y valores no fijos. Además, ¿hacemos este análisis para cada par de predictores y cada par (y, x_i) con y el valor independiente?
Gary
No entiendo de qué estás confundido. Hay un valor predicho de y y un valor real de y para cada observación. El residual es la diferencia entre ellos.
Peter Flom - Restablece a Monica