Heteroscedasticidad y normalidad residual

12

Tengo una regresión lineal que es bastante buena, supongo (es para un proyecto universitario, así que realmente no tengo que ser súper precisa).

El punto es que si trazo los residuos frente a los valores pronosticados, hay (según mi maestro) un indicio de heterocedasticidad.

Pero si trazo el QQ-Plot de los residuos, está claro que normalmente están distribuidos. Además, la prueba de Shapiro en los residuos tiene un valor de , por lo que creo que no hay duda de que los residuos se distribuyen normalmente.0.8p0.8

Pregunta: ¿Cómo puede haber heterocedasticidad en los valores pronosticados si los residuos se distribuyen normalmente?

Hormiga
fuente
1
Una adición muy breve a la excelente respuesta de @whubers: podría usar la ncvTestfunción del paquete del automóvil para Rrealizar una prueba formal de heterocedasticidad. En el ejemplo de whuber, el comando ncvTest(fit)produce un valor que es casi cero y proporciona una fuerte evidencia contra la variación constante del error (que se esperaba, por supuesto). p
COOLSerdash

Respuestas:

16

Una forma de abordar esta pregunta es mirarla al revés: ¿cómo podríamos comenzar con los residuos distribuidos normalmente y organizarlos para que sean heterocedásticos? Desde este punto de vista, la respuesta se vuelve obvia: asocie los residuos más pequeños con los valores pronosticados más pequeños.

Para ilustrar, aquí hay una construcción explícita.

Figura

Los datos a la izquierda son claramente heteroscedastic en relación con el ajuste lineal (se muestra en rojo). Esto es conducido a casa por los residuos frente a la gráfica prevista a la derecha. Pero, por construcción, el conjunto desordenado de residuos está cerca de la distribución normal, como muestra su histograma en el medio. (El valor p en la prueba de normalidad de Shapiro-Wilk es 0.60, obtenido con el Rcomando shapiro.test(residuals(fit))emitido después de ejecutar el siguiente código).

Los datos reales también pueden verse así. La moraleja es que la heterocedasticidad caracteriza una relación entre el tamaño residual y las predicciones, mientras que la normalidad no nos dice nada acerca de cómo los residuos se relacionan con otra cosa.


Aquí está el Rcódigo para esta construcción.

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
whuber
fuente
2
De acuerdo, ¿estás diciendo que si asocio los residuos bajos con los valores predichos altos, puede surgir heterocedasticidad incluso si los residuos se distribuyen normalmente? Creo que lo tengo, aunque realmente debería pensarlo más ... de todos modos, ¡gracias!
Ant
... o bajos residuales con bajos valores pronosticados (como en el ejemplo aquí), o incluso de formas más complejas. Por ejemplo, la heterocedasticidad existe cuando la magnitud promedio de los residuos oscila con el valor predicho. (La mayoría de las pruebas formales de heteroscedasticidad no detectarán esto, pero las gráficas de diagnóstico habituales lo mostrarán claramente.)
whuber
0

En la regresión de mínimos cuadrados ponderados (WLS), son los factores aleatorios de los residuos estimados que es posible que desee ver que están distribuidos normalmente, aunque a menudo no es tan importante. Los residuos estimados se pueden factorizar, como se muestra en un caso de regresión simple (un regresor y a través del origen), en la parte inferior de la página 1 y las mitades inferiores de las páginas 2 y 7 en https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys De todos modos, esto podría ayudar a mostrar dónde puede aparecer la normalidad.

Jim Knaub
fuente
Bienvenido al sitio, @JimKnaub. Nos encantaría tenerte cerca para prestar tu experiencia en alguna pregunta ocasional. ¿Por qué no registrar su cuenta? Puede averiguar cómo hacerlo en la sección Mi cuenta de nuestro centro de ayuda . Como eres nuevo aquí, es posible que quieras hacer nuestro recorrido , que tiene información para nuevos usuarios.
gung - Restablece a Monica
3
Estamos tratando de construir un repositorio permanente de información estadística de alta calidad en forma de preguntas y respuestas. Por lo tanto, desconfiamos de las respuestas que dependen de los enlaces, debido a linkrot. ¿Puede publicar una cita completa y un resumen de la información (por ejemplo, cifras / explicaciones) del enlace para que la información siga siendo útil incluso si el enlace se corta?
gung - Restablece a Monica