Medidas de heteroscedasticidad residual

16

Este enlace de wikipedia enumera una serie de técnicas para detectar la heterocedasticidad residual de OLS. Me gustaría saber qué técnica práctica es más eficiente en la detección de regiones afectadas por la heterocedasticidad.

Por ejemplo, aquí la región central en la trama 'Residuals vs Fitted' de OLS tiene una mayor varianza que los lados de la trama (no estoy completamente seguro de los hechos, pero supongamos que es el caso por el bien de la pregunta). Para confirmar, observando las etiquetas de error en la gráfica QQ podemos ver que coinciden con las etiquetas de error en el centro de la gráfica de Residuos.

Pero, ¿cómo podemos cuantificar la región de residuos que tiene una varianza significativamente mayor?

heteroscedasticidad

Robert Kubrick
fuente
2
No estoy seguro de que tengas razón en que hay una mayor varianza en el medio. El hecho de que los valores atípicos se encuentren en la región central me parece probable que sea el resultado del hecho de que allí es donde se encuentra la mayoría de los datos. Por supuesto, esto no invalida su pregunta.
Peter Ellis
1
El qqplot está destinado a identificar directamente la no anormalidad de la distribución y no las variaciones no homogéneas.
Michael R. Chernick
@PeterEllis Sí, especifiqué en la pregunta que no estoy seguro de que la variación sea diferente, pero tenía esta imagen de diagnóstico a mano y en realidad podría haber algo de heterocedasticidad en el ejemplo.
Robert Kubrick
@MichaelChernick Solo mencioné qqplot para ilustrar cómo los errores más altos parecen concentrarse en el medio de la gráfica de residuos, por lo tanto, potencialmente indicando una mayor varianza en esa área.
Robert Kubrick

Respuestas:

15

Este problema tiene una sensación exploratoria. John Tukey describe muchos procedimientos para explorar la heterocedasticidad en su clásico, Análisis Exploratorio de Datos (Addison-Wesley 1977). Quizás lo más directamente útil es una variante de su " trama esquemática errante ". Esto divide una variable (como el valor predicho) en contenedores y usa resúmenes de letras m (generalizaciones de diagramas de caja) para mostrar la ubicación, la distribución y la forma de la otra variable para cada contenedor. Las estadísticas de la letra m se suavizan aún más para enfatizar los patrones generales en lugar de las desviaciones fortuitas.

Se puede preparar una versión rápida explotando el boxplotprocedimiento en R. Ilustramos con datos fuertemente heterocedasticos simulados:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Datos

Obtengamos los valores pronosticados y los residuos de la regresión OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Aquí, entonces, está el diagrama esquemático errante usando contenedores de conteo igual para los valores pronosticados. Yo uso lowesspara un rápido y sucio suave.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Diagrama esquemático errante

La curva azul suaviza las medianas. Su tendencia horizontal indica que la regresión es generalmente un buen ajuste. Las otras curvas suavizan los extremos de la caja (cuartiles) y las cercas (que generalmente son valores extremos). Su fuerte convergencia y posterior separación dan testimonio de la heterocedasticidad, y nos ayudan a caracterizarla y cuantificarla.

(Observe la escala no lineal en el eje horizontal, que refleja la distribución de los valores pronosticados. Con un poco más de trabajo, este eje podría linealizarse, lo que a veces es útil).

whuber
fuente
66
Buen ejemplo, hubiera pensado que alguna implementación de cuantiles en ejecución estaba disponible en R (para evitar el problema con los contenedores por completo). Algo me recuerda a las parcelas de bolsas . También vea la extensión de Rob Hyndman en su paquete Rainbow.
Andy W
9

Por lo general, la heterocedasticidad se modela utilizando un enfoque Breusch-Pagan. Los residuos de su regresión lineal se cuadran y regresan a las variables en su modelo lineal original. La última regresión se llama regresión auxiliar .

norteRun2, dónde norte es el número de observaciones y Run2 es el R2 de la regresión auxiliar sirve como estadística de prueba para la hipótesis nula de homoscedasticidad.

Para sus propósitos, podría enfocarse en los coeficientes individuales de este modelo para ver qué variables son más predictivas de resultados de varianza alta o baja.

Charlie
fuente
1
+1 Pero tenga en cuenta que tales pruebas están limitadas en las formas de heteroscedasticidad que pueden detectar. Ejemplos como el que se muestra en mi respuesta pueden pasar por alto, a pesar de que la heterocedasticidad es extremadamente fuerte.
whuber