Este enlace de wikipedia enumera una serie de técnicas para detectar la heterocedasticidad residual de OLS. Me gustaría saber qué técnica práctica es más eficiente en la detección de regiones afectadas por la heterocedasticidad.
Por ejemplo, aquí la región central en la trama 'Residuals vs Fitted' de OLS tiene una mayor varianza que los lados de la trama (no estoy completamente seguro de los hechos, pero supongamos que es el caso por el bien de la pregunta). Para confirmar, observando las etiquetas de error en la gráfica QQ podemos ver que coinciden con las etiquetas de error en el centro de la gráfica de Residuos.
Pero, ¿cómo podemos cuantificar la región de residuos que tiene una varianza significativamente mayor?
regression
least-squares
heteroscedasticity
Robert Kubrick
fuente
fuente
Respuestas:
Este problema tiene una sensación exploratoria. John Tukey describe muchos procedimientos para explorar la heterocedasticidad en su clásico, Análisis Exploratorio de Datos (Addison-Wesley 1977). Quizás lo más directamente útil es una variante de su " trama esquemática errante ". Esto divide una variable (como el valor predicho) en contenedores y usa resúmenes de letras m (generalizaciones de diagramas de caja) para mostrar la ubicación, la distribución y la forma de la otra variable para cada contenedor. Las estadísticas de la letra m se suavizan aún más para enfatizar los patrones generales en lugar de las desviaciones fortuitas.
Se puede preparar una versión rápida explotando el
boxplot
procedimiento enR
. Ilustramos con datos fuertemente heterocedasticos simulados:Obtengamos los valores pronosticados y los residuos de la regresión OLS:
Aquí, entonces, está el diagrama esquemático errante usando contenedores de conteo igual para los valores pronosticados. Yo uso
lowess
para un rápido y sucio suave.La curva azul suaviza las medianas. Su tendencia horizontal indica que la regresión es generalmente un buen ajuste. Las otras curvas suavizan los extremos de la caja (cuartiles) y las cercas (que generalmente son valores extremos). Su fuerte convergencia y posterior separación dan testimonio de la heterocedasticidad, y nos ayudan a caracterizarla y cuantificarla.
(Observe la escala no lineal en el eje horizontal, que refleja la distribución de los valores pronosticados. Con un poco más de trabajo, este eje podría linealizarse, lo que a veces es útil).
fuente
Por lo general, la heterocedasticidad se modela utilizando un enfoque Breusch-Pagan. Los residuos de su regresión lineal se cuadran y regresan a las variables en su modelo lineal original. La última regresión se llama regresión auxiliar .
Para sus propósitos, podría enfocarse en los coeficientes individuales de este modelo para ver qué variables son más predictivas de resultados de varianza alta o baja.
fuente