¿La mejor manera de lidiar con la heteroscedasticidad?

19

Tengo una gráfica de valores residuales de un modelo lineal en función de los valores ajustados donde la heterocedasticidad es muy clara. Sin embargo, no estoy seguro de cómo proceder ahora porque, por lo que entiendo, esta heterocedasticidad invalida mi modelo lineal. (¿Está bien?)

  1. Use un ajuste lineal robusto usando la rlm()función del MASSpaquete porque aparentemente es resistente a la heterocedasticidad.

  2. Como los errores estándar de mis coeficientes son incorrectos debido a la heterocedasticidad, ¿puedo ajustar los errores estándar para que sean robustos a la heterocedasticidad? Usando el método publicado en Stack Overflow aquí: Regresión con errores estándar corregidos de heterocedasticidad

¿Cuál sería el mejor método para tratar mi problema? Si uso la solución 2, ¿es completamente inútil mi capacidad de predicción de mi modelo?

La prueba de Breusch-Pagan confirmó que la varianza no es constante.

Mis residuos en función de los valores ajustados se ven así:

https://i.gyazo.com/9407a829a168492b31dfa3d1dd33a21d.png

(versión más grande)

TristanDM
fuente
¿Te refieres a 'stackoverflow' en lugar de 'stackexchange'? (todavía está en stackexchange aquí). Si fue SO, generalmente es mejor migrar la pregunta en lugar de publicar una segunda copia (la ayuda le pide que no publique la misma Q varias veces, sino que elija el mejor lugar).
Glen_b -Reinstate Monica el
La variación en la propagación no es tanto que el impacto sea grave (es decir, aunque sesgará sus errores estándar y, por lo tanto, la inferencia de impacto, probablemente no hará una gran diferencia). Me inclinaría a considerar si la propagación estaba relacionada con la media, y tal vez mirar un GLM o posiblemente una transformación (seguro que parece relacionado con el ajuste). ¿Cuál es la variable y?
Glen_b -Reinstate Monica el
2
Otra posibilidad es modelar la heterocedasticidad, por ejemplo, usando glsy una de las estructuras de varianza del paquete nlme.
Roland

Respuestas:

18

Es una buena pregunta, pero creo que es la pregunta equivocada. Su figura deja en claro que tiene un problema más fundamental que la heterocedasticidad, es decir, su modelo tiene una no linealidad que no ha tenido en cuenta. Muchos de los problemas potenciales que puede tener un modelo (no linealidad, interacciones, valores atípicos, heterocedasticidad, no normalidad) pueden enmascararse entre sí. No creo que haya una regla dura y rápida, pero en general sugeriría tratar los problemas en el orden

outliers > nonlinearity > heteroscedasticity > non-normality

(por ejemplo, no se preocupe por la no linealidad antes de verificar si hay observaciones extrañas que sesguen el ajuste; no se preocupe por la normalidad antes de preocuparse por la heterocedasticidad).

En este caso particular, ajustaría un modelo cuadrático y ~ poly(x,2)( poly(x,2,raw=TRUE)oo y ~ x + I(x^2)y vería si hace que el problema desaparezca).

Ben Bolker
fuente
La trama es pequeña y los ejes no están etiquetados. No sé si es una trama residual vs ajustada. Supuse que el OP incluía un término al cuadrado, por ejemplo. Si no, tienes toda la razón.
gung - Restablece a Monica
1
en mi navegador puedo ver que el rango del eje y va de -4 a 3, lo que parece sugerir una gráfica de residuos versus ajustada / descartar una gráfica de ubicación de escala ...
Ben Bolker
1
Hola Ben, ama lo que haces. ¿Puede ampliar la idea de que los "valores atípicos" son el mayor problema? ¿Incluye puntos únicos de alto apalancamiento como "valores atípicos" incluso si tienen un pequeño residuo? Trato con observaciones de valor extremo todo el tiempo en mi línea de trabajo (estadísticas ambientales), y encuentro que algunas personas (la EPA en particular) tienden a soplar fuera de proporción (perdona cualquier juego de palabras involuntario) y son demasiado ansiosos para excluirlos. Tiendo a adoptar una actitud tolerante hacia los valores atípicos si no puedo encontrar buena evidencia de que son claramente el resultado del error de datos (recopilación, entrada).
Dalton Hance
1
@DaltonHance: probablemente estamos más o menos en la misma página. Mi punto es solo que si tiene valores atípicos (por cualquier definición) y no se tienen en cuenta por ningún modelo / enfoque estadístico que esté utilizando (modelos mixtos, estadísticas robustas, distribuciones de cola gruesa, etc.), entonces tenderá a arruinar todo el resto de sus diagnósticos; hará que los residuos se vean no lineales / heteroscedasticos / no normales. Ciertamente estoy de acuerdo en que no deberías simplemente tirarlos irreflexivamente / reflexivamente.
Ben Bolker
8

Enumero una serie de métodos para tratar la heterocedasticidad (con Rejemplos) aquí: Alternativas al ANOVA unidireccional para datos heteroscedasticos . Muchas de esas recomendaciones serían menos ideales porque tiene una sola variable continua, en lugar de una variable categórica de varios niveles, pero de todos modos sería bueno leerla como una descripción general.

Para su situación, los mínimos cuadrados ponderados (quizás combinados con una regresión robusta si sospecha que puede haber algunos valores atípicos) serían una opción razonable. Usar los errores de sandwich Huber-White también sería bueno.

Aquí hay algunas respuestas a sus preguntas específicas:

  1. La regresión robusta es una opción viable, pero sería mejor si se combina con pesos en mi opinión. Si no le preocupa que la heterocedasticidad se deba a valores atípicos, puede usar una regresión lineal regular con pesos. Tenga en cuenta que la variación puede ser muy sensible a los valores atípicos, y sus resultados pueden ser sensibles a los pesos inapropiados, por lo que lo que podría ser más importante que usar una regresión robusta para el modelo final sería usar una medida robusta de dispersión para estimar los pesos. En el hilo vinculado, uso 1 / IQR, por ejemplo.
  2. Los errores estándar son incorrectos debido a la heterocedasticidad. Puede ajustar los errores estándar con el estimador de emparedado Huber-White. Eso es lo que está haciendo @GavinSimpson en el hilo SO vinculado.

La heterocedasticidad no hace que su modelo lineal sea totalmente inválido. Afecta principalmente a los errores estándar. Si no tiene valores atípicos, los métodos de mínimos cuadrados deben permanecer imparciales. Por lo tanto, la precisión predictiva de las predicciones puntuales no debería verse afectada. La cobertura de los intervalos de predicciones se vería afectado si no modelar la varianza en función de y usarlo para ajustar el ancho de los intervalos de predicción condicionada a . XXX

gung - Restablece a Monica
fuente
1
el uso de una regresión robusta del paquete lmrob inferiría automáticamente algunos pesos, ¿por qué no usarlos en el n. ° 1?
tool.ish
1

Cargue sandwich packagey calcule la matriz var-cov de su regresión con var_cov<-vcovHC(regression_result, type = "HC4")(lea el manual de sandwich). Ahora con el lmtest packageuso de la coeftestfunción:

coeftest(regression_result, df = Inf, var_cov)
Giacomo Rosaspina
fuente
0

¿Cómo se ve la distribución de sus datos? ¿Se parece a una curva de campana? A partir del tema, ¿se puede distribuir normalmente? La duración de una llamada telefónica puede no ser negativa, por ejemplo. Entonces, en ese caso específico de llamadas, una distribución gamma lo describe bien. Y con gamma puede usar el modelo lineal generalizado (glm en R)

Diego
fuente