Tengo una gráfica de valores residuales de un modelo lineal en función de los valores ajustados donde la heterocedasticidad es muy clara. Sin embargo, no estoy seguro de cómo proceder ahora porque, por lo que entiendo, esta heterocedasticidad invalida mi modelo lineal. (¿Está bien?)
Use un ajuste lineal robusto usando la
rlm()
función delMASS
paquete porque aparentemente es resistente a la heterocedasticidad.Como los errores estándar de mis coeficientes son incorrectos debido a la heterocedasticidad, ¿puedo ajustar los errores estándar para que sean robustos a la heterocedasticidad? Usando el método publicado en Stack Overflow aquí: Regresión con errores estándar corregidos de heterocedasticidad
¿Cuál sería el mejor método para tratar mi problema? Si uso la solución 2, ¿es completamente inútil mi capacidad de predicción de mi modelo?
La prueba de Breusch-Pagan confirmó que la varianza no es constante.
Mis residuos en función de los valores ajustados se ven así:
(versión más grande)
fuente
gls
y una de las estructuras de varianza del paquete nlme.Respuestas:
Es una buena pregunta, pero creo que es la pregunta equivocada. Su figura deja en claro que tiene un problema más fundamental que la heterocedasticidad, es decir, su modelo tiene una no linealidad que no ha tenido en cuenta. Muchos de los problemas potenciales que puede tener un modelo (no linealidad, interacciones, valores atípicos, heterocedasticidad, no normalidad) pueden enmascararse entre sí. No creo que haya una regla dura y rápida, pero en general sugeriría tratar los problemas en el orden
(por ejemplo, no se preocupe por la no linealidad antes de verificar si hay observaciones extrañas que sesguen el ajuste; no se preocupe por la normalidad antes de preocuparse por la heterocedasticidad).
En este caso particular, ajustaría un modelo cuadrático
y ~ poly(x,2)
(poly(x,2,raw=TRUE)
ooy ~ x + I(x^2)
y vería si hace que el problema desaparezca).fuente
Enumero una serie de métodos para tratar la heterocedasticidad (con
R
ejemplos) aquí: Alternativas al ANOVA unidireccional para datos heteroscedasticos . Muchas de esas recomendaciones serían menos ideales porque tiene una sola variable continua, en lugar de una variable categórica de varios niveles, pero de todos modos sería bueno leerla como una descripción general.Para su situación, los mínimos cuadrados ponderados (quizás combinados con una regresión robusta si sospecha que puede haber algunos valores atípicos) serían una opción razonable. Usar los errores de sandwich Huber-White también sería bueno.
Aquí hay algunas respuestas a sus preguntas específicas:
La heterocedasticidad no hace que su modelo lineal sea totalmente inválido. Afecta principalmente a los errores estándar. Si no tiene valores atípicos, los métodos de mínimos cuadrados deben permanecer imparciales. Por lo tanto, la precisión predictiva de las predicciones puntuales no debería verse afectada. La cobertura de los intervalos de predicciones se vería afectado si no modelar la varianza en función de y usarlo para ajustar el ancho de los intervalos de predicción condicionada a . XX X
fuente
Cargue
sandwich package
y calcule la matriz var-cov de su regresión convar_cov<-vcovHC(regression_result, type = "HC4")
(lea el manual desandwich
). Ahora con ellmtest package
uso de lacoeftest
función:fuente
¿Cómo se ve la distribución de sus datos? ¿Se parece a una curva de campana? A partir del tema, ¿se puede distribuir normalmente? La duración de una llamada telefónica puede no ser negativa, por ejemplo. Entonces, en ese caso específico de llamadas, una distribución gamma lo describe bien. Y con gamma puede usar el modelo lineal generalizado (glm en R)
fuente