Como ejemplo, considere el ChickWeight
conjunto de datos en R. La varianza obviamente crece con el tiempo, así que si uso una regresión lineal simple como:
m <- lm(weight ~ Time*Diet, data=ChickWeight)
Mis preguntas:
- ¿Qué aspectos del modelo serán cuestionables?
- ¿Se limitan los problemas a extrapolar fuera del
Time
rango? - ¿Qué tan tolerante es la regresión lineal a la violación de esta suposición (es decir, qué tan heterocedástica tiene que ser para causar problemas)?
Respuestas:
El modelo lineal (o "mínimos cuadrados ordinarios") todavía tiene su propiedad de imparcialidad en este caso.
Ante la heterocedasticidad en términos de error, todavía tiene estimaciones de parámetros imparciales, pero pierde en la matriz de covarianza: su inferencia (es decir, pruebas de parámetros) puede estar desactivada. La solución común es utilizar un método robusto para calcular la matriz de covarianza, también conocida como errores estándar. El que utilices depende un poco del dominio, pero el método de White es un comienzo.
Y para completar, la correlación serial de los términos de error es peor ya que conducirá a estimaciones de parámetros sesgadas.
fuente
La homocedasticidad es uno de los supuestos de Gauss Markov que se requieren para que OLS sea el mejor estimador imparcial lineal (AZUL).
Resumiendo brevemente la información de los sitios web anteriores, la heterocedasticidad no introduce un sesgo en las estimaciones de sus coeficientes. Sin embargo, dada la heterocedasticidad, no puede estimar adecuadamente la matriz de varianza-covarianza. Por lo tanto, los errores estándar de los coeficientes son incorrectos. Esto significa que uno no puede calcular ninguna estadística t y valores p y, en consecuencia, no es posible la prueba de hipótesis. En general, bajo heteroscedasticidad, OLS pierde su eficiencia y ya no es AZUL.
Sin embargo, la heterocedasticidad no es el fin del mundo. Afortunadamente, corregir la heterocedasticidad no es difícil. El estimador sandwich le permite estimar errores estándar consistentes para los coeficientes. Sin embargo, calcular los errores estándar a través del estimador sandwich tiene un costo. El estimador no es muy eficiente y los errores estándar pueden ser muy grandes. Una forma de recuperar parte de la eficiencia es agrupar los errores estándar si es posible.
Puede encontrar información más detallada sobre este tema en los sitios web que mencioné anteriormente.
fuente
La ausencia de homocedasticidad puede dar estimaciones de error estándar poco confiables de los parámetros. Las estimaciones de los parámetros son insesgadas. Pero las estimaciones pueden no ser eficientes (no AZUL). Puedes encontrar más en el siguiente enlace
fuente
fuente
Hay buena información aquí en las otras respuestas, particularmente a su primera pregunta. Pensé que agregaría información complementaria sobre sus dos últimas preguntas.
fuente