Hay varios hilos en este sitio que discuten cómo determinar si los residuos de OLS se distribuyen asintóticamente normalmente. Otra forma de evaluar la normalidad de los residuos con el código R se proporciona en este excelente respuesta . Esta es otra discusión sobre la diferencia práctica entre los residuos estandarizados y observados.
Pero digamos que los residuos definitivamente no se distribuyen normalmente, como en este ejemplo . Aquí tenemos varios miles de observaciones y claramente debemos rechazar la suposición de residuos distribuidos normalmente. Una forma de abordar el problema es emplear alguna forma de estimador robusto como se explica en la respuesta. Sin embargo, no estoy limitado a OLS y, de hecho, me gustaría comprender los beneficios de otras metodologías glm o no lineales.
¿Cuál es la forma más eficiente de modelar datos que violan la suposición de normalidad de residuos de MCO? ¿O al menos cuál debería ser el primer paso para desarrollar una metodología sólida de análisis de regresión?
fuente
Respuestas:
La estimación de mínimos cuadrados ordinarios sigue siendo un estimador razonable frente a errores no normales. En particular, el teorema de Gauss-Markov establece que la estimación de mínimos cuadrados ordinarios es el mejor estimador imparcial lineal (AZUL) de los coeficientes de regresión ('Mejor' significa óptimo en términos de minimizar el error cuadrático medio ) siempre que los errores
(1) tiene media cero
(2) no están correlacionados
(3) tienen varianza constante
Tenga en cuenta que no hay condición de normalidad aquí (o incluso cualquier condición de que los errores sean IID ).
La condición de normalidad entra en juego cuando intentas obtener intervalos de confianza y / o valores . Como @MichaelChernick menciona (+1, por cierto), puede usar una inferencia robusta cuando los errores no son normales siempre que el método pueda manejar la desviación de la normalidad, por ejemplo, (como discutimos en este hilo) el Huber -estimator puede proporcionar una inferencia robusta cuando la verdadera distribución de errores es la mezcla entre una distribución normal y una distribución de cola larga (como se ve en su ejemplo) pero puede no ser útil para otras desviaciones de la normalidad. Una posibilidad interesante a la que Michael alude es el arranque para obtener intervalos de confianza para las estimaciones de OLS y ver cómo esto se compara con la inferencia basada en Huber.p M
Editar: a menudo escucho decir que puede confiar en el Teorema del límite central para encargarse de los errores no normales; esto no siempre es cierto (no solo estoy hablando de contraejemplos donde falla el teorema). En el ejemplo de datos reales al que se refiere el OP, tenemos un gran tamaño de muestra, pero podemos ver evidencia de una distribución de errores de cola larga; en situaciones en las que tiene errores de cola larga, no necesariamente puede confiar en el Teorema del límite central para dar tiene una inferencia aproximadamente imparcial para tamaños de muestra finitos realistas Por ejemplo, si los errores siguen una distribución con grados de libertad (que claramente no es mást 2.01 de cola larga que los errores vistos en los datos del OP), las estimaciones de los coeficientes se distribuyen asintóticamente normalmente, pero se tarda mucho más en "patear" que en otras distribuciones de cola más corta.
A continuación, demuestro con una simulación cruda enyi=1+2xi+εi εi∼t2.01 β^1 n=4000
R
que cuando , donde , la distribución de muestreo de todavía tiene una cola bastante larga, incluso cuando el tamaño de la muestra es :fuente
Creo que quieres ver todas las propiedades de los residuos.
Si es solo 1 y se debe a colas pesadas o asimetría debido a una cola pesada, la regresión robusta podría ser un buen enfoque o posiblemente una transformación a la normalidad. Si es una varianza no constante, intente una transformación estabilizadora de varianza o intente modelar la función de varianza. Si es solo 3, eso sugiere una forma diferente de modelo que involucra esa covariable. Cualquiera que sea el problema, el arranque de los vectores o reiduales siempre es una opción.
fuente
rms
paquete R. Pero como sugirió, encontrar una transformación que mejore la estabilidad de la varianza y, a veces, mejorar la normalidad de los residuos a menudo tiene varias ventajas, incluso si arrancamos. Las estimaciones de mínimos cuadrados que utilizan la transformación "incorrecta" pueden ser muy ineficientes y dar lugar a grandes errores absolutos medios y absolutos medios en las predicciones. También me gusta usar modelos de regresión semiparamétricos.Mi experiencia está completamente de acuerdo con Michael Chernick. La aplicación de una transformación de datos no solo hace que el error de modelado se distribuya normalmente, sino que también puede corregir la heterocedasticidad.
Lo siento, pero sugerir lo contrario, como recopilar una cantidad increíble de datos, o emplear métodos de regresión robustos menos eficientes, es erróneo, en mi opinión, practicar esta ciencia / arte.
fuente
Macro (jsut arriba) declaró la respuesta correcta. Solo un poco de precisión porque tenía la misma pregunta
La condición de normalidad de los residuos es útil cuando los residuos también son homoskedastic. El resultado es que OLS tiene la varianza más pequeña entre todos los estimadores (lineal O no lineal).
Los supuestos extendidos de OLS:
si se verifica 1-5, entonces OLS tiene la varianza más pequeña entre todos los estimadores (lineal O no lineal) .
si solo se verifica 1-4, entonces, según Gauss-Markov, OLS es el mejor estimador lineal (¡solo!) (AZUL).
Fuente: Stock and Watson, Econometría + mi curso (EPFL, Econometría)
fuente
Para condiciones no normales, a veces se recurría a una regresión robusta , especialmente usando los enlaces a los métodos .
Para presentar el contexto de no normalidad, puede ser útil revisar los supuestos para la regresión lineal de OLS , que son:
La relación estadística entre los términos de error y los regresores juega un papel importante para determinar si un procedimiento de estimación tiene propiedades de muestreo deseables, como ser imparcial y consistente.
La disposición o distribución de probabilidad de las variables predictoras x tiene una influencia importante en la precisión de las estimaciones de β. El muestreo y el diseño de experimentos son subcampos de estadísticas altamente desarrollados que proporcionan orientación para recopilar datos de tal manera que se pueda obtener una estimación precisa de β.
Como esta respuesta ilustra, simulado Student's- distribuye eje x errores a partir de una línea de plomo a las líneas de regresión por mínimos cuadrados con intervalos de confianza para pendiente y la intersección que el aumento de tamaño que los grados de libertad ( ) disminución. Para , Student's- es una distribución de Cauchy y los intervalos de confianza para la pendiente se convierten en .t y df df=1 t (−∞,+∞)
Es arbitrario invocar la distribución de Cauchy con respecto a los residuos en el sentido de que cuando los errores de generación se distribuyen con Cauchy, los residuos de OLS de una línea espuria a través de los datos serían aún menos confiables, es decir, la basura en la basura. En esos casos, uno puede usar la regresión de regresión de Theil-Sen . Theil-Sen es ciertamente más robusto que el OLS para residuos no normales, por ejemplo, el error distribuido de Cauchy no degradaría los intervalos de confianza y, a diferencia del OLS, también es una regresión bivariada, sin embargo, en el caso bivariado todavía está sesgado. La regresión Passing-Bablok puede ser más imparcial bivariada, pero no se aplica a las pendientes de regresión negativa. Se usa más comúnmente para los estudios de comparación de métodos. Uno debería mencionar la regresión de Demingaquí, a diferencia de las regresiones de Theil-Sen y Passing-Bablok, es una solución real al problema bivariado, pero carece de la solidez de esas otras regresiones. La robustez se puede aumentar truncando los datos para incluir los valores más centrales, por ejemplo, el consenso de muestras aleatorias (RANSAC) es un método iterativo para estimar los parámetros de un modelo matemático a partir de un conjunto de datos observados que contiene valores atípicos.
¿Qué es entonces la regresión bivariada? La falta de pruebas para la naturaleza bivariada de los problemas es la causa más frecuente de la dilución de la regresión de OLS y se ha presentado muy bien en otras partes de este sitio. El concepto de sesgo de OLS en este contexto no está bien reconocido, véase, por ejemplo, Frost y Thompson, presentado por Longford et al. (2001), que remite al lector a otros métodos, ampliando el modelo de regresión para reconocer la variabilidad en la variable , de modo que no surja sesgo . En otras palabras, la regresión de casos bivariada a veces no se puede ignorar cuando tanto comox 1 x y -los valores se distribuyen aleatoriamente. La necesidad de una regresión bivariada puede probarse ajustando una línea de regresión OLS a los residuos de una regresión OLS de los datos. Entonces, si los residuos de OLS tienen una pendiente distinta de cero, el problema es bivariado y la regresión de OLS de los datos tendrá una magnitud de pendiente que es demasiado superficial y una intersección de magnitud demasiado grande para ser representativa de la relación funcional entre e . En esos casos, el estimador lineal de menor error de los valores aún sería de la regresión OLS, y su valor R estará en un valor máximo posible, pero la línea de regresión OLS no representará la función de línea real que se relaciona la yx y y 2 x y variables aleatorias. Como contraejemplo, cuando, como ocurre entre otros problemas en una serie de tiempo con valores equidistantes , los MCO de los datos sin procesar no siempre son inapropiados, pueden representar la mejor línea , pero aún están sujetos a transformación variable, por ejemplo, para datos de recuento, se tomaría la raíz cuadrada de los recuentos para convertir los errores para el error distribuido de Poisson en condiciones más normales, y aún se debe verificar la pendiente de los residuos que no sea cero. x y=f(x)
fuente