Regresión cuando los residuos de OLS no se distribuyen normalmente

45

Hay varios hilos en este sitio que discuten cómo determinar si los residuos de OLS se distribuyen asintóticamente normalmente. Otra forma de evaluar la normalidad de los residuos con el código R se proporciona en este excelente respuesta . Esta es otra discusión sobre la diferencia práctica entre los residuos estandarizados y observados.

Pero digamos que los residuos definitivamente no se distribuyen normalmente, como en este ejemplo . Aquí tenemos varios miles de observaciones y claramente debemos rechazar la suposición de residuos distribuidos normalmente. Una forma de abordar el problema es emplear alguna forma de estimador robusto como se explica en la respuesta. Sin embargo, no estoy limitado a OLS y, de hecho, me gustaría comprender los beneficios de otras metodologías glm o no lineales.

¿Cuál es la forma más eficiente de modelar datos que violan la suposición de normalidad de residuos de MCO? ¿O al menos cuál debería ser el primer paso para desarrollar una metodología sólida de análisis de regresión?

Robert Kubrick
fuente
55
También hay varios hilos que discuten cómo la normalidad es esencialmente irrelevante para muchos propósitos. Si tiene observaciones independientes, y al menos un tamaño de muestra moderado, lo único que importa para la inferencia OLS es que todos los residuos tienen la misma varianza. No es normalidad. Si utiliza estimaciones robustas / consistentes de heterocedasticidad / sándwich / Huber-Eicker-White de error estándar, ni siquiera se requiere el requisito de varianza constante.
invitado
@guest Solo estoy leyendo sobre la eficiencia de la prueba de normalidad en ese hilo. El análisis de regresión ni siquiera está etiquetado.
Robert Kubrick
Prueba este . Aquí hay un enlace externo . Y vea los capítulos de OLS de, por ejemplo, Stock y Watson, Introducción a la Econometría . ¡Juro que no estoy inventando esto!
invitado
@guest Los dos enlaces se ocupan de la distribución normal de los resultados, no de los residuos.
Robert Kubrick
1
No, no lo hacen. Los autores a menudo se refieren a la "distribución de Y" como una abreviatura de la "distribución de Y condicional a X". Para volver a su pregunta original; a menos que tenga una muestra pequeña o datos de cola masiva, el uso de OLS con errores estándar robustos es un buen primer paso. En estos casos, la normalidad no es un problema.
invitado

Respuestas:

54

La estimación de mínimos cuadrados ordinarios sigue siendo un estimador razonable frente a errores no normales. En particular, el teorema de Gauss-Markov establece que la estimación de mínimos cuadrados ordinarios es el mejor estimador imparcial lineal (AZUL) de los coeficientes de regresión ('Mejor' significa óptimo en términos de minimizar el error cuadrático medio ) siempre que los errores

(1) tiene media cero

(2) no están correlacionados

(3) tienen varianza constante

Tenga en cuenta que no hay condición de normalidad aquí (o incluso cualquier condición de que los errores sean IID ).

La condición de normalidad entra en juego cuando intentas obtener intervalos de confianza y / o valores . Como @MichaelChernick menciona (+1, por cierto), puede usar una inferencia robusta cuando los errores no son normales siempre que el método pueda manejar la desviación de la normalidad, por ejemplo, (como discutimos en este hilo) el Huber -estimator puede proporcionar una inferencia robusta cuando la verdadera distribución de errores es la mezcla entre una distribución normal y una distribución de cola larga (como se ve en su ejemplo) pero puede no ser útil para otras desviaciones de la normalidad. Una posibilidad interesante a la que Michael alude es el arranque para obtener intervalos de confianza para las estimaciones de OLS y ver cómo esto se compara con la inferencia basada en Huber.pM

Editar: a menudo escucho decir que puede confiar en el Teorema del límite central para encargarse de los errores no normales; esto no siempre es cierto (no solo estoy hablando de contraejemplos donde falla el teorema). En el ejemplo de datos reales al que se refiere el OP, tenemos un gran tamaño de muestra, pero podemos ver evidencia de una distribución de errores de cola larga; en situaciones en las que tiene errores de cola larga, no necesariamente puede confiar en el Teorema del límite central para dar tiene una inferencia aproximadamente imparcial para tamaños de muestra finitos realistas Por ejemplo, si los errores siguen una distribución con grados de libertad (que claramente no es mást2.01 de cola larga que los errores vistos en los datos del OP), las estimaciones de los coeficientes se distribuyen asintóticamente normalmente, pero se tarda mucho más en "patear" que en otras distribuciones de cola más corta.

A continuación, demuestro con una simulación cruda en Rque cuando , donde , la distribución de muestreo de todavía tiene una cola bastante larga, incluso cuando el tamaño de la muestra es :yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

ingrese la descripción de la imagen aquí

Macro
fuente
2
+1, esta es una excelente visión general del tema. Aprecio especialmente la edición. ¿Hay algo especial sobre ? Eso parece terriblemente específico. df=2.01
gung - Restablece a Monica
2
@gung, gracias. Elegí ya que la varianza de una variable aleatoria distribuida no existe cuando y, por lo tanto, el teorema del límite central no se aplicaría. df=2.01tdf2
Macro
1
@guest, este fue un ejemplo artificial solo para mostrar que no puede confiar ciegamente en el CLT cuando tiene errores de cola larga. Estoy de acuerdo en que esto es extremo para muchas aplicaciones, pero en el ejemplo ( stats.stackexchange.com/questions/29636/… ) al que se refiere el OP, los datos muestran una distribución de error de cola muy larga: la forma es un poco diferente de , pero no es claramente menos de cola larga, y resultó de datos reales. Había editado mi "Editar" para resaltar esto. t2.01
Macro
2
@Macro, estoy de acuerdo con el uso ciego del CLT. Pero requerir datos normales para intervalos de confianza y valores , y no solo requerir datos de cola ligera, es una exageración considerable, y fomenta, por ejemplo, transformaciones normales inversas, que solo dificultan la interpretación de la salida. El equilibrio a seguir es entre responder la pregunta correcta aproximadamente frente a la pregunta incorrecta con precisión; Si el correcto implica la comparación de las medias de la población, el uso de MCO es el camino correcto. p
invitado
2
@ invitado, nunca estaba discutiendo contra OLS. De hecho, creo que una gran parte de mi respuesta fue que OLS era algo razonable, independientemente de cualquier supuesto de distribución. Tampoco he argumentado que se debe cumplir la estricta normalidad para hacer inferencia; lo que digo es que, cuando tiene errores de cola larga, la inferencia basada en la aproximación normal puede ser engañosa (no estoy seguro de cómo / si esto no está de acuerdo en todo con lo que está diciendo) y sería aconsejable considerar una alternativa (por ejemplo, bootstrap). .
Macro
10

Creo que quieres ver todas las propiedades de los residuos.

  1. normalidad
  2. varianza constante
  3. correlacionado con una covariable.
  4. combinaciones de lo anterior

Si es solo 1 y se debe a colas pesadas o asimetría debido a una cola pesada, la regresión robusta podría ser un buen enfoque o posiblemente una transformación a la normalidad. Si es una varianza no constante, intente una transformación estabilizadora de varianza o intente modelar la función de varianza. Si es solo 3, eso sugiere una forma diferente de modelo que involucra esa covariable. Cualquiera que sea el problema, el arranque de los vectores o reiduales siempre es una opción.

Michael Chernick
fuente
Para 1, ¿puede elaborar un poco sobre la transformación a la normalidad para los residuos de cola pesada?
Robert Kubrick
2
transformación de registro o Box-Cox con lambda pequeña encoge las colas. Eso puede funcionar para alguna distribución de cola pesada y sesgada. No sé si alguna transformación funcionará para distribuciones de cola muy pesada.
Michael Chernick
3
Nice responde a Michael. He comenzado a usar de manera más rutinaria el bootstrap para intervalos de confianza que involucran estimaciones de regresión y contrastes generales, y he hecho esto fácil de hacer en mi rmspaquete R. Pero como sugirió, encontrar una transformación que mejore la estabilidad de la varianza y, a veces, mejorar la normalidad de los residuos a menudo tiene varias ventajas, incluso si arrancamos. Las estimaciones de mínimos cuadrados que utilizan la transformación "incorrecta" pueden ser muy ineficientes y dar lugar a grandes errores absolutos medios y absolutos medios en las predicciones. También me gusta usar modelos de regresión semiparamétricos.
Frank Harrell
2

Mi experiencia está completamente de acuerdo con Michael Chernick. La aplicación de una transformación de datos no solo hace que el error de modelado se distribuya normalmente, sino que también puede corregir la heterocedasticidad.

Lo siento, pero sugerir lo contrario, como recopilar una cantidad increíble de datos, o emplear métodos de regresión robustos menos eficientes, es erróneo, en mi opinión, practicar esta ciencia / arte.

AJKOER
fuente
1

Macro (jsut arriba) declaró la respuesta correcta. Solo un poco de precisión porque tenía la misma pregunta

La condición de normalidad de los residuos es útil cuando los residuos también son homoskedastic. El resultado es que OLS tiene la varianza más pequeña entre todos los estimadores (lineal O no lineal).

Los supuestos extendidos de OLS:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n, son iid
  3. Los valores atípicos grandes son raros
  4. eres homoskedastic
  5. u se distribuyeN(0,σ2)

si se verifica 1-5, entonces OLS tiene la varianza más pequeña entre todos los estimadores (lineal O no lineal) .

si solo se verifica 1-4, entonces, según Gauss-Markov, OLS es el mejor estimador lineal (¡solo!) (AZUL).

Fuente: Stock and Watson, Econometría + mi curso (EPFL, Econometría)

firepod
fuente
No se requiere normalidad para los mínimos cuadrados ordinarios en y residuales, aunque la normalidad confiere algunas propiedades deseables, por ejemplo, para el análisis de máxima verosimilitud. Este último se usa a menudo para el criterio de información de Akaike. Sin embargo, esto es innecesariamente restrictivo, se encuentra con poca frecuencia, y el requisito más formal es la homocedasticidad, no la normalidad, lo cual es una suerte, ya que en el caso contrario, sería poco útil para los mínimos cuadrados ordinarios en y.
Carl
@Carl: estrictamente hablando, no hay ningún tipo de requisito para OLS, ni siquiera 1 o 2 (pida a Excel que ejecute una regresión y no hará preguntas): la normalidad es una de varias propiedades que hacen que la inferencia sea sensible, por ejemplo, predicción, confianza intervalos, pruebas.
PatrickT
@PatrickT La capacidad de calcular algo no confiere significado. Por ejemplo, la regresión lineal de OLS sobre una línea con errores de valor distribuido de Cauchy aumenta los IC de pendiente e intercepta para admitir prácticamente cualquier cosa, no devuelve la línea o pendiente original. Uno podría llamar a esto un cálculo pírrico. y
Carl
Debemos estar diciendo lo mismo. Quizás la redacción de tu primer comentario me confundió.
PatrickT
1

Para condiciones no normales, a veces se recurría a una regresión robusta , especialmente usando los enlaces a los métodos .

Para presentar el contexto de no normalidad, puede ser útil revisar los supuestos para la regresión lineal de OLS , que son:

  • Débil exogeneidad . Esto significa esencialmente que las variables predictoras, x , pueden tratarse como valores fijos, en lugar de variables aleatorias. Esto significa, por ejemplo, que se supone que las variables predictoras están libres de errores, es decir, que no están contaminadas con errores de medición. Esta suposición es la que se viola con mayor frecuencia y conduce a errores enumerados a continuación de esta lista de suposiciones.
  • Linealidad Esto significa que la media de la variable de respuesta es una combinación lineal de los parámetros (coeficientes de regresión) y las variables predictoras. Tenga en cuenta que esta suposición es mucho menos restrictiva de lo que parece a primera vista. Debido a que las variables predictoras se tratan como valores fijos (ver arriba), la linealidad es realmente solo una restricción en los parámetros. Las variables predictoras en sí mismas pueden transformarse arbitrariamente y, de hecho, pueden agregarse varias copias de la misma variable predictora subyacente, cada una transformada de manera diferente.
  • Variación constante (también conocida como homocedasticidad). Esto significa que diferentes valores de la variable de respuesta tienen la misma varianza en sus errores, independientemente de los valores de las variables predictoras. En la práctica, esta suposición no es válida (es decir, los errores son heterocedásticos) si la variable de respuesta puede variar a gran escala. Para verificar la varianza heterogénea del error, o cuando un patrón de residuos viola los supuestos del modelo de homocedasticidad (el error es igualmente variable alrededor de la "línea de mejor ajuste" para todos los puntos de x), es prudente buscar un "efecto de abanico" entre el error residual y los valores pronosticados. Esto quiere decir que habrá un cambio sistemático en los residuos absolutos o cuadrados cuando se grafican contra las variables predictivas. Los errores no se distribuirán uniformemente en la línea de regresión. La heterocedasticidad dará como resultado el promedio de las variaciones distinguibles alrededor de los puntos para obtener una única variación que representa de manera inexacta todas las variaciones de la línea. En efecto, los residuos aparecen agrupados y separados en sus gráficos predichos para valores más grandes y más pequeños para los puntos a lo largo de la línea de regresión lineal, y el error al cuadrado medio para el modelo será incorrecto.
  • Independencia de errores. Esto supone que los errores de las variables de respuesta no están correlacionados entre sí. (La independencia estadística real es una condición más fuerte que la mera falta de correlación y, a menudo, no es necesaria, aunque puede explotarse si se sabe que es válida. Esto último puede examinarse con análisis de conglomerados y corrección de interacción). Algunos métodos (por ejemplo, generalizados mínimos cuadrados) son capaces de manejar errores correlacionados, aunque generalmente requieren significativamente más datos a menos que se utilice algún tipo de regularización para sesgar el modelo hacia la suposición de errores no correlacionados. La regresión lineal bayesiana es una forma general de manejar este problema.
  • La relación estadística entre los términos de error y los regresores juega un papel importante para determinar si un procedimiento de estimación tiene propiedades de muestreo deseables, como ser imparcial y consistente.

  • La disposición o distribución de probabilidad de las variables predictoras x tiene una influencia importante en la precisión de las estimaciones de β. El muestreo y el diseño de experimentos son subcampos de estadísticas altamente desarrollados que proporcionan orientación para recopilar datos de tal manera que se pueda obtener una estimación precisa de β.

Como esta respuesta ilustra, simulado Student's- distribuye eje x errores a partir de una línea de plomo a las líneas de regresión por mínimos cuadrados con intervalos de confianza para pendiente y la intersección que el aumento de tamaño que los grados de libertad ( ) disminución. Para , Student's- es una distribución de Cauchy y los intervalos de confianza para la pendiente se convierten en .tydfdf=1t(,+)

Es arbitrario invocar la distribución de Cauchy con respecto a los residuos en el sentido de que cuando los errores de generación se distribuyen con Cauchy, los residuos de OLS de una línea espuria a través de los datos serían aún menos confiables, es decir, la basura en la basura. En esos casos, uno puede usar la regresión de regresión de Theil-Sen . Theil-Sen es ciertamente más robusto que el OLS para residuos no normales, por ejemplo, el error distribuido de Cauchy no degradaría los intervalos de confianza y, a diferencia del OLS, también es una regresión bivariada, sin embargo, en el caso bivariado todavía está sesgado. La regresión Passing-Bablok puede ser más imparcial bivariada, pero no se aplica a las pendientes de regresión negativa. Se usa más comúnmente para los estudios de comparación de métodos. Uno debería mencionar la regresión de Demingaquí, a diferencia de las regresiones de Theil-Sen y Passing-Bablok, es una solución real al problema bivariado, pero carece de la solidez de esas otras regresiones. La robustez se puede aumentar truncando los datos para incluir los valores más centrales, por ejemplo, el consenso de muestras aleatorias (RANSAC) es un método iterativo para estimar los parámetros de un modelo matemático a partir de un conjunto de datos observados que contiene valores atípicos.

¿Qué es entonces la regresión bivariada? La falta de pruebas para la naturaleza bivariada de los problemas es la causa más frecuente de la dilución de la regresión de OLS y se ha presentado muy bien en otras partes de este sitio. El concepto de sesgo de OLS en este contexto no está bien reconocido, véase, por ejemplo, Frost y Thompson, presentado por Longford et al. (2001), que remite al lector a otros métodos, ampliando el modelo de regresión para reconocer la variabilidad en la variable , de modo que no surja sesgo . En otras palabras, la regresión de casos bivariada a veces no se puede ignorar cuando tanto comox1xy-los valores se distribuyen aleatoriamente. La necesidad de una regresión bivariada puede probarse ajustando una línea de regresión OLS a los residuos de una regresión OLS de los datos. Entonces, si los residuos de OLS tienen una pendiente distinta de cero, el problema es bivariado y la regresión de OLS de los datos tendrá una magnitud de pendiente que es demasiado superficial y una intersección de magnitud demasiado grande para ser representativa de la relación funcional entre e . En esos casos, el estimador lineal de menor error de los valores aún sería de la regresión OLS, y su valor R estará en un valor máximo posible, pero la línea de regresión OLS no representará la función de línea real que se relaciona la yxyy2xy variables aleatorias. Como contraejemplo, cuando, como ocurre entre otros problemas en una serie de tiempo con valores equidistantes , los MCO de los datos sin procesar no siempre son inapropiados, pueden representar la mejor línea , pero aún están sujetos a transformación variable, por ejemplo, para datos de recuento, se tomaría la raíz cuadrada de los recuentos para convertir los errores para el error distribuido de Poisson en condiciones más normales, y aún se debe verificar la pendiente de los residuos que no sea cero. xy=f(x)

  1. Longford, NT (2001). "Correspondencia". Revista de la Royal Statistical Society, Serie A. 164: 565. doi: 10.1111 / 1467-985x.00219
Carl
fuente