No normalidad en residuos

8

Me refiero a esta publicación que parece cuestionar la importancia de la distribución normal de los residuos, argumentando que esto, junto con la heterocedasticidad, podría evitarse mediante el uso de errores estándar robustos.

He considerado varias transformaciones (raíces, registros, etc.) y todo resulta inútil para resolver completamente el problema.

Aquí hay una gráfica QQ de mis residuos:

Trama de normalidad

Datos

  • Variable dependiente: ya con transformación logarítmica (corrige problemas atípicos y un problema de asimetría en estos datos)
  • Variables independientes: edad de la empresa y varias variables binarias (indicadores) (más adelante tengo algunos recuentos, para una regresión separada como variables independientes)

El iqrcomando (Hamilton) en Stata no determina valores atípicos severos que descarten la normalidad, pero el siguiente gráfico sugiere lo contrario y también lo hace la prueba de Shapiro-Wilk.

Cesare Camestre
fuente
44
No estaría preocupado por tal gráfico, las desviaciones parecen lo suficientemente leves. Si lo desea, puede agregar límites de confianza a ese gráfico utilizando el qenvpaquete.
Maarten Buis
44
Estoy de acuerdo con @MaartenBuis en que no debes preocuparte demasiado según la trama. Yo no recomendaría que depender de una prueba formal de la normalidad (por ejemplo, Shapiro-test) de los residuos. En muestras grandes, la prueba casi siempre rechazará la hipótesis . Aquí hay una respuesta informativa de Glen que aborda exactamente la cuestión de las pruebas formales de la normalidad de los residuos.
COOLSerdash
44
Ver también esto y esto . Tenga en cuenta también que a medida que el tamaño de su muestra aumenta, sus suposiciones normales se vuelven menos críticas. A menos que tenga muchos predictores, tal no normalidad leve no debería tener ninguna consecuencia. El problema no es solo que las pruebas de hipótesis rechazarán cuando las muestras son grandes: también responden la pregunta incorrecta en otros tamaños de muestra.
Glen_b -Reinstate Monica
3
los pags-value dice que las desviaciones de la normalidad son mayores de lo que cabría esperar por casualidad, no dice que esas desviaciones sean lo suficientemente grandes como para poner en peligro su modelo. Según su gráfico, mi juicio sería que está bien.
Maarten Buis
55
Lo que importa es el efecto en su inferencia . La única forma de inferencia que un efecto tan pequeño sería de algún impacto sería con un intervalo de predicción ... e incluso allí, probablemente lo usaría con poca compunción, a menos que necesite un intervalo de predicción en la cola ( decir 99% o más). Serían más preocupantes temas como la dependencia y el sesgo y la especificación errónea del modelo para la media o la varianza.
Glen_b -Reinstate Monica

Respuestas:

9

Una forma en que puede agregar un "sabor similar a una prueba" a su gráfico es agregar límites de confianza a su alrededor. En Stata, haría esto así:

sysuse nlsw88, clear
gen lnw = ln(wage)

reg lnw i.race grade c.ttl_exp##c.ttl_exp union

predict resid if e(sample), resid

qenvnormal resid, mean(0) sd(`e(rmse)') overall reps(20000) gen(lb ub)

qplot resid lb ub, ms(oh none ..) c(. l l)     ///
    lc(gs10 ..) legend(off) ytitle("residual") ///
    trscale(`e(rmse)' * invnormal(@))          ///
    xtitle(Normal quantiles)

ingrese la descripción de la imagen aquí

Maarten Buis
fuente
3
Tenga en cuenta que los usuarios de Stata deben instalar qenv(por ssc install qenv) primero.
Nick Cox
Veré
Obteniendo un error: qenvnormal resid, mean (0) se (`e (rmse) ') repeticiones generales (20000) gen (lb ub) - opción se () no permitida
Cesare Camestre
1
correcto, debería haber sido sd(). Es normal (sin juego de palabras) que qenvcon la overallopción lleve mucho tiempo.
Maarten Buis
1
La ayuda para qenvnormalexplica que necesita instalar qplot. Se espera que leas la ayuda. Más importante aún, supongo que está utilizando una versión muy antigua de qplot. Instalar desde el paquete gr42_6 desde stata-journal.com/software/sj12-1
Nick Cox
5

Una cosa a tener en cuenta al examinar estas gráficas qq es que las colas tenderán a desviarse de la línea, incluso si la distribución subyacente es realmente normal y no importa cuán grande sea el N. Esto está implícito en la respuesta de Maarten . Esto se debe a que a medida que N se hace más y más grande, las colas serán cada vez más lejanas y eventos cada vez más raros. Por lo tanto, siempre habrá muy pocos datos en las colas y siempre serán mucho más variables. Si la mayor parte de su línea está donde se esperaba y solo se desvían las colas, generalmente puede ignorarlas.

Una forma que uso para ayudar a los estudiantes a aprender cómo evaluar sus parcelas q para la normalidad es generar muestras aleatorias a partir de una distribución que se sabe que es normal y examinar esas muestras. Hay ejercicios en los que generan muestras de varios tamaños para ver qué sucede a medida que N cambia y también en los que toman una distribución de muestra real y la comparan con muestras aleatorias del mismo tamaño. El paquete TeachingDemos de R tiene una prueba de normalidad que utiliza un tipo similar de técnica.

# R example - change the 1000 to whatever N you would like to examine
# run several times
y <- rnorm(1000); qqnorm(y); qqline(y)
Juan
fuente
De acuerdo, pero este fue uno de los puntos clave de Maarten en su respuesta y es por eso que los intervalos se utilizan para indicar incertidumbre.
Nick Cox
¿Estás sugiriendo que esta respuesta es redundante? Creo que parte de esto está implícito en la respuesta de Maarten, pero no creo que sea un punto clave o completo. La respuesta de Maarten es buena. Esta respuesta es diferente pero relacionada.
John
No es redundante, pero una referencia cruzada a la respuesta de Maarten podría ayudar a futuros lectores.
Nick Cox
Para ser explícito sobre el vínculo entre esto y mi respuesta: si miraras bajo el capó qenv, verías que esta técnica de simulación es el núcleo de cómo se calculan las bandas de confianza.
Maarten Buis
1
agregó un enlace ...
John