R: prueba de la normalidad de los residuos del modelo lineal: qué residuos utilizar

13

Me gustaría hacer una prueba W de Shapiro Wilk y una prueba de Kolmogorov-Smirnov en los residuos de un modelo lineal para verificar la normalidad. Me preguntaba qué residuos deberían usarse para esto: los residuos en bruto, los residuos de Pearson, los residuos estudiados o los residuos estandarizados. Para una prueba de W de Shapiro-Wilk, parece que los resultados para los residuos en bruto y de Pearson son idénticos pero no para los demás.

fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143

La misma pregunta para KS, y también si los residuos deben ser probados contra una distribución normal (pnorm) como en

ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563

o una distribución t-student con nk-2 grados de libertad, como en

ks.test(res3, "pt",df=nrow(mtcars)-2-2) 

¿Algún consejo quizás? Además, ¿cuáles son los valores recomendados para las estadísticas de prueba W (> 0.9?) Y D para que la distribución esté lo suficientemente cerca de la normalidad y no afecte demasiado su inferencia?

Finalmente, ¿este enfoque tiene en cuenta la incertidumbre en los coeficientes lm ajustados, o funcionaría mejor en el cumres()paquete gof()a este respecto?

saludos, Tom

Tom Wenseleers
fuente
99
Es raro que tal prueba tenga algún punto. Pregúntese qué acciones específicas tomaría si los residuos resultaran ser "significativamente" no normales. La experiencia te enseña que depende de cómo y cuánto difieren de la normalidad. Ninguno de esos es medido directamente (o adecuadamente) por SW, KS o cualquier otra prueba de distribución formal. Para este trabajo, desea emplear gráficos exploratorios, no pruebas formales. La pregunta de qué residuos podrían ser adecuados para trazar aún permanece, pero las preguntas restantes quedan en el camino como irrelevantes.
whuber
Sí, he notado que muchos estadísticos abogan por esta posición. Pero todavía me gustaría verificar las estadísticas de estas pruebas (por ejemplo, verificar si el valor de Shapiro Wilks W es mayor que 0.9). Y siempre podría hacer una transformación de Box-Cox o algo así para mejorar la normalidad en caso de grandes desviaciones. Además, mi pregunta también era en parte conceptual, es decir, cuál sería la forma más correcta de hacer esto, incluso si la normalidad no siempre es tan importante en la práctica ...
Tom Wenseleers

Respuestas:

9

Creció demasiado tiempo para un comentario.

  1. Para un modelo de regresión ordinario (como el que se ajustaría lm), no hay distinción entre los dos primeros tipos residuales que considere; type="pearson"es relevante para los GLM no gaussianos, pero es igual que responsepara los modelos gaussianos.

  2. Las observaciones a las que aplica sus pruebas (alguna forma de residuos) no son independientes, por lo que las estadísticas habituales no tienen la distribución correcta. Además, estrictamente hablando, ninguno de los residuos que considere será exactamente normal, ya que sus datos nunca serán exactamente normales. [Las pruebas formales responden a la pregunta incorrecta: una pregunta más relevante sería '¿cuánto afectará esta no normalidad a mi inferencia?', Una pregunta que no responde a la prueba de hipótesis de bondad de ajuste habitual.]

  3. Incluso si sus datos fueran exactamente normales, ni el tercer ni el cuarto tipo de residuo serían exactamente normales. Sin embargo, es mucho más común que las personas los examinen (digamos por parcelas QQ) que los residuos en bruto.

  4. X

Glen_b -Reinstate a Monica
fuente