Hace unos meses publiqué una pregunta sobre las pruebas de homocedasticidad en R en SO, y Ian Fellows respondió eso (parafrasearé su respuesta muy libremente):
Las pruebas de homocedasticidad no son una buena herramienta cuando se prueba la bondad de ajuste de su modelo. Con muestras pequeñas, no tiene suficiente poder para detectar desviaciones de la homocedasticidad, mientras que con muestras grandes tiene "mucho poder", por lo que es más probable que detecte incluso desviaciones triviales de la igualdad.
Su gran respuesta vino como una bofetada en la cara. Solía comprobar los supuestos de normalidad y homocedasticidad cada vez que ejecutaba ANOVA.
¿Cuál es, en su opinión, la mejor práctica cuando se verifican los supuestos de ANOVA?
Un par de gráficos generalmente serán mucho más esclarecedores que el valor p de una prueba de normalidad u homoscedasticidad. Trazar variables dependientes observadas contra variables independientes. Trazar observaciones contra ajustes. Trazar los residuos contra variables independientes. Investigue cualquier cosa que parezca extraña en estas parcelas. Si algo no parece extraño, no me preocuparía por una prueba significativa de una suposición.
fuente
Estas son algunas guías web muy buenas para verificar los supuestos de ANOVA y qué hacer si falla. Aquí hay uno. Este es otro.
Esencialmente, su ojo es el mejor juez, así que haga un análisis exploratorio de datos . Eso significa trazar los datos: los histogramas y los diagramas de cajas son una buena forma de evaluar la normalidad y la homocedacidad. Y recuerde que ANOVA es robusto ante violaciones menores de estos.
fuente
Los gráficos QQ son formas bastante buenas de detectar la no normalidad.
Para la homocedasticidad, pruebe la prueba de Levene o la prueba de Brown-Forsythe. Ambos son similares, aunque BF es un poco más robusto. Son menos sensibles a la no normalidad que la prueba de Bartlett, pero aun así, he descubierto que no son los más confiables con tamaños de muestra pequeños.
QQ plot
Prueba de Brown-Forsythe
Prueba de Levene
fuente
Estoy de acuerdo con otros en que la prueba de significación para los supuestos es problemática.
Me gusta lidiar con este problema haciendo una sola gráfica que exponga todos los supuestos del modelo necesarios para tener un error de tipo I preciso y un error de tipo II bajo (alta potencia). Para el caso de ANOVA con 2 grupos (prueba t de dos muestras), este gráfico es el inverso normal de la función empírica de distribución acumulativa (ECDF) estratificada por grupo (consulte el comentario del gráfico QQ en una publicación anterior). Para que la prueba t funcione bien, las dos curvas deben ser líneas rectas paralelas. Para elk problema de muestra de ANOVA en general tendrías k Líneas rectas paralelas.
Los métodos semiparamétricos (rango) como las pruebas de Wilcoxon y Kruskal-Wallis hacen muchas menos suposiciones. El logit del ECDF debe ser paralelo para que las pruebas de Wilcoxon-Kruskal-Wallis tengan la máxima potencia (el error tipo I nunca es un problema para ellos). No se requiere linealidad . Las pruebas de rango hacen suposiciones sobre cómo las distribuciones de diferentes grupos están relacionadas con otros, pero no hacen suposiciones sobre la forma de ninguna distribución.
fuente