Comprobación de supuestos ANOVA

16

Hace unos meses publiqué una pregunta sobre las pruebas de homocedasticidad en R en SO, y Ian Fellows respondió eso (parafrasearé su respuesta muy libremente):

Las pruebas de homocedasticidad no son una buena herramienta cuando se prueba la bondad de ajuste de su modelo. Con muestras pequeñas, no tiene suficiente poder para detectar desviaciones de la homocedasticidad, mientras que con muestras grandes tiene "mucho poder", por lo que es más probable que detecte incluso desviaciones triviales de la igualdad.

Su gran respuesta vino como una bofetada en la cara. Solía ​​comprobar los supuestos de normalidad y homocedasticidad cada vez que ejecutaba ANOVA.

¿Cuál es, en su opinión, la mejor práctica cuando se verifican los supuestos de ANOVA?

aL3xa
fuente

Respuestas:

11

En la configuración aplicada, generalmente es más importante saber si cualquier violación de los supuestos es problemática para la inferencia.

Las pruebas de suposición basadas en pruebas de significación rara vez son de interés en muestras grandes, porque la mayoría de las pruebas inferenciales son robustas a violaciones leves de los supuestos.

Una de las buenas características de las evaluaciones gráficas de los supuestos es que centran la atención en el grado de violación y no en la importancia estadística de cualquier violación.

Sin embargo, también es posible enfocarse en resúmenes numéricos de sus datos que cuantifican el grado de violación de los supuestos y no la significación estadística (por ejemplo, valores de asimetría, valores de curtosis, relación de las variaciones del grupo más grande al más pequeño, etc.). También puede obtener errores estándar o intervalos de confianza en estos valores, que se harán más pequeños con muestras más grandes. Esta perspectiva es consistente con la idea general de que la significación estadística no es equivalente a la importancia práctica.

Jeromy Anglim
fuente
1
+1 por la excelente respuesta que lo envuelve todo. La forma de aplicar los procedimientos numéricos mencionados se describe de manera agradable y aplicable en Tabachnik y Fidell's Using Multivariate Statistics (para SPSS y SAS): amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/… (Pero vea las Erratas en el página web acompañada)
Henrik
Bueno, creo que la mayoría de las veces los resúmenes como asimetría y curtosis tienen poco valor, su variación de muestreo es demasiado grande. Sin embargo, uno podría considerar reemplazarlos con L_skewness y L-kurtosis.
kjetil b halvorsen
@kjetilbhalvorsen Supongo que depende del tipo de tamaños de muestra con los que trabajas habitualmente. En mi experiencia, los gráficos y las estadísticas de asimetría son muy útiles para comprender la distribución de los datos.
Jeromy Anglim
@ Jeromy Anglim: OK. ¡Entonces supongo que generalmente tienes tamaños de muestra muy grandes! ¿Intentaste arrancar tus coeficientes de asimetría / curtosis?
kjetil b halvorsen
9

Un par de gráficos generalmente serán mucho más esclarecedores que el valor p de una prueba de normalidad u homoscedasticidad. Trazar variables dependientes observadas contra variables independientes. Trazar observaciones contra ajustes. Trazar los residuos contra variables independientes. Investigue cualquier cosa que parezca extraña en estas parcelas. Si algo no parece extraño, no me preocuparía por una prueba significativa de una suposición.

S. Kolassa - Restablece a Monica
fuente
Un buen consejo la mayor parte del tiempo, pero ¿qué pasa con el caso de grandes conjuntos de datos, en los que no es posible revisar todos los datos manualmente?
dsimcha
1
n1n2<ασ2
2
@dsimcha re grandes conjuntos de datos: depende de lo que quiere decir con "grande". Muchas observaciones? Use buenos gráficos (diagrama de caja, diagramas de puntos con jitter, diagramas de girasol). Muchas variables independientes? Sí, tiene un punto allí ... Pero si tiene tantos IV que no puede trazar el DV contra cada IV, cuestionaría usar un ANOVA en absoluto; parece que puede ser difícil de interpretar en cualquier caso. Algunos enfoques de aprendizaje de máquinas inteligentes pueden ser mejores (Brian D. Ripley: "Parafraseando provocativa, 'aprendizaje automático es menos estadísticas ninguna comprobación de modelos e hipótesis'.")
S. Kolassa - Restablecer Mónica
Buen comentario, +1. Aunque esta pregunta específica es sobre ANOVA, estaba pensando en un nivel más general sobre la cuestión de las parcelas frente a las pruebas cuando escribí mi respuesta.
dsimcha
4

Estas son algunas guías web muy buenas para verificar los supuestos de ANOVA y qué hacer si falla. Aquí hay uno. Este es otro.

Esencialmente, su ojo es el mejor juez, así que haga un análisis exploratorio de datos . Eso significa trazar los datos: los histogramas y los diagramas de cajas son una buena forma de evaluar la normalidad y la homocedacidad. Y recuerde que ANOVA es robusto ante violaciones menores de estos.

Tilacoleo
fuente
4

Los gráficos QQ son formas bastante buenas de detectar la no normalidad.

Para la homocedasticidad, pruebe la prueba de Levene o la prueba de Brown-Forsythe. Ambos son similares, aunque BF es un poco más robusto. Son menos sensibles a la no normalidad que la prueba de Bartlett, pero aun así, he descubierto que no son los más confiables con tamaños de muestra pequeños.

QQ plot

Prueba de Brown-Forsythe

Prueba de Levene

Christopher Aden
fuente
Las gráficas de distribución relativa (o ejemplo, en comparación con la distribución normal) podrían ser un buen reemplazo, ya que su interpretación podría ser más clara para los principiantes.
kjetil b halvorsen
3

Estoy de acuerdo con otros en que la prueba de significación para los supuestos es problemática.

Me gusta lidiar con este problema haciendo una sola gráfica que exponga todos los supuestos del modelo necesarios para tener un error de tipo I preciso y un error de tipo II bajo (alta potencia). Para el caso de ANOVA con 2 grupos (prueba t de dos muestras), este gráfico es el inverso normal de la función empírica de distribución acumulativa (ECDF) estratificada por grupo (consulte el comentario del gráfico QQ en una publicación anterior). Para que la prueba t funcione bien, las dos curvas deben ser líneas rectas paralelas. Para elkproblema de muestra de ANOVA en general tendrías k Líneas rectas paralelas.

Los métodos semiparamétricos (rango) como las pruebas de Wilcoxon y Kruskal-Wallis hacen muchas menos suposiciones. El logit del ECDF debe ser paralelo para que las pruebas de Wilcoxon-Kruskal-Wallis tengan la máxima potencia (el error tipo I nunca es un problema para ellos). No se requiere linealidad . Las pruebas de rango hacen suposiciones sobre cómo las distribuciones de diferentes grupos están relacionadas con otros, pero no hacen suposiciones sobre la forma de ninguna distribución.

Frank Harrell
fuente