He analizado un experimento con un ANOVA de medidas repetidas. El ANOVA es un 3x2x2x2x3 con 2 factores entre sujetos y 3 dentro (N = 189). La tasa de error es la variable dependiente. La distribución de las tasas de error tiene un sesgo de 3.64 y una curtosis de 15.75. El sesgo y la curtosis son el resultado del 90% de la tasa de error significa que es 0. Leer algunos de los hilos anteriores en las pruebas de normalidad aquí me tiene un poco confundido. Pensé que si tenía datos que normalmente no se distribuían, sería mejor para usted transformarlos si es posible, pero parece que mucha gente piensa que analizar datos no normales con un ANOVA o una prueba T es aceptable. ¿Puedo confiar en los resultados de ANOVA?
(Para su información, en el futuro tengo la intención de analizar este tipo de datos en R con modelos mixtos con una distribución binomial)
Respuestas:
Al igual que otras pruebas paramétricas, el análisis de varianza supone que los datos se ajustan a la distribución normal. Si su variable de medición no se distribuye normalmente, puede aumentar sus posibilidades de obtener un resultado falso positivo si analiza los datos con un anova u otra prueba que asume la normalidad. Afortunadamente, una anova no es muy sensible a las desviaciones moderadas de la normalidad; Los estudios de simulación, utilizando una variedad de distribuciones no normales, han demostrado que la tasa de falsos positivos no se ve muy afectada por esta violación del supuesto (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996). Esto se debe a que cuando toma una gran cantidad de muestras aleatorias de una población, la media de esas muestras se distribuye aproximadamente de manera normal, incluso cuando la población no es normal.
Es posible probar la bondad de ajuste de un conjunto de datos a la distribución normal. No sugiero que haga esto, porque muchos conjuntos de datos que son significativamente no normales serían perfectamente apropiados para una anova.
En cambio, si tiene un conjunto de datos lo suficientemente grande, le sugiero que mire el histograma de frecuencia. Si parece más o menos normal, siga adelante y realice una anova. Si parece una distribución normal que se ha desplazado hacia un lado, como los datos de sulfato anteriores, debe intentar diferentes transformaciones de datos y ver si alguno de ellos hace que el histograma se vea más normal. Si eso no funciona, y los datos aún se ven severamente no normales, probablemente todavía esté bien analizar los datos usando un anova. Sin embargo, es posible que desee analizarlo utilizando una prueba no paramétrica. Casi todas las pruebas estadísticas paramétricas tienen un sustituto no paramétrico, como la prueba de Kruskal-Wallis en lugar de una anova unidireccional, la prueba de rango con signo de Wilcoxon en lugar de una prueba t pareada y la correlación de rango de Spearman en lugar de la regresión lineal. Estas pruebas no paramétricas no asumen que los datos se ajustan a la distribución normal. Sin embargo, suponen que los datos en diferentes grupos tienen la misma distribución entre sí; Si diferentes grupos tienen distribuciones de diferentes formas (por ejemplo, uno está sesgado a la izquierda, otro está sesgado a la derecha), una prueba no paramétrica puede no ser mejor que una paramétrica.
Referencias
fuente
Específicamente con respecto a las tasas de error como DV, Dixon (2008) demuestra de manera muy convincente que las pruebas de hipótesis nulas a través de ANOVA pueden causar un aumento de las tasas de falsas alarmas (llamando a los efectos "significativos" cuando no lo son) y un aumento de las tasas de fallas (falta de efectos reales). También muestra que el modelado de efectos mixtos, que especifica el error distribuido binomialmente, es el enfoque más apropiado para analizar los datos de velocidad.
fuente
No puede confiar en su ANOVA con tanta asimetría y una gran cantidad de ceros. Un método más apropiado sería usar el número de errores como su DV (convirtiendo así su DV en datos de conteo) y haciendo un análisis de Poisson. Este enfoque requeriría usar un análisis de efectos mixtos y especificar la familia de distribución de errores como Poisson. El artículo de Dixon (2008) * mencionado por Mike Lawrence utiliza análisis de efectos mixtos en R pero con resultados binomiales. Me he movido completamente a hacer R para la mayoría de mis análisis de medidas repetidas porque muchas de mis variables de resultado son binomiales. El paquete R apropiado es
lme4
.fuente
Juan ha ofrecido mucho, aunque haré eco de otros y repetiré que para una mejor precisión las variables en sí mismas pueden ser no normales siempre que sus residuos no lo sean. Además, una respuesta simplificada y ligeramente más estructurada (a través de un diagrama de flujo anotado) está disponible en yellowbrickstats.com .
fuente
Los efectos de techo son el problema aquí. Una prueba no paramétrica es su apuesta más segura, aunque los ANOVA son robustos a esta violación de la normalidad si n es grande. Por lo general, las personas solo usan un histograma para probar esto, pero si el problema es con los residuos, podría ser más avanzado que eso. También tenga en cuenta CÓMO esto afecta sus resultados (no solo eso). Pallant (2007) probablemente diría que esto aumenta sus posibilidades de error de tipo uno, por lo que si reduce su alfa crítico lo mitiga.
fuente