Modelos estadísticos lineales aplicados por Kutner et al. establece lo siguiente con respecto a las desviaciones del supuesto de normalidad de los modelos ANOVA: La curtosis de la distribución del error (más o menos pico que una distribución normal) es más importante que el sesgo de la distribución en términos de los efectos sobre las inferencias .
Estoy un poco desconcertado por esta declaración y no pude encontrar ninguna información relacionada, ya sea en el libro o en línea. Estoy confundido porque también aprendí que los gráficos QQ con colas pesadas son una indicación de que la suposición de normalidad es "lo suficientemente buena" para los modelos de regresión lineal, mientras que los gráficos QQ sesgados son más preocupantes (es decir, una transformación podría ser apropiada) .
¿Estoy en lo cierto al decir que ANOVA tiene el mismo razonamiento y que su elección de palabras ( más importante en términos de los efectos sobre las inferencias ) se eligió mal? Es decir, una distribución sesgada tiene consecuencias más graves y debe evitarse, mientras que una pequeña cantidad de curtosis puede ser aceptable.
EDITAR: Según lo dirigido por rolando2, es difícil decir que uno es más importante que el otro en todos los casos, pero simplemente estoy buscando una idea general. Mi problema principal es que me enseñaron que en la regresión lineal simple, los gráficos QQ con colas más pesadas (¿curtosis?) Están bien, ya que la prueba F es bastante robusta en contra de esto. Por otro lado, las parcelas QQ sesgadas (en forma de parábola) suelen ser una preocupación mayor. Esto parece ir directamente en contra de las pautas que mi libro de texto proporciona para ANOVA, a pesar de que los modelos ANOVA pueden convertirse en modelos de regresión y deben tener los mismos supuestos.
Estoy convencido de que estoy pasando por alto algo o tengo una suposición falsa, pero no puedo entender qué podría ser.
Respuestas:
La dificultad es que la asimetría y la curtosis son dependientes; Sus efectos no se pueden separar por completo.
El problema es que si desea examinar el efecto de una distribución muy sesgada, también debe tener una distribución con curtosis alta.
* (curtosis ordinaria del cuarto momento escalada, no curtosis excesiva)
Khan y Rayner (que se menciona en la respuesta anterior) trabajan con una familia que permite explorar el impacto de la asimetría y la curtosis, pero no pueden evitar este problema, por lo que su intento de separarlos limita severamente la medida en que el efecto de la asimetría puede ser explorada.
Por ejemplo, si desea ver el efecto de una alta asimetría, digamos asimetría> 5, ¡ no puede obtener una distribución con curtosis inferior a 26!
Entonces, si desea investigar el impacto de la alta asimetría, no puede evitar investigar el impacto de la curtosis alta. En consecuencia, si intentas separarlos, en realidad no puedes evaluar el efecto de aumentar la asimetría a niveles altos.
Dicho esto, al menos para la familia de distribución que consideraron, y dentro de los límites que plantea la relación entre ellos, la investigación de Khan y Rayner parece sugerir que la curtosis es el principal problema.
fuente
Este problema se aborda en "Robustez a la no normalidad de las pruebas comunes para el problema de ubicación de muchas muestras" por Khan y Rayner.
Descubrieron que las pruebas de ANOVA están mucho más afectadas por la curtosis que la asimetría, y el efecto de la asimetría no está relacionado con su dirección.
Si se sospechan desviaciones de la normalidad, la prueba de Kruskal-Wallis podría ser una mejor opción. La prueba de Kruskal-Wallis es más robusta a las desviaciones de la normalidad porque examina la hipótesis de que las medianas de tratamiento son idénticas. ANOVA examina la hipótesis de que los medios de tratamiento son idénticos.
fuente