¿Por qué son importantes los supuestos ANOVA (igualdad de varianza, normalidad de los residuos)?

15

Cuando se ejecuta un ANOVA, se nos dice que ciertos supuestos de la prueba deben estar presentes para que sea aplicable a los datos. Nunca entendí la razón de por qué los siguientes supuestos eran necesarios para que la prueba funcionara:

La varianza de su variable dependiente (residuos) debe ser igual en cada celda del diseño
Su variable dependiente (residuos) debe distribuirse aproximadamente de manera normal para cada celda del diseño

Entiendo que hay un área gris en cuanto a si estos supuestos deben cumplirse, pero por el argumento, si estos supuestos no se cumplieran en un conjunto de datos dado, ¿cuál sería el problema con el uso de un ANOVA? ?

hypothesis-testing anova assumptions PaperRockBazooka
fuente

¿Cuál es el objetivo de tu estudio?

Subhash C. Davar

8

Los supuestos importan en la medida en que afectan las propiedades de las pruebas de hipótesis (e intervalos) que podría usar cuyas propiedades de distribución bajo nulo se calculan basándose en esos supuestos.

En particular, para las pruebas de hipótesis, lo que podría interesarnos es cuán lejos podría estar el verdadero nivel de significación de lo que queremos que sea, y si el poder contra las alternativas de interés es bueno.

En relación con los supuestos sobre los que pregunta:

1. Igualdad de varianza

La varianza de su variable dependiente (residuos) debe ser igual en cada celda del diseño

Esto ciertamente puede afectar el nivel de significancia, al menos cuando los tamaños de muestra son desiguales.

(Editar :) Un estadístico F de ANOVA es la razón de dos estimaciones de varianza (la división y comparación de varianzas es la razón por la cual se llama análisis de varianza) El denominador es una estimación de la varianza de error supuestamente común a todas las celdas (calculada a partir de los residuos), mientras que el numerador, basado en la variación en las medias grupales, tendrá dos componentes, uno por variación en las medias poblacionales y otro debido a la varianza del error. Si el nulo es verdadero, las dos variaciones que se estiman serán las mismas (dos estimaciones de la variación de error común); este valor común pero desconocido se cancela (porque tomamos una razón), dejando un estadístico F que solo depende de la distribución de los errores (que bajo los supuestos que podemos mostrar tiene una distribución F.) (comentarios similares se aplican al t- prueba que usé para la ilustración.)

[Hay un poco más de detalle sobre parte de esa información en mi respuesta aquí ]

Sin embargo, aquí las dos variaciones de población difieren entre las dos muestras de diferentes tamaños. Considere el denominador (del estadístico F en ANOVA y del estadístico t en una prueba t): está compuesto por dos estimaciones de varianza diferentes, no una, por lo que no tendrá la distribución "correcta" (un chi escalado -square para la F y su raíz cuadrada en el caso de at - tanto la forma como la escala son problemas).

Como resultado, el estadístico F o el estadístico t ya no tendrán la distribución F o t, pero la forma en que se ve afectada es diferente dependiendo de si la muestra grande o más pequeña se extrajo de la población con La mayor varianza. Esto a su vez afecta la distribución de los valores p.

Bajo nulo (es decir, cuando las medias de población son iguales), la distribución de los valores de p debe distribuirse uniformemente. Sin embargo, si las variaciones y los tamaños de muestra son desiguales pero las medias son iguales (por lo que no queremos rechazar el valor nulo), los valores p no se distribuyen uniformemente. Hice una pequeña simulación para mostrarte lo que sucede. En este caso, utilicé solo 2 grupos, por lo que ANOVA es equivalente a una prueba t de dos muestras con el supuesto de varianza igual. Así que simulé muestras de dos distribuciones normales, una con desviación estándar diez veces mayor que la otra, pero con medias iguales.

Para la gráfica del lado izquierdo, la desviación estándar más grande ( población ) fue para n = 5 y la desviación estándar más pequeña fue para n = 30. Para el gráfico del lado derecho, la desviación estándar más grande fue con n = 30 y la más pequeña con n = 5. Simulé cada uno 10000 veces y encontré el valor p cada vez. En cada caso, desea que el histograma sea completamente plano (rectangular), ya que esto significa que todas las pruebas realizadas en algún nivel de significancia obtienen realmente esa tasa de error tipo I. En particular, es más importante que las partes más a la izquierda del histograma se mantengan cerca de la línea gris: $\alpha$

Como vemos, en el gráfico del lado izquierdo (mayor varianza en la muestra más pequeña), los valores p tienden a ser muy pequeños: rechazaríamos la hipótesis nula muy a menudo (casi la mitad del tiempo en este ejemplo) aunque el nulo sea verdadero . Es decir, nuestros niveles de significancia son mucho más grandes de lo que pedimos. En el gráfico del lado derecho, vemos que los valores p son en su mayoría grandes (y, por lo tanto, nuestro nivel de significancia es mucho más pequeño de lo que pedimos); de hecho, ni una sola vez en diez mil simulaciones rechazamos al nivel del 5% (el más pequeño El valor p aquí fue 0.055). [Esto puede no sonar tan mal, hasta que recordemos que también tendremos muy poca potencia para ir con nuestro nivel de significancia muy bajo.]

Esa es una gran consecuencia. Es por eso que es una buena idea usar una prueba t de Welch-Satterthwaite tipo t o ANOVA cuando no tenemos una buena razón para suponer que las variaciones serán casi iguales: en comparación, apenas se ve afectado en estas situaciones (I también simuló este caso; las dos distribuciones de valores p simulados, que no he mostrado aquí, salieron bastante cerca de plano).

2. Distribución condicional de la respuesta (DV)

Su variable dependiente (residuos) debe distribuirse aproximadamente de manera normal para cada celda del diseño

Esto es algo menos directamente crítico: para desviaciones moderadas de la normalidad, el nivel de significación no se ve muy afectado en muestras más grandes (¡aunque el poder puede serlo!).

$n$ $n$

Vemos que en n = 5 hay muy pocos valores p pequeños (el nivel de significancia para una prueba del 5% sería aproximadamente la mitad de lo que debería ser), pero en n = 50 el problema se reduce, para un 5% prueba en este caso el verdadero nivel de significancia es de aproximadamente 4.5%

Por lo tanto, podríamos sentir la tentación de decir "bueno, está bien, si n es lo suficientemente grande como para que el nivel de significancia sea bastante cercano", pero también podemos estar arrojando una gran cantidad de poder. En particular, se sabe que la eficiencia relativa asintótica de la prueba t en relación con las alternativas ampliamente utilizadas puede llegar a 0. Esto significa que las mejores opciones de prueba pueden obtener la misma potencia con una fracción extremadamente pequeña del tamaño de muestra requerido para obtenerla. La prueba t. No necesita nada fuera de lo común para continuar necesitando más del doble de datos para tener la misma potencia con la t que necesitaría con una prueba alternativa, colas moderadamente más pesadas de lo normal en la distribución de la población y muestras moderadamente grandes pueden ser suficientes para hacerlo.

(Otras opciones de distribución pueden hacer que el nivel de significación sea más alto de lo que debería ser, o sustancialmente más bajo de lo que vimos aquí).

Glen_b -Reinstate a Monica
fuente

Gracias Glen por la respuesta detallada. Tengo curiosidad por saber por qué los errores que ha descrito se producirían si no se cumplieran los supuestos en términos de igualdad de varianza, ¿estoy en lo cierto al tomar de su escrito lo siguiente ?: El problema que surge de tener un grupo de tamaño de muestra más pequeño que tiene el La mayor varianza es (así como el número de puntos de datos que son pequeños en general, es decir, n = 5) que la mayor varianza observada en la muestra más pequeña se calcula como representativa de la varianza a nivel de la población.

PaperRockBazooka

(parte 2) Es esencialmente una comparación injusta entre una muestra representativa y una muestra menos representativa (relativamente hablando) que puede conducir a un error tipo 1 debido a cómo se procesa ANOVA.

PaperRockBazooka

@ Papel No creo que ese sea el problema aquí. No es la representatividad de la varianza de la muestra en la muestra más pequeña (por ejemplo, si ambas muestras fueran igualmente pequeñas, tendría el doble de problemas con la representatividad, pero este problema estaría ausente). He agregado algunos párrafos a mi respuesta para explicar cómo surge el problema con más detalle.

Glen_b -Reinstate Monica

4

En pocas palabras, ANOVA está agregando , cuadrando y promediando los residuos . Los residuos le dicen qué tan bien su modelo se ajusta a los datos. Para este ejemplo, utilicé el PlantGrowthconjunto de datos en R:

Resultados de un experimento para comparar los rendimientos (medidos por el peso seco de las plantas) obtenidos bajo un control y dos condiciones de tratamiento diferentes.

Este primer gráfico muestra la gran media en los tres niveles de tratamiento:

Las líneas rojas son los residuos . Ahora al cuadrar y agregar la longitud de esas líneas individuales, obtendrá un valor que le indica qué tan bien la media (nuestro modelo) describe los datos. Un número pequeño le dice que la media describe bien sus puntos de datos, un número mayor le dice que la media describe sus datos no tan bien. Este número se llama la suma total de cuadrados :

$SS_{total}=\sum(x_i-\bar{x}_{grand})^2$ $x_{i}$ $\bar{x}_{grand}$

Ahora hace lo mismo para los residuos en su tratamiento ( Sumas residuales de cuadrados , que también se conoce como ruido en los niveles de tratamiento):

Y la formula:

$SS_{residuals}=\sum(x_{ik}-\bar{x}_{k})^2$ $x_{ik}$ $i$ $k$ $\bar{x}_{k}$

Por último, necesitamos determinar la señal en los datos, lo que se conoce como las Sumas Modelo de Cuadrados , que luego se utilizarán para calcular si las medias de tratamiento son diferentes de la gran media:

Y la formula:

$SS_{model}=\sum n_{k}(\bar{x}_k-\bar{x}_{grand})^2$ $n_{k}$ $n$ $k$ $\bar{x}_k$ $\bar{x}_{grand}$

Ahora la desventaja con las sumas de cuadrados es que se hacen más grandes a medida que aumenta el tamaño de la muestra. Para expresar esas sumas de cuadrados en relación con el número de observaciones en el conjunto de datos, se dividen por sus grados de libertad convirtiéndolos en variaciones. Entonces, después de cuadrar y agregar sus puntos de datos, ahora los promedia usando sus grados de libertad:

$df_{total}=(n-1)$

$df_{residual}=(n-k)$

$df_{model}=(k-1)$

$n$ $k$

Esto da como resultado el Cuadrado medio del modelo y el Cuadrado medio residual (ambos son variaciones), o la relación señal / ruido, que se conoce como el valor F:

$MS_{model}=\frac{SS_{model}}{df_{model}}$

$MS_{residual}=\frac{SS_{residual}}{df_{residual}}$

$F=\frac{MS_{model}}{MS_{residual}}$

El valor F describe la relación señal / ruido, o si las medias de tratamiento son diferentes de la media general. El valor F ahora se usa para calcular los valores p y esos decidirán si al menos uno de los medios de tratamiento será significativamente diferente de la gran media o no.

Ahora espero que puedan ver que los supuestos se basan en cálculos con residuos y por qué son importantes. Dado que agregamos , cuadramos y promediamos los residuos, debemos asegurarnos de que antes de hacer esto, los datos en esos grupos de tratamiento se comporten de manera similar , de lo contrario, el valor F puede estar sesgado en algún grado y las inferencias extraídas de este valor F pueden No ser válido.

Editar: agregué dos párrafos para abordar las preguntas 2 y 1 del OP más específicamente .

Supuesto de normalidad : la media (o valor esperado) a menudo se usa en estadísticas para describir el centro de una distribución, sin embargo, no es muy robusta y fácilmente influida por valores atípicos. La media es el modelo más simple que podemos ajustar a los datos. Dado que en ANOVA estamos utilizando la media para calcular los residuos y las sumas de cuadrados (ver las fórmulas anteriores), los datos deben estar distribuidos aproximadamente de manera normal (supuesto de normalidad). Si este no es el caso, la media puede no ser el modelo apropiado para los datos, ya que no nos daría una ubicación correcta del centro de la distribución de la muestra. En cambio, una vez podría usar la mediana, por ejemplo (ver procedimientos de prueba no paramétricos).

Suposición de la homogeneidad de la varianza : más adelante, cuando calculamos los cuadrados medios (modelo y residual), estamos agrupando las sumas individuales de los cuadrados de los niveles de tratamiento y promediando (ver fórmulas anteriores). Al agrupar y promediar, estamos perdiendo la información de las variaciones del nivel de tratamiento individual y su contribución a los cuadrados medios. Por lo tanto, deberíamos tener aproximadamente la misma variación entre todos los niveles de tratamiento para que la contribución a los cuadrados medios sea similar. Si las variaciones entre esos niveles de tratamiento fueran diferentes, entonces los cuadrados medios y el valor F resultantes estarían sesgados e influirían en el cálculo de los valores p haciendo que las inferencias extraídas de estos valores p sean cuestionables (ver también el comentario de @whuber y La respuesta de @Glen_b).

Así es como lo veo por mí mismo. Puede que no sea 100% exacto (no soy estadístico) pero me ayuda a comprender por qué es importante satisfacer los supuestos de ANOVA.

Stefan
fuente

F

$F$

F

$F$

F

$F$

F

$F$

F

$F$

F

$F$

F

$F$

Gracias Stefan Quiero ver si te estoy entendiendo correctamente. ANOVA esencialmente crea una gran media de todos los puntos de datos del conjunto y compara cuán lejos cada grupo difiere de esta gran media para comprender si existe una diferencia estadísticamente significativa entre ellos. Si no se cumplen los supuestos discutidos, la gran media no refleja mucho los grupos que se comparan y conduce a una dificultad de comparación

PaperRockBazooka

S S_{t o t a l}

$SS_{total}$

S S_{r e s i d u a l}

$SS_{residual}$

S S_{m o d e l}

$SS_{model}$ ) para determinar la relación señal / ruido. Intente calcular un ANOVA unidireccional simple a mano. Eso me ayudó a entenderlo mejor.

Stefan

0

ANOVA es solo un método, calcula la prueba F de sus muestras y la compara con la distribución F. Necesita algunos supuestos para decidir qué desea comparar y calcular los valores p.

Si no cumple con esos supuestos, podría calcular otras cosas, pero no será un ANOVA.

La distribución más útil es la normal (debido al CLT), por eso es la más utilizada. Si sus datos no se distribuyen normalmente, necesita al menos saber cuál es su distribución para calcular algo.

La homocedasticidad es una suposición común también en el análisis de regresión, simplemente facilita las cosas. Necesitamos algunas suposiciones para comenzar.

Si no tiene homocedasticidad, puede intentar transformar sus datos para lograrlo.

Se sabe que la prueba ANOVA F es casi óptima en el sentido de minimizar los errores falsos negativos para una tasa fija de errores falsos positivos

skan
fuente

"ANOVA" se refiere al proceso de descomposición de sumas de cuadrados en componentes interpretables. Independientemente de los supuestos de distribución, entonces, un ANOVA es un ANOVA.

whuber

¿Por qué son importantes los supuestos ANOVA (igualdad de varianza, normalidad de los residuos)?

Respuestas:

1. Igualdad de varianza

2. Distribución condicional de la respuesta (DV)