Cuando se ejecuta un ANOVA, se nos dice que ciertos supuestos de la prueba deben estar presentes para que sea aplicable a los datos. Nunca entendí la razón de por qué los siguientes supuestos eran necesarios para que la prueba funcionara:
La varianza de su variable dependiente (residuos) debe ser igual en cada celda del diseño
Su variable dependiente (residuos) debe distribuirse aproximadamente de manera normal para cada celda del diseño
Entiendo que hay un área gris en cuanto a si estos supuestos deben cumplirse, pero por el argumento, si estos supuestos no se cumplieran en un conjunto de datos dado, ¿cuál sería el problema con el uso de un ANOVA? ?
hypothesis-testing
anova
assumptions
PaperRockBazooka
fuente
fuente
Respuestas:
Los supuestos importan en la medida en que afectan las propiedades de las pruebas de hipótesis (e intervalos) que podría usar cuyas propiedades de distribución bajo nulo se calculan basándose en esos supuestos.
En particular, para las pruebas de hipótesis, lo que podría interesarnos es cuán lejos podría estar el verdadero nivel de significación de lo que queremos que sea, y si el poder contra las alternativas de interés es bueno.
En relación con los supuestos sobre los que pregunta:
1. Igualdad de varianza
Esto ciertamente puede afectar el nivel de significancia, al menos cuando los tamaños de muestra son desiguales.
(Editar :) Un estadístico F de ANOVA es la razón de dos estimaciones de varianza (la división y comparación de varianzas es la razón por la cual se llama análisis de varianza) El denominador es una estimación de la varianza de error supuestamente común a todas las celdas (calculada a partir de los residuos), mientras que el numerador, basado en la variación en las medias grupales, tendrá dos componentes, uno por variación en las medias poblacionales y otro debido a la varianza del error. Si el nulo es verdadero, las dos variaciones que se estiman serán las mismas (dos estimaciones de la variación de error común); este valor común pero desconocido se cancela (porque tomamos una razón), dejando un estadístico F que solo depende de la distribución de los errores (que bajo los supuestos que podemos mostrar tiene una distribución F.) (comentarios similares se aplican al t- prueba que usé para la ilustración.)
[Hay un poco más de detalle sobre parte de esa información en mi respuesta aquí ]
Sin embargo, aquí las dos variaciones de población difieren entre las dos muestras de diferentes tamaños. Considere el denominador (del estadístico F en ANOVA y del estadístico t en una prueba t): está compuesto por dos estimaciones de varianza diferentes, no una, por lo que no tendrá la distribución "correcta" (un chi escalado -square para la F y su raíz cuadrada en el caso de at - tanto la forma como la escala son problemas).
Como resultado, el estadístico F o el estadístico t ya no tendrán la distribución F o t, pero la forma en que se ve afectada es diferente dependiendo de si la muestra grande o más pequeña se extrajo de la población con La mayor varianza. Esto a su vez afecta la distribución de los valores p.
Bajo nulo (es decir, cuando las medias de población son iguales), la distribución de los valores de p debe distribuirse uniformemente. Sin embargo, si las variaciones y los tamaños de muestra son desiguales pero las medias son iguales (por lo que no queremos rechazar el valor nulo), los valores p no se distribuyen uniformemente. Hice una pequeña simulación para mostrarte lo que sucede. En este caso, utilicé solo 2 grupos, por lo que ANOVA es equivalente a una prueba t de dos muestras con el supuesto de varianza igual. Así que simulé muestras de dos distribuciones normales, una con desviación estándar diez veces mayor que la otra, pero con medias iguales.
Para la gráfica del lado izquierdo, la desviación estándar más grande ( población ) fue para n = 5 y la desviación estándar más pequeña fue para n = 30. Para el gráfico del lado derecho, la desviación estándar más grande fue con n = 30 y la más pequeña con n = 5. Simulé cada uno 10000 veces y encontré el valor p cada vez. En cada caso, desea que el histograma sea completamente plano (rectangular), ya que esto significa que todas las pruebas realizadas en algún nivel de significancia obtienen realmente esa tasa de error tipo I. En particular, es más importante que las partes más a la izquierda del histograma se mantengan cerca de la línea gris:α
Como vemos, en el gráfico del lado izquierdo (mayor varianza en la muestra más pequeña), los valores p tienden a ser muy pequeños: rechazaríamos la hipótesis nula muy a menudo (casi la mitad del tiempo en este ejemplo) aunque el nulo sea verdadero . Es decir, nuestros niveles de significancia son mucho más grandes de lo que pedimos. En el gráfico del lado derecho, vemos que los valores p son en su mayoría grandes (y, por lo tanto, nuestro nivel de significancia es mucho más pequeño de lo que pedimos); de hecho, ni una sola vez en diez mil simulaciones rechazamos al nivel del 5% (el más pequeño El valor p aquí fue 0.055). [Esto puede no sonar tan mal, hasta que recordemos que también tendremos muy poca potencia para ir con nuestro nivel de significancia muy bajo.]
Esa es una gran consecuencia. Es por eso que es una buena idea usar una prueba t de Welch-Satterthwaite tipo t o ANOVA cuando no tenemos una buena razón para suponer que las variaciones serán casi iguales: en comparación, apenas se ve afectado en estas situaciones (I también simuló este caso; las dos distribuciones de valores p simulados, que no he mostrado aquí, salieron bastante cerca de plano).
2. Distribución condicional de la respuesta (DV)
Esto es algo menos directamente crítico: para desviaciones moderadas de la normalidad, el nivel de significación no se ve muy afectado en muestras más grandes (¡aunque el poder puede serlo!).
Vemos que en n = 5 hay muy pocos valores p pequeños (el nivel de significancia para una prueba del 5% sería aproximadamente la mitad de lo que debería ser), pero en n = 50 el problema se reduce, para un 5% prueba en este caso el verdadero nivel de significancia es de aproximadamente 4.5%
Por lo tanto, podríamos sentir la tentación de decir "bueno, está bien, si n es lo suficientemente grande como para que el nivel de significancia sea bastante cercano", pero también podemos estar arrojando una gran cantidad de poder. En particular, se sabe que la eficiencia relativa asintótica de la prueba t en relación con las alternativas ampliamente utilizadas puede llegar a 0. Esto significa que las mejores opciones de prueba pueden obtener la misma potencia con una fracción extremadamente pequeña del tamaño de muestra requerido para obtenerla. La prueba t. No necesita nada fuera de lo común para continuar necesitando más del doble de datos para tener la misma potencia con la t que necesitaría con una prueba alternativa, colas moderadamente más pesadas de lo normal en la distribución de la población y muestras moderadamente grandes pueden ser suficientes para hacerlo.
(Otras opciones de distribución pueden hacer que el nivel de significación sea más alto de lo que debería ser, o sustancialmente más bajo de lo que vimos aquí).
fuente
En pocas palabras, ANOVA está agregando , cuadrando y promediando los residuos . Los residuos le dicen qué tan bien su modelo se ajusta a los datos. Para este ejemplo, utilicé el
PlantGrowth
conjunto de datos enR
:Este primer gráfico muestra la gran media en los tres niveles de tratamiento:
Las líneas rojas son los residuos . Ahora al cuadrar y agregar la longitud de esas líneas individuales, obtendrá un valor que le indica qué tan bien la media (nuestro modelo) describe los datos. Un número pequeño le dice que la media describe bien sus puntos de datos, un número mayor le dice que la media describe sus datos no tan bien. Este número se llama la suma total de cuadrados :
Ahora hace lo mismo para los residuos en su tratamiento ( Sumas residuales de cuadrados , que también se conoce como ruido en los niveles de tratamiento):
Y la formula:
Por último, necesitamos determinar la señal en los datos, lo que se conoce como las Sumas Modelo de Cuadrados , que luego se utilizarán para calcular si las medias de tratamiento son diferentes de la gran media:
Y la formula:
Ahora la desventaja con las sumas de cuadrados es que se hacen más grandes a medida que aumenta el tamaño de la muestra. Para expresar esas sumas de cuadrados en relación con el número de observaciones en el conjunto de datos, se dividen por sus grados de libertad convirtiéndolos en variaciones. Entonces, después de cuadrar y agregar sus puntos de datos, ahora los promedia usando sus grados de libertad:
Esto da como resultado el Cuadrado medio del modelo y el Cuadrado medio residual (ambos son variaciones), o la relación señal / ruido, que se conoce como el valor F:
El valor F describe la relación señal / ruido, o si las medias de tratamiento son diferentes de la media general. El valor F ahora se usa para calcular los valores p y esos decidirán si al menos uno de los medios de tratamiento será significativamente diferente de la gran media o no.
Ahora espero que puedan ver que los supuestos se basan en cálculos con residuos y por qué son importantes. Dado que agregamos , cuadramos y promediamos los residuos, debemos asegurarnos de que antes de hacer esto, los datos en esos grupos de tratamiento se comporten de manera similar , de lo contrario, el valor F puede estar sesgado en algún grado y las inferencias extraídas de este valor F pueden No ser válido.
Editar: agregué dos párrafos para abordar las preguntas 2 y 1 del OP más específicamente .
Supuesto de normalidad : la media (o valor esperado) a menudo se usa en estadísticas para describir el centro de una distribución, sin embargo, no es muy robusta y fácilmente influida por valores atípicos. La media es el modelo más simple que podemos ajustar a los datos. Dado que en ANOVA estamos utilizando la media para calcular los residuos y las sumas de cuadrados (ver las fórmulas anteriores), los datos deben estar distribuidos aproximadamente de manera normal (supuesto de normalidad). Si este no es el caso, la media puede no ser el modelo apropiado para los datos, ya que no nos daría una ubicación correcta del centro de la distribución de la muestra. En cambio, una vez podría usar la mediana, por ejemplo (ver procedimientos de prueba no paramétricos).
Suposición de la homogeneidad de la varianza : más adelante, cuando calculamos los cuadrados medios (modelo y residual), estamos agrupando las sumas individuales de los cuadrados de los niveles de tratamiento y promediando (ver fórmulas anteriores). Al agrupar y promediar, estamos perdiendo la información de las variaciones del nivel de tratamiento individual y su contribución a los cuadrados medios. Por lo tanto, deberíamos tener aproximadamente la misma variación entre todos los niveles de tratamiento para que la contribución a los cuadrados medios sea similar. Si las variaciones entre esos niveles de tratamiento fueran diferentes, entonces los cuadrados medios y el valor F resultantes estarían sesgados e influirían en el cálculo de los valores p haciendo que las inferencias extraídas de estos valores p sean cuestionables (ver también el comentario de @whuber y La respuesta de @Glen_b).
Así es como lo veo por mí mismo. Puede que no sea 100% exacto (no soy estadístico) pero me ayuda a comprender por qué es importante satisfacer los supuestos de ANOVA.
fuente
ANOVA es solo un método, calcula la prueba F de sus muestras y la compara con la distribución F. Necesita algunos supuestos para decidir qué desea comparar y calcular los valores p.
Si no cumple con esos supuestos, podría calcular otras cosas, pero no será un ANOVA.
La distribución más útil es la normal (debido al CLT), por eso es la más utilizada. Si sus datos no se distribuyen normalmente, necesita al menos saber cuál es su distribución para calcular algo.
La homocedasticidad es una suposición común también en el análisis de regresión, simplemente facilita las cosas. Necesitamos algunas suposiciones para comenzar.
Si no tiene homocedasticidad, puede intentar transformar sus datos para lograrlo.
Se sabe que la prueba ANOVA F es casi óptima en el sentido de minimizar los errores falsos negativos para una tasa fija de errores falsos positivos
fuente