Quiero aprender ANOVA. Antes de comenzar a aprender cómo funciona el algoritmo (qué cálculos deben hacerse) y por qué funciona, primero me gustaría saber qué problema resolvemos realmente con ANOVA, o qué respuesta tratamos de responder. En otras palabras: ¿qué es entrada y qué salida del algoritmo?
Entiendo lo que usamos como entrada. Tenemos un conjunto de números. Cada número viene con valores de una o más variables categóricas (también conocidas como "factores"). Por ejemplo:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
¿Es correcto decir que ANOVA calcula el valor p de la hipótesis nula que establece que los factores no tienen ningún efecto sobre la media de los valores? En otras palabras, le damos los datos dados al algoritmo y, como resultado, obtenemos el valor p de la hipótesis nula.
Si es el caso, ¿qué medida usamos realmente para calcular el valor p? Por ejemplo, podemos decir que, dada la hipótesis nula, M puede ser tan alta como la observada (o incluso más alta) por casualidad en el 1% de los casos. ¿Qué es la M?
¿No investigamos también los factores en ANOVA por separado? ¿Puede ANOVA decir que factor_1 tiene un efecto pero factor_2 no? ¿Puede ANOVA decir que para un factor dado los valores correspondientes a los valores "A", "B" y "C" son estadísticamente indistinguibles (tienen la misma media, por ejemplo) pero el valor "D" tiene un efecto?