Hasta ahora he visto a ANOVA usado de dos maneras:
Primero , en mi texto introductorio de estadística, ANOVA se introdujo como una forma de comparar medias de tres o más grupos, como una mejora sobre la comparación por pares, para determinar si una de las medias tiene una diferencia estadísticamente significativa.
En segundo lugar , en mi texto de aprendizaje estadístico, he visto que ANOVA se utiliza para comparar dos (o más) modelos anidados para determinar si el Modelo 1, que usa un subconjunto de predictores del Modelo 2, se ajusta a los datos igualmente bien, o si el total El modelo 2 es superior.
Ahora supongo que de una forma u otra estas dos cosas son realmente muy similares porque ambas están usando la prueba ANOVA, pero en la superficie me parecen bastante diferentes. Por un lado, el primer uso compara tres o más grupos, mientras que el segundo método puede usarse para comparar solo dos modelos. ¿A alguien le importaría dilucidar la conexión entre estos dos usos?
anova()
función, porque el primer ANOVA real también está usando una prueba F. Esto lleva a confusión terminológica.anova()
función pudiera hacer más que solo ANOVA. Esta publicación respalda su conclusión: stackoverflow.com/questions/20128781/f-test-for-two-models-in-rRespuestas:
En mi opinión, la intuición abstracta de ANOVA es la siguiente: uno descompone las fuentes de variación de la variable observada en varias direcciones e investiga las contribuciones respectivas. Para ser más precisos, uno descompone el mapa de identidad en una suma de proyecciones e investiga qué proyecciones / direcciones hacen una contribución importante para explicar la varianza y cuáles no. La base teórica es el teorema de Cochran .
Para ser menos abstracto, lanzo la segunda forma mencionada por el OP en el marco que acabo de describir. Posteriormente, interpreto la primera forma como un caso especial de la segunda.
Consideremos un modelo de regresión con variables explicativas (el modelo completo) y compárelo con el modelo restringido con variables . WLOG, las últimas variables del modelo completo no están incluidas en el modelo restringido. La pregunta respondida por ANOVA esK K−J J
"¿Podemos explicar significativamente más varianza en la variable observada si incluimos variables adicionales"J ?
Esta pregunta se responde comparando las contribuciones de varianza de las primeras variables , las siguientes variables y la parte restante / no explicada (la suma residual de cuadrados). Esta descomposición (obtenida, por ejemplo, del teorema de Cochran) se utiliza para construir la prueba F. Por lo tanto, uno analiza la reducción (al incluir más variables) en la suma residual de cuadrados del modelo restringido (correspondiente a todos los coeficientes pertenecientes a las últimas variables son cero ) al incluir más variables y obtener el estadístico F Si el valor es lo suficientemente grande, entonces la varianza se explica por la adicionalK−J J H0: J
Ahora, la primera forma mencionada por el OP se interpreta como un caso especial de la segunda forma . Considere tres grupos diferentes A, B y C con medias , y . El se prueba comparando la varianza explicada por la regresión en una intercepción (el modelo restringido) con la varianza explicada por el modelo completo que contiene una intercepción, un maniquí para el grupo A y un maniquí para el grupo B. El estadístico F resultante es equivalente al ANOVA- prueba en WikipediaμA μB μC H0:μA=μB=μC
fuente
Si está haciendo ANOVA unidireccional para probar si hay una diferencia significativa entre los grupos, entonces está comparando implícitamente dos modelos anidados (por lo tanto, solo hay un nivel de anidación, pero todavía está anidando).
Esos dos modelos son:
Modelo 1: los valores se modelan por los medios estimados de los grupos.
(y si representamos el modelo por las variaciones entre grupos, , entonces el modelo 0 está anidado dentro del modelo 1)βj^
Un ejemplo de comparación de medias y equivalencia con modelos anidados: tomemos la longitud del sepal (cm) del conjunto de datos del iris (si usamos las cuatro variables, podríamos estar haciendo LDA o MANOVA como lo hizo Fisher en 1936)
Las medias totales y grupales observadas son:
Que está en forma de modelo:
El en el modelo 1 representa la suma total de cuadrados .∑ϵ2i=102.1683
El en el modelo 2 representa la suma dentro del grupo de los cuadrados .∑ϵ2i=38.9562
Y la tabla ANOVA será como (y calculará implícitamente la diferencia que es la suma de cuadrados entre grupos que es el 63.212 en la tabla con 2 grados de libertad):
con
conjunto de datos utilizado en el ejemplo:
longitud del pétalo (cm) para tres especies diferentes de flores de iris
fuente
El uso de ANOVA en comparación entre varios modelos significa probar si al menos uno de los coeficientes utilizados en el modelo con orden superior (y ausente en el modelo con orden inferior) es significativamente diferente de cero.
Eso es equivalente a decir que la suma de los residuos para el modelo de orden superior es significativamente menor que la del modelo de orden inferior.
Se trata de dos modelos, ya que la ecuación básica utilizada es
Donde MSM es la media de los residuos al cuadrado del modelo de orden inferior (donde el orden más bajo es la media de la variable objetivo, es decir, la intercepción).
( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )
Puedes leer temas similares en CV, como
¿Cómo usar anova para la comparación de dos modelos?
fuente
De lo que he aprendido
Puede usar tablas ANOVA para determinar si sus variables explicativas tienen un efecto significativo en la variable de respuesta y, por lo tanto, se ajustan al modelo apropiado.
Por ejemplo, suponga que tiene 2 variables explicativas y , pero no está seguro de si realmente tiene un efecto en Y. Puede comparar las tablas ANOVA de los dos modelos:x 2 x 2x1 x2 x2
y = β 0 + β 1 x 1 + ϵ
Realiza una prueba de hipótesis con la Suma de cuadrados residual adicional usando la prueba F para determinar si un modelo reducido con solo es más significativo.x1
Aquí hay un ejemplo de salida ANOVA para un proyecto en el que estoy trabajando en R, donde pruebo dos modelos (uno con los días variables y otro sin los días variables):
Como puede ver, el valor p correspondiente de la prueba F es 0.13, que es mayor que 0.05. Por lo tanto, no podemos rechazar la hipótesis nula de que Días no tiene efecto en Y. Por lo tanto, elijo el modelo 1 sobre el modelo 2.
fuente