ANOVA es equivalente a la regresión lineal con el uso de variables ficticias adecuadas. Las conclusiones siguen siendo las mismas independientemente de si usa ANOVA o regresión lineal.
A la luz de su equivalencia, ¿hay alguna razón por la cual se usa ANOVA en lugar de regresión lineal?
Nota: Estoy particularmente interesado en escuchar sobre razones técnicas para el uso de ANOVA en lugar de regresión lineal.
Editar
Aquí hay un ejemplo usando ANOVA unidireccional. Suponga que quiere saber si la altura promedio de hombres y mujeres es la misma. Para probar su hipótesis, recopilaría datos de una muestra aleatoria de hombres y mujeres (digamos 30 cada uno) y realizaría el análisis ANOVA (es decir, la suma de los cuadrados para el género y el error) para decidir si existe un efecto.
También podría usar la regresión lineal para probar esto de la siguiente manera:
Definir: si el encuestado es un hombre y 0 en caso contrario. Altura = Intercepción + β ∗ Género + error donde: error ∼ N ( 0 , σ 2 )
Luego, una prueba de si es una prueba equivalente para su hipótesis.
fuente
Respuestas:
Como economista, el análisis de varianza (ANOVA) se enseña y generalmente se entiende en relación con la regresión lineal (por ejemplo, en el Curso A de Econometría de Arthur Goldberger ). Los economistas / econométricos generalmente ven a ANOVA como poco interesante y prefieren pasar directamente a los modelos de regresión. Desde la perspectiva de los modelos lineales (o incluso lineales generalizados), ANOVA asigna coeficientes en lotes, y cada lote corresponde a una "fuente de variación" en la terminología de ANOVA.
En general, puede replicar las inferencias que obtendría de ANOVA utilizando la regresión, pero no siempre la regresión OLS. Se necesitan modelos multinivel para analizar estructuras de datos jerárquicos como los "diseños de parcelas divididas", donde los efectos entre grupos se comparan con los errores a nivel de grupo, y los efectos dentro del grupo se comparan con los errores a nivel de datos. El artículo de Gelman [1] entra en gran detalle sobre este problema y efectivamente argumenta que ANOVA es una herramienta estadística importante que aún debe enseñarse por sí misma.
En particular, Gelman argumenta que ANOVA es una forma de entender y estructurar modelos multinivel. Por lo tanto, ANOVA no es una alternativa a la regresión, sino una herramienta para resumir inferencias complejas de alta dimensión y para el análisis exploratorio de datos.
Gelman es un estadístico muy respetado y se debe dar crédito a su punto de vista. Sin embargo, casi todo el trabajo empírico que hago estaría igualmente bien servido por la regresión lineal, por lo que caigo firmemente en el campo de verlo como un poco inútil. Algunas disciplinas con diseños de estudio complejos (por ejemplo, psicología) pueden encontrar útil ANOVA.
[1] Gelman, A. (2005). Análisis de varianza: por qué es más importante que nunca (con discusión). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048
fuente
Creo que el segundo párrafo de Graham llega al meollo del asunto. Sospecho que no es tanto técnico como histórico, probablemente debido a la influencia de los " Métodos estadísticos para los investigadores ", y la facilidad de enseñar / aplicar la herramienta para no estadísticos en el análisis experimental que involucra factores discretos, en lugar de profundizar en la construcción de modelos. y herramientas asociadas. En estadística, ANOVA generalmente se enseña como un caso especial de regresión. (Creo que esto es similar a por qué la bioestadística se llena con una miríada de "pruebas" homónimas en lugar de enfatizar la construcción de modelos).
fuente
Diría que algunos de ustedes están usando el término regresión cuando deberían usar el modelo lineal general. Pienso en la regresión como una película que involucra covariables continuas. Cuando las covariables continuas se combinan con variables ficticias que deberían llamarse análisis de covarianza. Si solo se utilizan variables ficticias, nos referimos a esa forma especial de glm como análisis de varianza. Creo que el análisis de varianza tiene un segundo significado distinto como el procedimiento para probar coeficientes significativos en un glm usando la descomposición de la varianza en componentes del término del modelo y el componente del término del error.
fuente
ANOVA se puede usar con variables explicativas categóricas (factores) que toman más de 2 valores (niveles) y proporciona una prueba básica de que la respuesta media es la misma para cada valor. Esto evita el problema de regresión al llevar múltiples pruebas t por pares entre esos niveles:
Es mejor usar contrastes para diferentes combinaciones en los niveles de factores que desea probar.
fuente
ANOVA está probando si hay una diferencia significativa entre la población significa que si está comparando más de dos medias de población, entonces usará una prueba F.
En el análisis de regresión, construyes un modelo entre variables independientes y una variable dependiente. Si tiene una variable independiente con cuatro niveles, puede usar tres variables ficticias y ejecutar un modelo de regresión. La prueba F para el modelo de regresión que se usa para evaluar la importancia del modelo de regresión es la misma que la F que se obtiene al probar la diferencia entre las medias de la población. Si ejecuta una regresión paso a paso, algunas de las variables ficticias podrían eliminarse del modelo y su valor F será diferente de cuando realice la prueba ANOVA.
fuente