ANOVA vs regresión lineal múltiple? ¿Por qué ANOVA se usa con tanta frecuencia en estudios experimentales?

24

ANOVA vs regresión lineal múltiple?

Entiendo que ambos métodos parecen usar el mismo modelo estadístico. Sin embargo, ¿bajo qué circunstancias debo usar qué método?

¿Cuáles son las ventajas y desventajas de estos métodos en comparación?

¿Por qué ANOVA se usa con tanta frecuencia en estudios experimentales y casi nunca encuentro un estudio de regresión?

florian
fuente
55
Como ambos usan el mismo modelo, no importa cuál use.
Peter Flom - Restablece a Monica
3
Lo llamo regresión cuando comparo pendientes, es decir, variables predictoras continuas, y ANOVA cuando comparo medias, es decir, variables predictoras categóricas. La razón por la que encuentra ANOVA más en estudios experimentales es porque en su mayoría comparan medios o niveles de tratamientos, por ejemplo, comparan diferentes fertilizantes en el crecimiento de las plantas. Pero como ya dijo @PeterFlom, ambos usan el mismo modelo y no importa cuál use, lo único que se ve diferente es el resultado que le dan, y dependiendo de su pregunta, desea el resultado de "regresión" o el Salida "ANOVA".
Stefan
2
Hmm, ¿pero también podría incluir predictores categóricos en una regresión mediante codificación ficticia?
florian
¡Sí, por supuesto!
Stefan
44
Su pregunta es muy válida y ha sido abordada varias veces desde diferentes perspectivas en CV. La naturaleza duplicada de estas pruebas es desconcertante. Es fácil decir ANOVA = regresión lineal, y creo que todos los comentarios realizados hasta ahora son útiles y precisos, pero la realidad es un poco más matizada y difícil de entender, especialmente si incluye ANCOVA bajo el paraguas de análisis de diferencia. Verifique otras entradas, como esta . Soy +1 su pregunta, aunque es, estrictamente hablando, un duplicado. ¿Puedes dar un ex.?
Antoni Parellada

Respuestas:

22

Sería interesante apreciar que la divergencia está en el tipo de variables , y más notablemente en los tipos de variables explicativas . En el ANOVA típico tenemos una variable categórica con diferentes grupos , e intentamos determinar si la medición de una variable continua difiere entre los grupos. Por otro lado, los MCO tienden a ser percibidos principalmente como un intento de evaluar la relación entre una variable de respuesta y respuesta continua y uno o múltiples regresores o variables explicativas . En este sentido, la regresión puede verse como una técnica diferente, que se presta para predecir valores basados ​​en una línea de regresión.

Sin embargo , esta diferencia no soporta la extensión de ANOVA al resto del análisis de la sopa de letras del alfabeto (ANCOVA, MANOVA, MANCOVA); o la inclusión de variables codificadas ficticias en la regresión de OLS. No tengo claros los puntos de referencia históricos específicos, pero es como si ambas técnicas hubieran desarrollado adaptaciones paralelas para abordar modelos cada vez más complejos.

Por ejemplo, podemos ver que las diferencias entre ANCOVA versus OLS con variables ficticias (o categóricas) (en ambos casos con interacciones) son cosméticas como máximo. Disculpe mi partida de los límites en el título de su pregunta, con respecto a la regresión lineal múltiple.

En ambos casos, el modelo es esencialmente idéntico al punto en que en R la lmfunción se usa para llevar a cabo ANCOVA . Sin embargo, se puede presentar como diferente con respecto a la inclusión de una intersección correspondiente al primer nivel (o grupo) de la variable factor (o categórica) en el modelo de regresión.

En un modelo equilibrado ( grupos igual tamaño , ) y solo una covariable (para simplificar la presentación de la matriz), la matriz del modelo en ANCOVA puede encontrarse como alguna variación de:n 1 , 2 , yonorte1,2,yo

X=[1norte10 00 0Xnorte10 00 00 01norte20 00 0Xnorte20 00 00 01norte30 00 0Xnorte3]

para grupos de la variable factor, expresada como matrices de bloques.3

Esto corresponde al modelo lineal:

α i β

y=αyo+β1Xnorte1+β2Xnorte2+β3Xnorte3+ϵyo
con equivalente a los diferentes medios de grupo en un ANOVA modelo, mientras que las diferentes 's son las pendientes de la covariable para cada uno de los grupos.αyoβ

La presentación del mismo modelo en el campo de regresión, y específicamente en R, considera una intercepción general, correspondiente a uno de los grupos, y la matriz del modelo podría presentarse como:

X=[0 00 00 00 00 0J3norte,11norte20 0X0 0Xnorte20 00 01norte30 00 0Xnorte3]

de la ecuación OLS:

y=β0 0+μyo+β1Xnorte1+β2Xnorte2+β3Xnorte3+ϵyo
.

En este modelo, la intercepción general se modifica en cada nivel de grupo por , y los grupos también tienen pendientes diferentes.μ iβ0 0μyo

Como puede ver en las matrices del modelo, la presentación desmiente la identidad real entre regresión y análisis de varianza.

Me gusta la clase de verificar esto con algunas líneas de código y los datos de mi preferido fijaron mtcarsen I . Estoy usando lmANCOVA según el documento de Ben Bolker disponible aquí .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

En cuanto a la parte de la pregunta sobre qué método usar (¡regresión con R!), Puede encontrar divertido este comentario en línea que encontré al escribir esta publicación.

Antoni Parellada
fuente
1
Gracias por este comentario extremadamente útil ... Citando el comentario que vinculó: "Use la regresión cuando no esté seguro de si las variables categóricas independientes tienen algún efecto. Use ANOVA cuando quiera ver si categorías particulares tienen diferentes efectos ". Entonces, ¿cómo es que muchos estudios experimentales usan ANOVA? Según tengo entendido, la regresión sería la elección correcta. ¿Están los investigadores demasiado convencidos de que los efectos están ahí y solo buscan formas de "probarlos" estadísticamente?
florian
¿Podría proporcionar un ejemplo práctico en el que uno debería usar aov sobre la regresión y explicar por qué? Gracias por su tiempo. También soy psicólogo por capacitación y no veo las ventajas de Anova, excepto que probablemente se publique más fácilmente.
florian
¿Alguna suerte? Estaría muy interesado en cualquier heurística más concreta para favorecer cualquier tipo de procedimiento, así que por favor comparta si encuentra una respuesta.
Antoni Parellada
Lamentablemente, no hay nuevos descubrimientos en mi viaje a las estadísticas hasta ahora ... lo mantendré informado, se agradece más información.
florian
Tengo dificultades para comprender la matriz del modelo OLS y la ecuación correspondiente aquí. No entiendo de dónde viene la columna cero (quinta columna de la matriz). Además, creo que la ecuación debería corresponder a las columnas (es decir, mu_i debería ser solo para dos grupos y la variable x debería incluirse sin interacción con un grupo ficticio). ¡Una aclaración adicional es muy apreciada!
Nick
4

La regresión ANOVA y OLS son matemáticamente idénticas en los casos en que sus predictores son categóricos (en términos de las inferencias que extrae del estadístico de prueba). Para decirlo de otra manera, ANOVA es un caso especial de regresión. No hay nada que un ANOVA pueda decirle que la regresión no pueda derivarse por sí misma. Lo contrario, sin embargo, no es cierto. ANOVA no se puede utilizar para análisis con variables continuas. Como tal, ANOVA podría clasificarse como la técnica más limitada. Sin embargo, la regresión no siempre es tan útil para el analista menos sofisticado. Por ejemplo, la mayoría de los scripts ANOVA generan automáticamente términos de interacción, donde al igual que con la regresión, a menudo debe calcular manualmente esos términos utilizando el software. El uso generalizado de ANOVA es en parte una reliquia del análisis estadístico antes del uso de un software estadístico más potente, y, en mi opinión, una técnica más fácil de enseñar a estudiantes sin experiencia cuyo objetivo es una comprensión de nivel relativamente superficial que les permita analizar datos con un paquete estadístico básico. Pruébelo alguna vez ... Examine la estadística t que escupe una regresión básica, cuadrátela y luego compárela con la relación F del ANOVA en los mismos datos. ¡Idéntico!

Michael Melville
fuente
Esto no es verdad.
Michael R. Chernick
44
@MichaelChernick ¿Podría explicar cuál de las muchas afirmaciones hechas en esta respuesta cree que son falsas? Aunque toma algunas posiciones extremas, es difícil encontrar alguna que sea falsa.
whuber
Me opuse a la afirmación de que la regresión ANOVA y OLS son matemáticamente idénticas. Reconozco que ANOVA puede considerarse como una regresión en una forma del modelo lineal general que puede formularse como una regresión.
Michael R. Chernick
En el caso de OLS, ¿cómo no son idénticos aparte de la salida? El modelo subyacente es el mismo, los residuos son los mismos, los valores p que producen son los mismos. Es la salida que difiere.
dbwilson
2

El principal beneficio de ANOVA sobre la regresión, en mi opinión, está en el resultado. Si está interesado en el significado estadístico de la variable categórica (factor) como un bloque, ANOVA le proporciona esta prueba. Con la regresión, la variable categórica está representada por 2 o más variables ficticias, dependiendo del número de categorías, y por lo tanto tiene 2 o más pruebas estadísticas, cada una de las cuales compara la media de la categoría particular con la media de la categoría nula (o media general, según el método de codificación ficticio). Ninguno de estos puede ser de interés. Por lo tanto, debe realizar un análisis posterior a la estimación (esencialmente, ANOVA) para obtener la prueba general del factor que le interesa.

dbwilson
fuente
Actualmente, esto no es verdad. Si realiza una prueba de razón de verosimilitud, está probando todo el factor categórico como un bloque en un modelo de regresión.
Dan Chaltiel
Tu comentario no contradice lo que dije. La prueba de razón de probabilidad que menciona sería un análisis posterior a la estimación del factor, comparando el modelo con el factor con el modelo sin él.
dbwilson
Si realiza un ANOVA, obtendrá un valor p para "la variable categórica (factor) como un bloque", al igual que la regresión con LRT. La regresión puede proporcionarle varias versiones beta, pero no realizaría más pruebas que ANOVA, por lo que su afirmación "por lo tanto, tiene 2 o más pruebas estadísticas" me parece incorrecta. ¿Por qué LRT sería más "post-estimación" que ANOVA?
Dan Chaltiel
1

La principal ventaja de la regresión lineal es que es robusta a la violación de la homogeneidad de la varianza cuando los tamaños de muestra entre los grupos son desiguales. Otra es que facilita la inclusión de varias covariables (aunque esto también se puede lograr fácilmente a través de ANCOVA cuando está interesado en incluir solo una covariable). La regresión se generalizó durante los años setenta en el advenimiento de los avances en potencia informática. También puede encontrar la regresión más conveniente si está particularmente interesado en examinar las diferencias entre niveles particulares de una variable categórica cuando hay más de dos niveles presentes (siempre que configure la variable ficticia en la regresión para que uno de estos dos niveles representa el grupo de referencia).

David B
fuente
1
Como se señaló en la otra respuesta, un ANOVA es una regresión múltiple.
gung - Restablece a Monica
Gracias, ¿cuáles son las ventajas de Anova? ¿Por qué usarías un Anova / Ancova sobre un modelo de regresión?
florian
Tengo una pregunta aqui. ¿Por qué denotaste 'solo una covariable' al explicar la utilidad de ANCOVA? ¿Es porque solo puede incluir una covariable en ANCOVA?
Kevin Kang