ANOVA vs regresión lineal múltiple?
Entiendo que ambos métodos parecen usar el mismo modelo estadístico. Sin embargo, ¿bajo qué circunstancias debo usar qué método?
¿Cuáles son las ventajas y desventajas de estos métodos en comparación?
¿Por qué ANOVA se usa con tanta frecuencia en estudios experimentales y casi nunca encuentro un estudio de regresión?
anova
multiple-regression
least-squares
florian
fuente
fuente
Respuestas:
Sería interesante apreciar que la divergencia está en el tipo de variables , y más notablemente en los tipos de variables explicativas . En el ANOVA típico tenemos una variable categórica con diferentes grupos , e intentamos determinar si la medición de una variable continua difiere entre los grupos. Por otro lado, los MCO tienden a ser percibidos principalmente como un intento de evaluar la relación entre una variable de respuesta y respuesta continua y uno o múltiples regresores o variables explicativas . En este sentido, la regresión puede verse como una técnica diferente, que se presta para predecir valores basados en una línea de regresión.
Sin embargo , esta diferencia no soporta la extensión de ANOVA al resto del análisis de la sopa de letras del alfabeto (ANCOVA, MANOVA, MANCOVA); o la inclusión de variables codificadas ficticias en la regresión de OLS. No tengo claros los puntos de referencia históricos específicos, pero es como si ambas técnicas hubieran desarrollado adaptaciones paralelas para abordar modelos cada vez más complejos.
Por ejemplo, podemos ver que las diferencias entre ANCOVA versus OLS con variables ficticias (o categóricas) (en ambos casos con interacciones) son cosméticas como máximo. Disculpe mi partida de los límites en el título de su pregunta, con respecto a la regresión lineal múltiple.
En ambos casos, el modelo es esencialmente idéntico al punto en que en R la
lm
función se usa para llevar a cabo ANCOVA . Sin embargo, se puede presentar como diferente con respecto a la inclusión de una intersección correspondiente al primer nivel (o grupo) de la variable factor (o categórica) en el modelo de regresión.En un modelo equilibrado ( grupos igual tamaño , ) y solo una covariable (para simplificar la presentación de la matriz), la matriz del modelo en ANCOVA puede encontrarse como alguna variación de:n 1 , 2 , ⋯yo norte1 , 2 , ⋯yo
para grupos de la variable factor, expresada como matrices de bloques.3
Esto corresponde al modelo lineal:
α i β
La presentación del mismo modelo en el campo de regresión, y específicamente en R, considera una intercepción general, correspondiente a uno de los grupos, y la matriz del modelo podría presentarse como:
de la ecuación OLS:
En este modelo, la intercepción general se modifica en cada nivel de grupo por , y los grupos también tienen pendientes diferentes.μ iβ0 0 μyo
Como puede ver en las matrices del modelo, la presentación desmiente la identidad real entre regresión y análisis de varianza.
Me gusta la clase de verificar esto con algunas líneas de código y los datos de mi preferido fijaron
mtcars
en I . Estoy usandolm
ANCOVA según el documento de Ben Bolker disponible aquí .En cuanto a la parte de la pregunta sobre qué método usar (¡regresión con R!), Puede encontrar divertido este comentario en línea que encontré al escribir esta publicación.
fuente
La regresión ANOVA y OLS son matemáticamente idénticas en los casos en que sus predictores son categóricos (en términos de las inferencias que extrae del estadístico de prueba). Para decirlo de otra manera, ANOVA es un caso especial de regresión. No hay nada que un ANOVA pueda decirle que la regresión no pueda derivarse por sí misma. Lo contrario, sin embargo, no es cierto. ANOVA no se puede utilizar para análisis con variables continuas. Como tal, ANOVA podría clasificarse como la técnica más limitada. Sin embargo, la regresión no siempre es tan útil para el analista menos sofisticado. Por ejemplo, la mayoría de los scripts ANOVA generan automáticamente términos de interacción, donde al igual que con la regresión, a menudo debe calcular manualmente esos términos utilizando el software. El uso generalizado de ANOVA es en parte una reliquia del análisis estadístico antes del uso de un software estadístico más potente, y, en mi opinión, una técnica más fácil de enseñar a estudiantes sin experiencia cuyo objetivo es una comprensión de nivel relativamente superficial que les permita analizar datos con un paquete estadístico básico. Pruébelo alguna vez ... Examine la estadística t que escupe una regresión básica, cuadrátela y luego compárela con la relación F del ANOVA en los mismos datos. ¡Idéntico!
fuente
El principal beneficio de ANOVA sobre la regresión, en mi opinión, está en el resultado. Si está interesado en el significado estadístico de la variable categórica (factor) como un bloque, ANOVA le proporciona esta prueba. Con la regresión, la variable categórica está representada por 2 o más variables ficticias, dependiendo del número de categorías, y por lo tanto tiene 2 o más pruebas estadísticas, cada una de las cuales compara la media de la categoría particular con la media de la categoría nula (o media general, según el método de codificación ficticio). Ninguno de estos puede ser de interés. Por lo tanto, debe realizar un análisis posterior a la estimación (esencialmente, ANOVA) para obtener la prueba general del factor que le interesa.
fuente
La principal ventaja de la regresión lineal es que es robusta a la violación de la homogeneidad de la varianza cuando los tamaños de muestra entre los grupos son desiguales. Otra es que facilita la inclusión de varias covariables (aunque esto también se puede lograr fácilmente a través de ANCOVA cuando está interesado en incluir solo una covariable). La regresión se generalizó durante los años setenta en el advenimiento de los avances en potencia informática. También puede encontrar la regresión más conveniente si está particularmente interesado en examinar las diferencias entre niveles particulares de una variable categórica cuando hay más de dos niveles presentes (siempre que configure la variable ficticia en la regresión para que uno de estos dos niveles representa el grupo de referencia).
fuente