Soy nuevo en estadística y estoy tratando de entender la diferencia entre ANOVA y regresión lineal. Estoy usando R para explorar esto. Leí varios artículos sobre por qué ANOVA y la regresión son diferentes, pero siguen siendo los mismos y cómo se puede visualizar, etc. Creo que soy bonita, pero aún falta un poco.
Entiendo que ANOVA compara la varianza dentro de los grupos con la varianza entre grupos para determinar si existe o no una diferencia entre cualquiera de los grupos evaluados. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )
Para la regresión lineal, encontré una publicación en este foro que dice que lo mismo se puede probar cuando probamos si b (pendiente) = 0. ( ¿Por qué se enseña / usa ANOVA como si fuera una metodología de investigación diferente en comparación con la regresión lineal? )
Para más de dos grupos encontré un sitio web que decía:
La hipótesis nula es:
El modelo de regresión lineal es:
Sin embargo, la salida de la regresión lineal es la intercepción para un grupo y la diferencia a esta intercepción para los otros dos grupos. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )
Para mí, esto parece que en realidad se comparan las intersecciones y no las pendientes.
Otro ejemplo en el que comparan las intersecciones en lugar de las pendientes se puede encontrar aquí: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )
Ahora me cuesta entender qué se compara realmente en la regresión lineal. las pendientes, las intersecciones o ambas?
fuente
Respuestas:
Su confusión allí se relaciona con el hecho de que debe ser muy cuidadoso para tener claro qué intersecciones y pendientes quiere decir (¿interceptar qué? ¿Pendiente de qué?).
El papel de un coeficiente de un ficticio 0-1 en una regresión puede considerarse como una pendiente y como una diferencia de intersecciones.
Simplifiquemos las cosas lo más posible, considerando un caso de dos muestras.
Todavía podemos hacer ANOVA unidireccional con dos muestras, pero resulta ser esencialmente lo mismo que una prueba t de dos muestras de dos colas (el caso de varianza igual).
Aquí hay un diagrama de la situación de la población:
Si , entonces el modelo lineal de población esδ= μ2- μ1
Para ayudar con la concreción, aquí hay dos muestras:
¿Como se ven?
¿Cómo se ve la prueba de diferencia de medios?
Como prueba t:
Como una regresión:
Podemos ver en la regresión que el término de intercepción es la media del grupo 1, y el coeficiente groupg2 (coeficiente 'pendiente') es la diferencia en las medias grupales. Mientras tanto, el valor p para la regresión es el mismo que el valor p para la prueba t (0.003976)
fuente