En R, si llamo a la lm()
función de la siguiente manera:
lm.1 = lm(response ~ var1 + var2 + var1 * var2)
summary(lm.1)
Esto me da un modelo lineal de la variable de respuesta con var1
, var2
y la interacción entre ellos. Sin embargo, ¿cómo exactamente interpretamos numéricamente el término de interacción?
La documentación dice que este es el "cruce" entre var1
y var2
, pero no dio una explicación de qué es exactamente el "cruce".
Sería útil para mí saber qué números exactos está calculando R para incorporar la interacción entre las dos variables.
r
regression
Enzo
fuente
fuente
var3 <- var 1 * var2
luego construirlm.2 <- lm(response ~ var1 + var2 + var3)
var1
yvar2
son ambas continuas (bastante difícil de interpretar, en mi opinión) o si una de ellas es por ejemplo binaria categórica (. Más fácil considerar) Vea esta respuesta para algunos ejemplos de interpretación de Peter Flom: stats.stackexchange.com/a/45512/16974Respuestas:
La forma estándar de escribir la ecuación de predicción para su modelo es:
Pero entender la interacción es un poco más fácil si factorizamos esto de manera diferente:
Con esta factorización podemos ver que para un valor dado de la intersección en y para es y la pendiente en es . Entonces, la relación entre y depende de .x 1 b 0 + b 2 ∗ x 2 x 1 ( b 1 + b 12 ∗ x 2 ) y x 1 x 2x2 x1 b0+b2∗x2 x1 (b1+b12∗x2) y x1 x2
Otra forma de entender esto es trazando las líneas predichas entre y para diferentes valores de (o al revés). Las funciones y en el paquete TeachingDemos para R fueron diseñadas para ayudar con este tipo de tramas.x 1 x 2y x1 x2
Predict.Plot
TkPredict
fuente
Suponga que obtiene estimaciones puntuales de 4 para , 2 para y 1.5 para la interacción. Entonces, la ecuación dice que el ajuste esx 2x1 x2
lm
¿Es eso lo que querías?
fuente
Es más fácil pensar en las interacciones en términos de variables discretas. Tal vez podría haber estudiado ANOVA de dos vías, donde tenemos dos variables de agrupación (por ejemplo, género y categoría de edad, con tres niveles para la edad) y está observando cómo pertenecen a alguna medida continua (nuestra variable dependiente, por ejemplo, IQ).
El término x1 * x2, si es significativo, puede entenderse (en este ejemplo trivial, inventado) como IQ que se comporta de manera diferente a través de los niveles de edad para los diferentes géneros. Por ejemplo, tal vez el coeficiente intelectual sea estable para los hombres en los tres grupos de edad, pero las mujeres jóvenes comienzan por debajo de los hombres jóvenes y tienen una trayectoria ascendente (con el grupo de edad avanzada teniendo una media más alta que el grupo de edad para los hombres). En una gráfica de medios, esto implicaría una línea horizontal para los machos en el medio del gráfico, y quizás una línea de 45 grados para las hembras que comienza debajo de los machos pero termina por encima de los machos.
La esencia es que a medida que te mueves a lo largo de los niveles de una variable (o "manteniendo constante X1"), lo que sucede en la otra variable cambia. Esta interpretación también funciona con variables predictoras continuas, pero no es tan fácil de ilustrar concretamente. En ese caso, es posible que desee tomar valores particulares de X1 y X2 y ver qué sucede con Y.
fuente