Tengo una pregunta sobre la interpretación de los coeficientes de una interacción entre variable continua y categórica. Aquí está mi modelo:
model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)),
data=base_708)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 21.4836 2.0698 10.380 < 2e-16 ***
lg_hag 8.5691 3.7688 2.274 0.02334 *
raceblack -8.4715 1.7482 -4.846 1.61e-06 ***
racemexican -3.0483 1.7073 -1.785 0.07469 .
racemulti/other -4.6002 2.3098 -1.992 0.04687 *
pdg 2.8038 0.4268 6.570 1.10e-10 ***
sexfemale 4.5691 1.1203 4.078 5.15e-05 ***
as.factor(educa)2 13.8266 2.6362 5.245 2.17e-07 ***
as.factor(educa)3 21.7913 2.4424 8.922 < 2e-16 ***
as.factor(educa)4 19.0179 2.5219 7.541 1.74e-13 ***
as.factor(educa)5 23.7470 2.7406 8.665 < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224 6.5904 -3.220 0.00135 **
lg_hag:as.factor(educa)3 -19.8083 6.1255 -3.234 0.00129 **
lg_hag:as.factor(educa)4 -8.5502 6.6018 -1.295 0.19577
lg_hag:as.factor(educa)5 -17.2230 6.3711 -2.703 0.00706 ***
Digamos que la ecuación del modelo es:
E [cog] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, centrado) + otros covars, donde
b1 = difference in cog with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg
Mi pregunta es: si mi interpretación es correcta, cómo construir intervalos de confianza para cada estimación del efecto de las interacciones (por ejemplo: b1 + b2) a partir de los intervalos de confianza de b1 y b2.

Respuestas:
Su interpretación de los coeficientes del modelo no es completamente precisa. Permítanme resumir primero los términos del modelo.
Variables categoriales (factores): , yrace sex educa
El factorrace={white,black,mexican,multi/other}
racetiene cuatro niveles: .El factorsex={male,female}
sextiene dos niveles: .El factoreduca={1,2,3,4,5}
educatiene cinco niveles: .Por defecto, R usa contrastes de tratamiento para variables categóricas. En estos contrastes, el primer valor del factor se usa como nivel de referencia y los valores restantes se prueban contra la referencia. El número máximo de contrastes para una variable categórica es igual al número de niveles menos uno.
Los contrastes pararace=black vs.race=white race=mexican vs.race=white race=multi/other vs.race=white
racepermitir probar las siguientes diferencias: , , y .r a c ePara el factor , el nivel de referencia es , el patrón de contrastes es análogo. Estos efectos pueden interpretarse como la diferencia en la variable dependiente. En su ejemplo, el valor medio de es unidades más alto para en comparación con ( ).educa 1 13.8266 educa=2 educa=1
cogas.factor(educa)2Una nota importante: si los contrastes de tratamiento para una variable categórica están presentes en un modelo, la estimación de los efectos adicionales se basa en el nivel de referencia de la variable categórica si también se incluyen las interacciones entre los efectos adicionales y la variable categórica. Si la variable no es parte de una interacción, su coeficiente corresponde al promedio de las pendientes individuales de los subconjuntos de esta variable a lo largo de todas las variables categóricas restantes. Los efectos de y corresponden a los efectos promedio con respecto a los niveles de factores de las otras variables. Para probar los efectos generales de la , deberías dejar la y el fuera del modelo.race educa race educa sex
Las variables numéricas: ylg_hag pdg
Tanto1
lg_hagypdgson variables numéricas por lo tanto, los coeficientes representan el cambio en la variable dependiente asociada con un aumento de en el predictor.En principio, la interpretación de estos efectos es sencilla. Pero tenga en cuenta que si hay interacciones, la estimación de los coeficientes se basa en las categorías de referencias de los factores (si se emplean contrastes de tratamiento). Dado que no es parte de una interacción, su coeficiente corresponde a la pendiente promedio de la variable con respecto. La variable también es parte de una interacción con . Por lo tanto, su efecto es válido para , el nivel base .; no es una prueba de una influencia general de la variable numérica independientemente de los niveles de los factores.l gpdg lg_hag educa educa=1 lg_hag
Interacciones entre variables categóricas y numéricas:lg_hag×educa
El modelo no solo incluye los efectos principales sino también las interacciones entre la variable numérica y los cuatro contrastes asociados con . Estos efectos pueden interpretarse como la diferencia en las pendientes de entre un cierto nivel de y el nivel de referencia ( ).e d ulg_hag educa lg_hag educa educa=1
Por ejemplo, el coeficiente delg_hag 21.2224 educa=2 educa=1
lg_hag:as.factor(educa)2(-21.2224) significa que la pendiente de es unidades más bajas para comparación con .21.2224 e d u c a = 2 e d u c a = 1fuente
race=whiteysex=malesolo". ¿Estás seguro de esto? Pregunto porque niracetampocosexestá en interacción con ellg_hag×educatérmino ... Estoy mirando varios textos, no veo esto explícitamente indicado.pdgdepende del nivel de referencia, lo que claramente no es el caso. Si cambio el nivel de referencia de cualquiera de los factores (psex. Ej. ), La estimación depdgNO cambiará ...pdgen efecto, no depende de la especificación de los contrastes. Modificaré la respuesta en consecuencia.