Tengo una pregunta sobre la interpretación de los coeficientes de una interacción entre variable continua y categórica. Aquí está mi modelo:
model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)),
data=base_708)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 21.4836 2.0698 10.380 < 2e-16 ***
lg_hag 8.5691 3.7688 2.274 0.02334 *
raceblack -8.4715 1.7482 -4.846 1.61e-06 ***
racemexican -3.0483 1.7073 -1.785 0.07469 .
racemulti/other -4.6002 2.3098 -1.992 0.04687 *
pdg 2.8038 0.4268 6.570 1.10e-10 ***
sexfemale 4.5691 1.1203 4.078 5.15e-05 ***
as.factor(educa)2 13.8266 2.6362 5.245 2.17e-07 ***
as.factor(educa)3 21.7913 2.4424 8.922 < 2e-16 ***
as.factor(educa)4 19.0179 2.5219 7.541 1.74e-13 ***
as.factor(educa)5 23.7470 2.7406 8.665 < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224 6.5904 -3.220 0.00135 **
lg_hag:as.factor(educa)3 -19.8083 6.1255 -3.234 0.00129 **
lg_hag:as.factor(educa)4 -8.5502 6.6018 -1.295 0.19577
lg_hag:as.factor(educa)5 -17.2230 6.3711 -2.703 0.00706 ***
Digamos que la ecuación del modelo es:
E [cog] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, centrado) + otros covars, donde
b1 = difference in cog with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg
Mi pregunta es: si mi interpretación es correcta, cómo construir intervalos de confianza para cada estimación del efecto de las interacciones (por ejemplo: b1 + b2) a partir de los intervalos de confianza de b1 y b2.
Respuestas:
Su interpretación de los coeficientes del modelo no es completamente precisa. Permítanme resumir primero los términos del modelo.
Variables categoriales (factores): , yrace sex educa
El factorrace={white,black,mexican,multi/other}
race
tiene cuatro niveles: .El factorsex={male,female}
sex
tiene dos niveles: .El factoreduca={1,2,3,4,5}
educa
tiene cinco niveles: .Por defecto, R usa contrastes de tratamiento para variables categóricas. En estos contrastes, el primer valor del factor se usa como nivel de referencia y los valores restantes se prueban contra la referencia. El número máximo de contrastes para una variable categórica es igual al número de niveles menos uno.
Los contrastes pararace=black vs.race=white race=mexican vs.race=white race=multi/other vs.race=white
race
permitir probar las siguientes diferencias: , , y .r a c ePara el factor , el nivel de referencia es , el patrón de contrastes es análogo. Estos efectos pueden interpretarse como la diferencia en la variable dependiente. En su ejemplo, el valor medio de es unidades más alto para en comparación con ( ).educa 1 13.8266 educa=2 educa=1
cog
as.factor(educa)2
Una nota importante: si los contrastes de tratamiento para una variable categórica están presentes en un modelo, la estimación de los efectos adicionales se basa en el nivel de referencia de la variable categórica si también se incluyen las interacciones entre los efectos adicionales y la variable categórica. Si la variable no es parte de una interacción, su coeficiente corresponde al promedio de las pendientes individuales de los subconjuntos de esta variable a lo largo de todas las variables categóricas restantes. Los efectos de y corresponden a los efectos promedio con respecto a los niveles de factores de las otras variables. Para probar los efectos generales de la , deberías dejar la y el fuera del modelo.race educa race educa sex
Las variables numéricas: ylg_hag pdg
Tanto1
lg_hag
ypdg
son variables numéricas por lo tanto, los coeficientes representan el cambio en la variable dependiente asociada con un aumento de en el predictor.En principio, la interpretación de estos efectos es sencilla. Pero tenga en cuenta que si hay interacciones, la estimación de los coeficientes se basa en las categorías de referencias de los factores (si se emplean contrastes de tratamiento). Dado que no es parte de una interacción, su coeficiente corresponde a la pendiente promedio de la variable con respecto. La variable también es parte de una interacción con . Por lo tanto, su efecto es válido para , el nivel base .; no es una prueba de una influencia general de la variable numérica independientemente de los niveles de los factores.l gpdg lg_hag educa educa=1 lg_hag
Interacciones entre variables categóricas y numéricas:lg_hag×educa
El modelo no solo incluye los efectos principales sino también las interacciones entre la variable numérica y los cuatro contrastes asociados con . Estos efectos pueden interpretarse como la diferencia en las pendientes de entre un cierto nivel de y el nivel de referencia ( ).e d ulg_hag educa lg_hag educa educa=1
Por ejemplo, el coeficiente delg_hag 21.2224 educa=2 educa=1
lg_hag:as.factor(educa)2
(-21.2224
) significa que la pendiente de es unidades más bajas para comparación con .21.2224 e d u c a = 2 e d u c a = 1fuente
race=white
ysex=male
solo". ¿Estás seguro de esto? Pregunto porque nirace
tampocosex
está en interacción con ellg_hag×educa
término ... Estoy mirando varios textos, no veo esto explícitamente indicado.pdg
depende del nivel de referencia, lo que claramente no es el caso. Si cambio el nivel de referencia de cualquiera de los factores (psex
. Ej. ), La estimación depdg
NO cambiará ...pdg
en efecto, no depende de la especificación de los contrastes. Modificaré la respuesta en consecuencia.