Interpretación de los coeficientes de una interacción entre variable categórica y continua

9

Tengo una pregunta sobre la interpretación de los coeficientes de una interacción entre variable continua y categórica. Aquí está mi modelo:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

Digamos que la ecuación del modelo es:

E [cog] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, centrado) + otros covars, donde

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

Mi pregunta es: si mi interpretación es correcta, cómo construir intervalos de confianza para cada estimación del efecto de las interacciones (por ejemplo: b1 + b2) a partir de los intervalos de confianza de b1 y b2.

A salvo
fuente
no está muy familiarizado con cómo hacer eso en R. suponga que en sas puede obtener el resultado mediante la declaración "estimación", consulte support.sas.com/documentation/cdl/en/statug/63033/HTML/default/…
boomean

Respuestas:

7

Su interpretación de los coeficientes del modelo no es completamente precisa. Permítanme resumir primero los términos del modelo.

Variables categoriales (factores): , yracesexeduca

El factor racetiene cuatro niveles: .race={white,black,mexican,multi/other}

El factor sextiene dos niveles: .sex={male,female}

El factor educatiene cinco niveles: .educa={1,2,3,4,5}

Por defecto, R usa contrastes de tratamiento para variables categóricas. En estos contrastes, el primer valor del factor se usa como nivel de referencia y los valores restantes se prueban contra la referencia. El número máximo de contrastes para una variable categórica es igual al número de niveles menos uno.

Los contrastes para racepermitir probar las siguientes diferencias: , , y .r a c erace=black vs.race=whiterace=mexican vs.race=whiterace=multi/other vs.race=white

Para el factor , el nivel de referencia es , el patrón de contrastes es análogo. Estos efectos pueden interpretarse como la diferencia en la variable dependiente. En su ejemplo, el valor medio de es unidades más alto para en comparación con ( ).educa1cog13.8266educa=2educa=1as.factor(educa)2

Una nota importante: si los contrastes de tratamiento para una variable categórica están presentes en un modelo, la estimación de los efectos adicionales se basa en el nivel de referencia de la variable categórica si también se incluyen las interacciones entre los efectos adicionales y la variable categórica. Si la variable no es parte de una interacción, su coeficiente corresponde al promedio de las pendientes individuales de los subconjuntos de esta variable a lo largo de todas las variables categóricas restantes. Los efectos de y corresponden a los efectos promedio con respecto a los niveles de factores de las otras variables. Para probar los efectos generales de la , deberías dejar la y el fuera del modelo.raceeducaraceeducasex

Las variables numéricas: ylg_hagpdg

Tanto lg_hagy pdgson variables numéricas por lo tanto, los coeficientes representan el cambio en la variable dependiente asociada con un aumento de en el predictor.1

En principio, la interpretación de estos efectos es sencilla. Pero tenga en cuenta que si hay interacciones, la estimación de los coeficientes se basa en las categorías de referencias de los factores (si se emplean contrastes de tratamiento). Dado que no es parte de una interacción, su coeficiente corresponde a la pendiente promedio de la variable con respecto. La variable también es parte de una interacción con . Por lo tanto, su efecto es válido para , el nivel base .; no es una prueba de una influencia general de la variable numérica independientemente de los niveles de los factores.l gpdglg_hageducaeduca=1lg_hag

Interacciones entre variables categóricas y numéricas: lg_hag×educa

El modelo no solo incluye los efectos principales sino también las interacciones entre la variable numérica y los cuatro contrastes asociados con . Estos efectos pueden interpretarse como la diferencia en las pendientes de entre un cierto nivel de y el nivel de referencia ( ).e d ulg_hageducalg_hageducaeduca=1

Por ejemplo, el coeficiente de lg_hag:as.factor(educa)2( -21.2224) significa que la pendiente de es unidades más bajas para comparación con .21.2224 e d u c a = 2 e d u c a = 1lg_hag21.2224educa=2educa=1

Sven Hohenstein
fuente
"Estos coeficientes de interacción también son válidos para race=whitey sex=malesolo". ¿Estás seguro de esto? Pregunto porque ni racetampoco sexestá en interacción con el lg_hag×educatérmino ... Estoy mirando varios textos, no veo esto explícitamente indicado.
landroni
2
@landroni Las pendientes se estiman para el punto donde todos los predictores restantes son iguales a 0.
Sven Hohenstein
Sí, eso también lo entiendo. Todos los demás predictores se mantienen constantes, lo que significa que los factores se fijan a su nivel de referencia. Pero ahí está mi enigma: he mirado varios libros que parecen pasar por alto sobre este matiz sutil pero de gran alcance. Además, los documentos a menudo "controlan por la industria", sin embargo, sacan conclusiones como si los coeficientes fueran incondicionales sobre la muestra completa, en lugar de señalar que esto es solo para el nivel de referencia. Ver también: stats.stackexchange.com/questions/146665/ ...
landroni
1
"Si los contrastes de tratamiento para una variable categórica están presentes en un modelo, la estimación de los efectos adicionales se basa en el nivel de referencia de la variable categórica". Después de una consideración adicional, no estoy convencido (o no sigo su argumento por completo). Parece implicar que la estimación de beta, por ejemplo, pdgdepende del nivel de referencia, lo que claramente no es el caso. Si cambio el nivel de referencia de cualquiera de los factores (p sex. Ej. ), La estimación de pdgNO cambiará ...
landroni
1
@landroni Gracias por señalar. Tienes razón, esta declaración es engañosa. En realidad, solo es válido para predictores que también son parte de términos de interacción con variables categóricas. Por lo tanto, la estimación de pdgen efecto, no depende de la especificación de los contrastes. Modificaré la respuesta en consecuencia.
Sven Hohenstein