Entiendo el concepto de que es la media para cuando la variable categórica es igual a 0 (o es el grupo de referencia), dando la interpretación final de que el coeficiente de regresión es la diferencia en la media de las dos categorías. Incluso con> 2 categorías, supongo que cada explica la diferencia entre la media de esa categoría y la referencia. β
Pero, ¿qué pasa si se incorporan más variables al modelo multivariable? Ahora, ¿qué significa la intersección dado que no tiene sentido que sea la media para la referencia de dos variables categóricas? Un ejemplo sería si el género (M (ref) / F) y la raza (blanco (ref) / negro) estuvieran en un modelo. ¿Es la media solo para hombres blancos? ¿Cómo se interpreta alguna otra posibilidad?
Como nota aparte: ¿las declaraciones de contraste sirven como método para investigar la modificación del efecto? ¿O simplemente para ver el efecto ( ) en diferentes niveles?
Respuestas:
Tienes razón sobre la interpretación de las versiones beta cuando hay una sola variable categórica con niveles. Si hubo múltiples variables categóricas (y no hubo término de interacción), la intercepción ( ) es la media del grupo que constituye el nivel de referencia para ambas (todas) variables categóricas. Usando su escenario de ejemplo, considere el caso donde no hay interacción, entonces las versiones beta son:k β 0β^0
También podemos pensar en esto en términos de cómo calcular los diversos medios grupales:
X¯W h i t e M un l e s X¯W h i t e F e m a l e s X¯B l a c k M a l e s X¯Black Females=β^0=β^0+β^Female=β^0+β^Black=β^0+β^Female+β^Black
Si tuviera un término de interacción, se agregaría al final de la ecuación para las mujeres negras. (La interpretación de dicho término de interacción es bastante complicada, pero la analizo aquí: interpretación del término de interacción ).
Actualización : para aclarar mis puntos, consideremos un ejemplo enlatado, codificado
R
.Los medios de
y
estas variables categóricas son:Podemos comparar las diferencias entre estos medios con los coeficientes de un modelo ajustado:
Lo que hay que reconocer sobre esta situación es que, sin un término de interacción, estamos asumiendo líneas paralelas. Por lo tanto,
Estimate
para el(Intercept)
es la media de los machos blancos. ElEstimate
paraSexFemale
es la diferencia entre la media de las mujeres y la media de los hombres. ElEstimate
paraRaceBlack
es la diferencia entre la media de los negros y la media de los blancos. Nuevamente, debido a que un modelo sin un término de interacción supone que los efectos son estrictamente aditivos (las líneas son estrictamente paralelas), la media de las mujeres negras es entonces la media de los hombres blancos más la diferencia entre la media de las mujeres y la media de los hombres más La diferencia entre la media de los negros y la media de los blancos.fuente
Si ampliamos un poco su ejemplo para incluir un tercer nivel en la categoría de raza (digamos asiático ) y elegimos Blanco como referencia, entonces tendría:
Desafortunadamente, en el caso de múltiples variables categóricas, la interpretación correcta para la intercepción ya no es tan clara (ver nota al final). Cuando hay n categorías, cada una con múltiples niveles y un nivel de referencia (por ejemplo, Blanco y Masculino en su ejemplo), la forma general para la intersección es:
Si volvemos a su ejemplo, obtendríamos:
Ejemplo numérico
Déjame pedir prestado a @Gung para un ejemplo numérico enlatado:
Podemos comparar estos números con los resultados de la regresión:
Nota sobre la elección del contraste
Si volvemos al ejemplo anterior, tendría:
fuente