Interpretación de betas cuando hay múltiples variables categóricas.

18

Entiendo el concepto de que es la media para cuando la variable categórica es igual a 0 (o es el grupo de referencia), dando la interpretación final de que el coeficiente de regresión es la diferencia en la media de las dos categorías. Incluso con> 2 categorías, supongo que cada explica la diferencia entre la media de esa categoría y la referencia. ββ^0 0β^

Pero, ¿qué pasa si se incorporan más variables al modelo multivariable? Ahora, ¿qué significa la intersección dado que no tiene sentido que sea la media para la referencia de dos variables categóricas? Un ejemplo sería si el género (M (ref) / F) y la raza (blanco (ref) / negro) estuvieran en un modelo. ¿Es la media solo para hombres blancos? ¿Cómo se interpreta alguna otra posibilidad?β^0 0

Como nota aparte: ¿las declaraciones de contraste sirven como método para investigar la modificación del efecto? ¿O simplemente para ver el efecto ( ) en diferentes niveles?β^

Renee
fuente
Como nota terminológica, "multivariante" significa múltiples variables de respuesta , no múltiples variables predictoras (ver aquí ). Además, no sigo tu última pregunta.
gung - Restablece a Monica
Gracias por esta aclaración. ¡Conseguir el idioma correcto es importante para mí! Supongo que no puedo entender por qué se usan las declaraciones de contraste, ya que siempre se puede establecer la variable de referencia con la que se está contrastando.
Renee
1
Supongo que podría seguir ajustando el modelo con diferentes niveles de referencia. No estoy seguro de que sea más conveniente. Con los contrastes, también puede especificar un conjunto de contrastes ortogonales o un contraste teóricamente implícito (A versus combinación de B y C) para probar.
gung - Restablece a Monica

Respuestas:

19

Tienes razón sobre la interpretación de las versiones beta cuando hay una sola variable categórica con niveles. Si hubo múltiples variables categóricas (y no hubo término de interacción), la intercepción ( ) es la media del grupo que constituye el nivel de referencia para ambas (todas) variables categóricas. Usando su escenario de ejemplo, considere el caso donde no hay interacción, entonces las versiones beta son: kβ 0β^0 0

  • β^0 0 : la media de los machos blancos
  • β^Fmimetrounlmi : la diferencia entre la media de las mujeres y la media de los hombres
  • β^silunCk: ladiferenciaentre la media de los negros y la media de los blancos

También podemos pensar en esto en términos de cómo calcular los diversos medios grupales:

x¯White Males=β^0x¯White Females=β^0 0+β^FmimetrounlmiX¯silunCk METROunlmis=β^0 0+β^silunCkX¯silunCk Fmimetrounlmis=β^0 0+β^Fmimetrounlmi+β^silunCk

Si tuviera un término de interacción, se agregaría al final de la ecuación para las mujeres negras. (La interpretación de dicho término de interacción es bastante complicada, pero la analizo aquí: interpretación del término de interacción ).


Actualización : para aclarar mis puntos, consideremos un ejemplo enlatado, codificado R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

ingrese la descripción de la imagen aquí

Los medios de yestas variables categóricas son:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Podemos comparar las diferencias entre estos medios con los coeficientes de un modelo ajustado:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

Lo que hay que reconocer sobre esta situación es que, sin un término de interacción, estamos asumiendo líneas paralelas. Por lo tanto, Estimatepara el (Intercept)es la media de los machos blancos. El Estimatepara SexFemalees la diferencia entre la media de las mujeres y la media de los hombres. El Estimatepara RaceBlackes la diferencia entre la media de los negros y la media de los blancos. Nuevamente, debido a que un modelo sin un término de interacción supone que los efectos son estrictamente aditivos (las líneas son estrictamente paralelas), la media de las mujeres negras es entonces la media de los hombres blancos más la diferencia entre la media de las mujeres y la media de los hombres más La diferencia entre la media de los negros y la media de los blancos.

gung - Restablece a Monica
fuente
¡Gracias! Muy claro y útil. Al final mencionas los términos de interacción. Si uno hace un término de interacción, ¿cómo altera esto las betas (es decir, las nuevas betas del modelo de término de interacción)? Sé que el valor p para el término de interacción es importante, pero ¿el término de interacción beta tiene una interpretación significativa? ¡Gracias de nuevo por tu ayuda!
Renee
1
β^FmimetrounlmiX¯Whyotmi METROunlmiX¯Whyotmi Fmimetrounlmi
Tiene sentido. ¡Gracias! ¿Se altera el modelo sin término de interacción debido a que el término de interacción mejora el efecto principal? Es decir, si no hay interacción, ¿el término del efecto principal sería teóricamente el mismo?
Renee
Si el efecto de interacción fuera exactamente 0 (hasta infinitos decimales), no solo en la población, sino también en su muestra, las betas de efecto principal serían las mismas en un modelo sin el término de interacción.
gung - Restablece a Monica
1
@ hans0l0, eso sería mejor como una nueva pregunta en lugar de información enterrada aquí en los comentarios; podría vincular a esto para el contexto. Brevemente, es la media de los niveles de referencia cuando todas las variables continuas son = 0.
gung - Restablece a Monica
6

β^0 0β^

Si ampliamos un poco su ejemplo para incluir un tercer nivel en la categoría de raza (digamos asiático ) y elegimos Blanco como referencia, entonces tendría:

  • β^0 0=X¯Whyotmi
  • β^silunCk=X¯silunCk-X¯Whyotmi
  • β^UNsyounnorte=X¯UNsyounnorte-X¯Whyotmi

β^

  • X¯UNsyounnorte=β^UNsyounnorte+β^0 0

Desafortunadamente, en el caso de múltiples variables categóricas, la interpretación correcta para la intercepción ya no es tan clara (ver nota al final). Cuando hay n categorías, cada una con múltiples niveles y un nivel de referencia (por ejemplo, Blanco y Masculino en su ejemplo), la forma general para la intersección es:

β^0 0=yo=1norteX¯rmiFmirminorteCmi,yo-(norte-1)X¯,
X¯rmiFmirminorteCmi,yo es la media del nivel de referencia de la i-ésima variable categórica,
X¯ es la media de todo el conjunto de datos

β^

Si volvemos a su ejemplo, obtendríamos:

  • β^0 0=X¯Whyotmi+X¯METROunlmi-X¯
  • β^silunCk=X¯silunCk-X¯Whyotmi
  • β^UNsyounnorte=X¯UNsyounnorte-X¯Whyotmi
  • β^Fmimetrounlmi=X¯Fmimetrounlmi-X¯METROunlmi

β^

β^β^0 0, β^silunCk, β^UNsyounnorteβ^Fmimetrounlmi

Ejemplo numérico

Déjame pedir prestado a @Gung para un ejemplo numérico enlatado:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

Podemos comparar estos números con los resultados de la regresión:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

β^β^0 0

β^0 0=X¯Whyotmi+X¯METROunlmi-X¯
1.5 + 5.333333 - 6.166667
# 0.66666

Nota sobre la elección del contraste

β^

β^Conortetr.stumetroβ^Conortetr.stumetro

  • β^0 0Conortetr.stumetro=X¯
  • β^yoConortetr.stumetro=X¯yo-X¯

Si volvemos al ejemplo anterior, tendría:

  • β^0 0Conortetr.stumetro=X¯
  • β^WhyotmiConortetr.stumetro=X¯Whyotmi-X¯
  • β^silunCkConortetr.stumetro=X¯silunCk-X¯
  • β^UNsyounnorteConortetr.stumetro=X¯UNsyounnorte-X¯
  • β^METROunlmiConortetr.stumetro=X¯METROunlmi-X¯
  • β^FmimetrounlmiConortetr.stumetro=X¯Fmimetrounlmi-X¯

β^Conortetr.stumetro

GL
fuente