Tengo dos predictores en un modelo de regresión logística binaria: uno binario y otro continuo. Mi objetivo principal es comparar los coeficientes de los dos predictores dentro del mismo modelo.
Me he encontrado con la sugerencia de Andrew Gelman de estandarizar las variables de entrada de regresión continua:
I) Propuesta original (2008): dividir el predictor continuo por 2 SD
Original manuscript:
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf
II) Recomendación actualizada (2009): divida el predictor continuo por 1 SD Y vuelva a codificar los valores de entrada binarios de (0,1) a (-1, + 1)).
Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/
La interpretación adecuada de los coeficientes resultantes todavía es difícil de entender para mí:
ESCENARIO 1: AMBOS PREDICTORES SON SIGNIFICATIVOS EN EL MISMO MODELO
Resultado: binario no transformado Y Predictor continuo: XCONT (dividido por 1sd) Predictor binario: XBIN (recodificado para tomar valores -1 o 1)
> orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN,
family=binomial(link="logit")))
> summary(orfit1c)
Call:
glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.9842 -0.6001 -0.5481 -0.5481 1.9849
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.8197 0.1761 -10.331 < 2e-16 ***
XCONT 0.3175 0.1190 2.667 0.00765 **
XBIN 1.0845 0.3564 3.043 0.00234 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 385.88 on 407 degrees of freedom
AIC: 391.88
ESCENARIO 2: NI SIGNIFICATIVO EN EL MISMO MODELO (PERO cuando se ingresan por separado en dos modelos diferentes, sus coeficientes son significativos)
Call:
glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link =
"logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0090 -0.6265 -0.5795 -0.5795 1.9573
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.7562 0.1835 -9.570 <2e-16 ***
XCONT2 0.2182 0.1318 1.656 0.0977 .
XBIN2 0.6063 0.3918 1.547 0.1218
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 390.01 on 407 degrees of freedom
AIC: 396.01
Pregunta: Para el método de escala original, se explicó que "un cambio de una unidad en un predictor continuo cubre dos desviaciones estándar de ese predictor"
Para el método de escala actualizado, ¿estoy correcto en mi interpretación del escenario # 1 que:
(1) un cambio de una unidad en el predictor continuo cubre 1 desviación estándar del XCONT
(2) y este cambio en 1 SD en XCONT es equivalente a un cambio de 1 unidad (es decir, ausencia o presencia) del predictor binario (XBIN).
(3) en consecuencia, 1 cambio SD en XBIN predice un aumento de 1 unidad en YBIN mientras que un aumento de 1/3 unidad en YCONT predice un aumento de 1 unidad en YBIN?
PREGUNTAS
¿La interpretación descrita en 1-3 necesita alguna corrección? Como la variable de resultado binario no se volvió a codificar, ¿puedo decir que un cambio de 1 unidad en X predice un cambio de 1 unidad en el resultado binario (0 o 1)?
¿Qué más se podría decir sobre los resultados, específicamente cuando intento comparar los dos coeficientes para los predictores continuo y binario?