Interpretación de coeficientes de regresión basados en el método de reescalado de Andrew Gelman

Tengo dos predictores en un modelo de regresión logística binaria: uno binario y otro continuo. Mi objetivo principal es comparar los coeficientes de los dos predictores dentro del mismo modelo.

Me he encontrado con la sugerencia de Andrew Gelman de estandarizar las variables de entrada de regresión continua:

I) Propuesta original (2008): dividir el predictor continuo por 2 SD

Original manuscript: 
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf

II) Recomendación actualizada (2009): divida el predictor continuo por 1 SD Y vuelva a codificar los valores de entrada binarios de (0,1) a (-1, + 1)).

Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/

La interpretación adecuada de los coeficientes resultantes todavía es difícil de entender para mí:

ESCENARIO 1: AMBOS PREDICTORES SON SIGNIFICATIVOS EN EL MISMO MODELO

Resultado: binario no transformado Y Predictor continuo: XCONT (dividido por 1sd) Predictor binario: XBIN (recodificado para tomar valores -1 o 1)

  > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, 
   family=binomial(link="logit")))
  > summary(orfit1c)

   Call:
   glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))

   Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
       -0.9842  -0.6001  -0.5481  -0.5481   1.9849  

       Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
        (Intercept)  -1.8197     0.1761 -10.331  < 2e-16 ***
        XCONT         0.3175     0.1190   2.667  0.00765 ** 
        XBIN          1.0845     0.3564   3.043  0.00234 ** 
        ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

       (Dispersion parameter for binomial family taken to be 1)

       Null deviance: 398.99  on 409  degrees of freedom
       Residual deviance: 385.88  on 407  degrees of freedom
       AIC: 391.88

ESCENARIO 2: NI SIGNIFICATIVO EN EL MISMO MODELO (PERO cuando se ingresan por separado en dos modelos diferentes, sus coeficientes son significativos)

       Call:
      glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link = 
       "logit"))

               Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
          -1.0090  -0.6265  -0.5795  -0.5795   1.9573  

            Coefficients:
                   Estimate Std. Error z value Pr(>|z|)    
       (Intercept)  -1.7562     0.1835  -9.570   <2e-16 ***
       XCONT2         0.2182     0.1318   1.656   0.0977 .  
       XBIN2        0.6063     0.3918   1.547   0.1218    
                         ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

          (Dispersion parameter for binomial family taken to be 1)

          Null deviance: 398.99  on 409  degrees of freedom
          Residual deviance: 390.01  on 407  degrees of freedom
          AIC: 396.01

Pregunta: Para el método de escala original, se explicó que "un cambio de una unidad en un predictor continuo cubre dos desviaciones estándar de ese predictor"

Para el método de escala actualizado, ¿estoy correcto en mi interpretación del escenario # 1 que:

(1) un cambio de una unidad en el predictor continuo cubre 1 desviación estándar del XCONT

(2) y este cambio en 1 SD en XCONT es equivalente a un cambio de 1 unidad (es decir, ausencia o presencia) del predictor binario (XBIN).

(3) en consecuencia, 1 cambio SD en XBIN predice un aumento de 1 unidad en YBIN mientras que un aumento de 1/3 unidad en YCONT predice un aumento de 1 unidad en YBIN?

PREGUNTAS

¿La interpretación descrita en 1-3 necesita alguna corrección? Como la variable de resultado binario no se volvió a codificar, ¿puedo decir que un cambio de 1 unidad en X predice un cambio de 1 unidad en el resultado binario (0 o 1)?
¿Qué más se podría decir sobre los resultados, específicamente cuando intento comparar los dos coeficientes para los predictores continuo y binario?

regression logistic regression-coefficients standardization scales ksroogl
fuente

(1) está un tanto incómodo, y no estoy seguro exactamente a qué te refieres. Interpretaría la estimación del parámetro XCONT como:

Las observaciones de una desviación estándar por encima de la media de XCONT tienen YBIN ~ 32 por ciento más a menudo.

Cuando interprete la estimación del parámetro XBIN, tenga en cuenta que está interpretando al promedio de XCONT.

Richard McElreath trabaja a través de un ejemplo de este cambio de escala en Replanteamiento estadístico.

atmo
fuente

Esta respuesta no tiene sentido.

Michael R. Chernick

@MichaelChernick agradecería sus pensamientos sobre la pregunta original

ksroogl

No estoy familiarizado con la lógica de Gelman. No entiendo por qué cambia el valor binario 0 a -1.

Michael R. Chernick

@MichaelChernick Creo que es para que los niveles binarios reescalados puedan ser simétricos alrededor de 0.

shadowtalker

Eso ciertamente podría funcionar. ¿Por qué es buena la simetría alrededor de 0?

Michael R. Chernick

Interpretación de coeficientes de regresión basados ​​en el método de reescalado de Andrew Gelman

Respuestas:

Interpretación de coeficientes de regresión basados en el método de reescalado de Andrew Gelman