Clasificación de variables categóricas en regresión logística

8

Estoy investigando con regresión logística. 10 variables influyen en la variable dependiente. Uno de los mencionados es categórico (por ejemplo, entrega urgente, entrega estándar, etc.). Ahora quiero clasificar esas categorías en función de la "fuerza" de su efecto en la variable dependiente.

Todos son significativos (valor p pequeño), pero creo que no puedo usar el valor de las probabilidades para fines de clasificación. De alguna manera necesito averiguar si cada categoría también es significativamente diferente de las otras categorías. ¿Es esto correcto?

Leí sobre la posibilidad de centrar la variable. ¿Es esto realmente una opción? No quiero que el resto de mi modelo se vea afectado.

Salida de Stata para apoyar mi comentario en la publicación de @ subra:

Average marginal effects                          Number of obs   =     124773
Model VCE    : OIM

Expression   : Pr(return), predict()
dy/dx w.r.t. : ExpDel

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel |   .1054605   .0147972     7.36   0.000     .0798584    .1378626
------------------------------------------------------------------------------

regression logistic categorical-data effect-size ranking Lukas
fuente

1

Como está interesado en clasificar las categorías, es posible que desee volver a codificar las variables categóricas en una serie de variables binarias separadas.

Ejemplo: Cree una variable binaria para entrega urgente, que tomaría el valor 1 para casos de entrega urgente y 0 en caso contrario. Del mismo modo, una variable binaria para entrega estándar.

Para cada una de estas variables binarias recodificadas, puede calcular los efectos marginales como se indica a continuación:

$Marginal\:Effects=\:Prob\:[Y=1|\bar{X},\:d=1]\:-\:Prob\:[Y=1|\bar{X},\:d=0]$

Permítanme explicar un poco sobre la ecuación anterior: digamos que d es la variable binaria codificada para entrega urgente

$Prob\:[Y=1|\bar{X},\:d=1]$ es la probabilidad de evento evaluada en la media cuando d = 1

$Prob[Y=1|\bar{X},\:d=0]$ es la probabilidad de evento evaluada en la media cuando d = 0

Una vez que calcule los efectos marginales para todas las categorías (variables binarias codificadas) puede clasificarlas.

subra
fuente

Muchas gracias por tu publicación, subra. Traté de seguir sus instrucciones y logré el comando ". Margins, dydx (ExpDel)" en el estado. Encuentra el resultado en mi publicación original. ¿Necesito ejecutar este comando sobre todas mis variables categóricas (y ahora binarias) que me gustaría clasificar y luego solo necesito comparar el valor dy / dx? Cuanto mayor es la mayor influencia en mi variable dependiente? ¡Muchas gracias!

Lukas

@ Lukas: Sí, tienes razón. En Stata, para datos discretos, los 'márgenes' en realidad calculan el efecto de un cambio discreto de la covariable. Por lo tanto, solo tiene que comparar dy / dx (de los márgenes) para todas las categorías (ahora binarias). Cuanto mayor sea el valor, mayor será la influencia.

subra

@ subra: Gracias por aclarar. El procedimiento mencionado anteriormente lleva a la misma clasificación como si simplemente clasificara los coeficientes logit respectivos. Todavía no estoy seguro de por qué puedo referirme a los efectos marginales para fines de clasificación y no a los coeficientes logit. ¿Tiene una fuente que pueda recomendar para lecturas adicionales? Además, no estoy seguro de por qué debería usar el comando stata mencionado anteriormente y no agregar, por ejemplo, "medios" para usar los medios de las otras variables con fines de comparación. Muchas gracias.

Lukas

@ Lucas: Sí, eres un rito. Si solo desea clasificar los predictores, entonces los coeficientes logit deberían ser suficientes. No estoy claro con su segunda parte de la pregunta. Si se pregunta por qué tenemos que evaluar los efectos marginales, consulte la siguiente publicación: stats.stackexchange.com/questions/167811/…

subra

-2

Puede ajustar el modelo de regresión logística utilizando solo 1 variable a la vez y examinar el R2 ajustado.

El que explica la mayor parte de la variación debería tener más impacto en el modelo ...

Solo estoy adivinando, no estoy seguro de que sea una solución rigurosa ...

gabboshow
fuente

44

No, eso solo proporcionaría medidas de asociación marginal.

Frank Harrell

-2

Esta es una pregunta común con una multitud de respuestas. Lo más simple es usar características estandarizadas; El valor absoluto de los coeficientes que regresan se puede interpretar libremente como 'más alto' = 'más influencia' en el registro (probabilidades). En su mayor parte, el uso de puntajes estándar no debería afectar sus resultados generales (la curva ROC debería ser la misma; la matriz de confusión debería ser la misma suponiendo que elija un umbral de decisión comparable). Usualmente calculo la regresión en ambos sentidos; una vez usando puntajes brutos (para obtener la ecuación de predicción que usaré) y una segunda vez usando puntajes estandarizados para ver cuáles son los más grandes.

En cuanto a los predictores categóricos, supongo (pero no he verificado) que lo mismo es cierto cuando se usan predictores normalizados.

Si aún no lo ha hecho, también debería considerar usar la regularización: Lazo / cresta / red elástica. Esto ayudará a que las funciones débiles, irrelevantes o redundantes se abandonen, dejándote con un modelo más parsimonioso.

HEITZ
fuente

Clasificación de variables categóricas en regresión logística

Respuestas: