¿Cómo cuantificar la importancia de la variable relativa en la regresión logística en términos de p?

Suponga que se usa un modelo de regresión logística para predecir si un comprador en línea comprará un producto (resultado: compra), después de hacer clic en un conjunto de anuncios en línea (predictores: Ad1, Ad2 y Ad3).

El resultado es una variable binaria: 1 (comprado) o 0 (no comprado). Los predictores también son variables binarias: 1 (clic) o 0 (no clic). Entonces todas las variables están en la misma escala.

Si los coeficientes resultantes de Ad1, Ad2 y Ad3 son 0.1, 0.2 y 03, podemos concluir que Ad3 es más importante que Ad2, y Ad2 es más importante que Ad1. Además, dado que todas las variables están en la misma escala, los coeficientes estandarizados y no estandarizados deberían ser los mismos, y podemos concluir que Ad2 es dos veces importante que Ad1 en términos de su influencia en el nivel logit (log-odds).

Pero en la práctica nos importa más cómo comparar e interpretar la importancia relativa de las variables en términos del nivel p (probabilidad de compra), no el logit (log-odds).

Por lo tanto, la pregunta es: ¿Existe algún enfoque para cuantificar la importancia relativa de estas variables en términos de p?

logistic importance xyhzc
fuente

Encontré este artículo útil. Describe bien seis métodos diferentes que pueden usarse para definir la importancia del predictor a partir de un modelo de regresión logística junto con los accesorios y contras asociados con cada método.

gchaks

Respuestas:

Para los modelos lineales, puede usar el valor absoluto de las estadísticas t para cada parámetro del modelo.

Además, puede usar algo como un forrest aleatorio y obtener una lista muy buena de las características importantes.

Si está utilizando R, consulte ( http://caret.r-forge.r-project.org/varimp.html ), si está utilizando Python, consulte ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )

EDITAR:

Como logit no tiene una forma directa de hacerlo, puede usar una curva ROC para cada predictor.

Para la clasificación, el análisis de la curva ROC se realiza en cada predictor. Para dos problemas de clase, se aplica una serie de puntos de corte a los datos del predictor para predecir la clase. La sensibilidad y especificidad se calculan para cada corte y se calcula la curva ROC. La regla trapezoidal se usa para calcular el área bajo la curva ROC. Esta área se utiliza como medida de importancia variable.

Un ejemplo de cómo funciona esto en R es:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)

mike1886
fuente

¡Gracias por su respuesta! sí, es fácil para el modelo lineal y el bosque aleatorio, ¿tiene alguna idea de cómo hacerlo en el caso de Regresión logística? ¡Muchas gracias!

xyhzc

Ver edición arriba.

mike1886

Parece que la pregunta sobre las comparaciones de nivel de relación aún no ha sido respondida. Incluso si sabemos que AUC es, digamos, .6 usando solo x1 y .9 usando solo x2, difícilmente podemos decir que la importancia de x2 es por lo tanto 50% mayor. Creo que tampoco es (1 - 10% / 40%) = 75% mayor. Tampoco podemos hacer algo análogo usando solo la sensibilidad o la especificidad. También tengo dudas sobre la aplicabilidad de la estadística de Wald aquí. Lo más útil podría ser explicaciones de coeficientes estandarizados (ver el libro en línea de Scott Menard).

rolando2

Gracias rolando2! Las variables en esta pregunta son todas medidas en las mismas métricas, por lo que los coeficientes estandarizados y no estandarizados deben ser los mismos. Además, aunque podemos usar los coeficientes estandarizados para comparar las variables en el nivel logit (log-odds), ¿cómo podemos interpretar las variables en P (la probabilidad de compra de los compradores en línea en este caso)? ¡muchas gracias!

xyhzc

No veo que responda la pregunta.

HelloWorld

Como solicitaba específicamente una interpretación en la escala de probabilidad: en una regresión logística, la probabilidad estimada de éxito viene dada por

$\hat{\pi}(\mathbf{x})=\frac{exp(\beta_0+ \mathbf{\beta x})}{1+exp(\beta_0+ \mathbf{\beta x})}$

$\beta_0$ $\mathbf{\beta}$ $\mathbf{x}$

$\frac{exp(0.1)}{1+exp(0.1)}=0.52$

Una persona que hizo clic solo en el anuncio 3:

$\frac{exp(0.3)}{1+exp(0.3)}=0.57$

Sin embargo, si la persona hizo clic en el anuncio 1 o el anuncio 3 pero también en el anuncio 2 (si este es un escenario de plasubilo), las probabilidades se vuelven

$\frac{exp(0.1+0.2)}{1+exp(0.1+0.2)}=0.57$

$\frac{exp(0.3+0.2)}{1+exp(0.3+0.2)}=0.62$

En este caso, el cambio en la probabilidad es de 0.05, pero generalmente este cambio no es el mismo para diferentes combinaciones de niveles. (Puede ver esto fácilmente si, por ejemplo, utiliza el mismo enfoque que el anterior pero con coeficientes 0.1, 1.5, 0.3.) Por lo tanto, la importancia de una variable en la escala de probabilidad depende de los niveles observados de las otras variables. Esto puede dificultar (¿imposible?) Llegar a una medida de importancia variable cuantitativa absoluta en la escala de probabilidad.

Matt.135
fuente

¡Gracias por tu explicación! Entonces, ¿sabes si hay algún método indirecto para cuantificar la importancia relativa de los predictores? mike1886 mencionó el "análisis de curva ROC" en su respuesta, pero tiene algunos problemas mencionados por rolando2. ¡Muchas gracias!

xyhzc