Suponga que se usa un modelo de regresión logística para predecir si un comprador en línea comprará un producto (resultado: compra), después de hacer clic en un conjunto de anuncios en línea (predictores: Ad1, Ad2 y Ad3).
El resultado es una variable binaria: 1 (comprado) o 0 (no comprado). Los predictores también son variables binarias: 1 (clic) o 0 (no clic). Entonces todas las variables están en la misma escala.
Si los coeficientes resultantes de Ad1, Ad2 y Ad3 son 0.1, 0.2 y 03, podemos concluir que Ad3 es más importante que Ad2, y Ad2 es más importante que Ad1. Además, dado que todas las variables están en la misma escala, los coeficientes estandarizados y no estandarizados deberían ser los mismos, y podemos concluir que Ad2 es dos veces importante que Ad1 en términos de su influencia en el nivel logit (log-odds).
Pero en la práctica nos importa más cómo comparar e interpretar la importancia relativa de las variables en términos del nivel p (probabilidad de compra), no el logit (log-odds).
Por lo tanto, la pregunta es: ¿Existe algún enfoque para cuantificar la importancia relativa de estas variables en términos de p?
fuente
Respuestas:
Para los modelos lineales, puede usar el valor absoluto de las estadísticas t para cada parámetro del modelo.
Además, puede usar algo como un forrest aleatorio y obtener una lista muy buena de las características importantes.
Si está utilizando R, consulte ( http://caret.r-forge.r-project.org/varimp.html ), si está utilizando Python, consulte ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )
EDITAR:
Como logit no tiene una forma directa de hacerlo, puede usar una curva ROC para cada predictor.
Un ejemplo de cómo funciona esto en R es:
fuente
Como solicitaba específicamente una interpretación en la escala de probabilidad: en una regresión logística, la probabilidad estimada de éxito viene dada por
Una persona que hizo clic solo en el anuncio 3:
Sin embargo, si la persona hizo clic en el anuncio 1 o el anuncio 3 pero también en el anuncio 2 (si este es un escenario de plasubilo), las probabilidades se vuelven
En este caso, el cambio en la probabilidad es de 0.05, pero generalmente este cambio no es el mismo para diferentes combinaciones de niveles. (Puede ver esto fácilmente si, por ejemplo, utiliza el mismo enfoque que el anterior pero con coeficientes 0.1, 1.5, 0.3.) Por lo tanto, la importancia de una variable en la escala de probabilidad depende de los niveles observados de las otras variables. Esto puede dificultar (¿imposible?) Llegar a una medida de importancia variable cuantitativa absoluta en la escala de probabilidad.
fuente