Reemplazo de variables por WoE (peso de la evidencia) en regresión logística

14

Esta es una pregunta sobre una práctica o método seguido por algunos de mis colegas. Al hacer un modelo de regresión logística, he visto a personas reemplazar las variables categóricas (o variables continuas que están agrupadas) con su respectivo peso de evidencia (WoE). Se supone que esto se hace para establecer una relación monotónica entre el regresor y la variable dependiente. Ahora, por lo que entiendo, una vez que se hace el modelo, las variables en la ecuación NO son las variables en el conjunto de datos. ¡Más bien, las variables en la ecuación ahora son un poco la importancia o el peso de las variables en la segregación de la variable dependiente !

Mi pregunta es: ¿cómo interpretamos ahora el modelo o los coeficientes del modelo? Por ejemplo, para la siguiente ecuación:

log(p1p)=β0+β1x1

podemos decir que es el aumento relativo en la proporción de impares para el aumento de 1 unidad en la variable .x 1exp(β1) x1

Pero si la variable se reemplaza por su WoE, entonces la interpretación se cambiará a: aumento relativo en la proporción de impares para un aumento de 1 unidad en la IMPORTANCIA / PESO de la variable

He visto esta práctica en internet, pero en ninguna parte encontré la respuesta a esta pregunta. Este enlace de esta comunidad está relacionado con una consulta algo similar en la que alguien escribió:

WoE muestra una relación lineal con el logaritmo natural de la razón de posibilidades, que es la variable dependiente en la regresión logística. Por lo tanto, la cuestión de la especificación errónea del modelo no surge en la regresión logística cuando usamos WoE en lugar de los valores reales de la variable.

Pero aún no entiendo la explicación. Por favor, ayúdame a entender lo que me falta.

SamRoy
fuente
x 1 x 1exp(β1) es la razón de probabilidades asociada con un aumento de 1 unidad en , no " el aumento relativo en la razón de probabilidades asociada con un aumento de 1 unidad en ". x1x1
gung - Restablece a Monica
No Claramente, para deshacerse de debe tomar la proporción del LHS después de la exponenciaciónβ0
SamRoy
Las probabilidades son p / (1-p), por lo que si p (x) = exp (𝛽0 + 𝛽1x) y p (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1) tenga en cuenta que p (x + 1) = exp (𝛽0 + 𝛽1x) exp (𝛽1) y finalmente la razón de posibilidades p (x + 1) / p (x) = exp (𝛽1) según lo establecido por stats.stackexchange.com/users/7290/gung
hwrd

Respuestas:

12

El método WoE consta de dos pasos:

1 - para dividir (una variable continua) en pocas categorías o para agrupar (una discreta) variable en pocas categorías (y en ambos casos asume que todas las observaciones en una categoría tienen el "mismo" efecto sobre la variable dependiente)
2 - para calcular WoE valor para cada categoría (luego los valores originales de x se reemplazan por los valores de WoE)

La transformación de WoE tiene (al menos) tres efectos positivos:
1) Puede transformar una variable independiente para que establezca una relación monotónica con la variable dependiente. En realidad, hace más que esto: para asegurar una relación monotónica sería suficiente "recodificarla" a cualquier medida ordenada (por ejemplo, 1,2,3,4 ...), pero la transformación de WoE realmente ordena las categorías en una "logística" "escala que es natural para la regresión logística
2) Para las variables con demasiados valores discretos (escasamente poblados), estos se pueden agrupar en categorías (densamente pobladas) y el WoE se puede utilizar para expresar información para toda la categoría
3) El efecto (univariante) de cada categoría en la variable dependiente se puede comparar simplemente entre categorías y entre variables porque WoE es un valor estandarizado (por ejemplo, puede comparar el Ay de las personas casadas con el Ay de los trabajadores manuales)

También tiene (al menos) tres inconvenientes:
1) Pérdida de información (variación) debido al binning a pocas categorías
2) Es una medida "univariada" por lo que no tiene en cuenta la correlación entre variables independientes
3) Es fácil de manipular (sobreajustar) el efecto de las variables según cómo se crean las categorías

Convencionalmente, las versiones beta de la regresión (donde la x ha sido reemplazada por WoE) no se interpretan per se pero se multiplican con WoE para obtener un "puntaje" (por ejemplo, beta para "estado civil" variable se puede multiplicar por WoE de grupo de "personas casadas" para ver la puntuación de las personas casadas; la beta para "ocupación" variable se puede multiplicar por WoE de "trabajadores manuales" para ver la puntuación de los trabajadores manuales. Entonces, si está interesado en la puntuación de los trabajadores manuales casados, resumir estos dos puntajes y ver cuánto es el efecto en el resultado). Cuanto más alto es el puntaje, mayor es la probabilidad de un resultado igual a 1.

El caballo del rey Salomón
fuente
1
(+1) ¿Por qué es una ventaja recodificar un predictor para tener una relación monotónica con la respuesta?
Scortchi - Restablece a Monica
1
@Scortchi Puedo pensar en un ejemplo: la variable independiente es la altura de las personas (medida en cm), las personas van a comprar ropa bonita, la variable dependiente sería un evento binario, ya sea que puedan o no comprar ropa adecuada y cómoda. aparentemente las personas muy pequeñas y muy altas tendrán dificultades para comprar ropa adecuada, mientras que las personas en el medio podrían hacerlo fácilmente. Con una regresión simple (sin interacciones y sin transformaciones), solo podría modelar que la probabilidad de comprar ropa adecuada aumenta o disminuye con la altura de las personas
el Caballo del Rey Salomón el
1
Por lo general, las personas no usan transformaciones no monótonas de predictores, de todos modos, no en el modelado empírico. La inclusión de interacciones puede eliminar o introducir relaciones condicionales no monotónicas, al igual que la inclusión de otros predictores. Pero representar un predictor con una función de base polinómica o spline es una forma directa de permitirlos; y otro lo agrupa y, por lo tanto, lo trata como categórico, utilizando, por ejemplo, codificación de nivel de referencia. El último, al menos, es considerablemente más simple que esta transformación de WoE; ninguno comparte el detrimento de ...
Scortchi - Restablece a Monica
1
... inferencia e interpretabilidad que surgen de la definición de un predictor en términos de la respuesta; & todos permiten modelar una relación condicional no monotónica incluso cuando la relación marginal es monotónica (o viceversa). Supongo que a lo que me refiero es que la transformación de WoE me parece una solución en busca de un problema. ¿Hay una clase de situaciones en las que produce mejores predicciones que los métodos más utilizados? - aunque esa es una pregunta diferente a la que ha respondido aquí (quizás stats.stackexchange.com/q/166816/17230 ).
Scortchi - Restablece a Monica
¿Qué pasa si ya tienes datos categóricos? entonces, ¿es la única ventaja "establecer una relación monotónica"? Parece que el componente crítico de WoE está, de hecho, en el proceso de agrupación
información
7

Lo racional para usar WOE en la regresión logística es generar lo que a veces se llama Clasificador Bayesiano Semi-Naive (SNBC). El comienzo de esta publicación de blog explica las cosas bastante bien: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Los parámetros beta en el modelo son el sesgo lineal de cada efecto ingenuo (también conocido como peso de la evidencia) debido a la presencia de otros predictores y pueden interpretarse como el cambio lineal en las probabilidades logarítmicas de los predictores particulares debido a la presencia de otros predictores

Stephened
fuente
1

Weight of Evidence (WoE) es una técnica poderosa para realizar una transformación y selección variables. Es ampliamente utilizado en la calificación crediticia para medir la separación de clientes buenos versus malos (variables). Ventajas :: - Maneja valores perdidos Maneja valores atípicos la transformación se basa en el valor logrítmico de distribución. Sin necesidad de variables ficticias mediante el uso de la técnica de agrupamiento adecuada, puede establecer una relación monotónica entre independientes y dependientes.

mono_bin () = usado para variables numéricas. char_bin () = usado para variables de caracteres.

Krishna75
fuente