Esta es una pregunta sobre una práctica o método seguido por algunos de mis colegas. Al hacer un modelo de regresión logística, he visto a personas reemplazar las variables categóricas (o variables continuas que están agrupadas) con su respectivo peso de evidencia (WoE). Se supone que esto se hace para establecer una relación monotónica entre el regresor y la variable dependiente. Ahora, por lo que entiendo, una vez que se hace el modelo, las variables en la ecuación NO son las variables en el conjunto de datos. ¡Más bien, las variables en la ecuación ahora son un poco la importancia o el peso de las variables en la segregación de la variable dependiente !
Mi pregunta es: ¿cómo interpretamos ahora el modelo o los coeficientes del modelo? Por ejemplo, para la siguiente ecuación:
podemos decir que es el aumento relativo en la proporción de impares para el aumento de 1 unidad en la variable .x 1
Pero si la variable se reemplaza por su WoE, entonces la interpretación se cambiará a: aumento relativo en la proporción de impares para un aumento de 1 unidad en la IMPORTANCIA / PESO de la variable
He visto esta práctica en internet, pero en ninguna parte encontré la respuesta a esta pregunta. Este enlace de esta comunidad está relacionado con una consulta algo similar en la que alguien escribió:
WoE muestra una relación lineal con el logaritmo natural de la razón de posibilidades, que es la variable dependiente en la regresión logística. Por lo tanto, la cuestión de la especificación errónea del modelo no surge en la regresión logística cuando usamos WoE en lugar de los valores reales de la variable.
Pero aún no entiendo la explicación. Por favor, ayúdame a entender lo que me falta.
Respuestas:
El método WoE consta de dos pasos:
1 - para dividir (una variable continua) en pocas categorías o para agrupar (una discreta) variable en pocas categorías (y en ambos casos asume que todas las observaciones en una categoría tienen el "mismo" efecto sobre la variable dependiente)
2 - para calcular WoE valor para cada categoría (luego los valores originales de x se reemplazan por los valores de WoE)
La transformación de WoE tiene (al menos) tres efectos positivos:
1) Puede transformar una variable independiente para que establezca una relación monotónica con la variable dependiente. En realidad, hace más que esto: para asegurar una relación monotónica sería suficiente "recodificarla" a cualquier medida ordenada (por ejemplo, 1,2,3,4 ...), pero la transformación de WoE realmente ordena las categorías en una "logística" "escala que es natural para la regresión logística
2) Para las variables con demasiados valores discretos (escasamente poblados), estos se pueden agrupar en categorías (densamente pobladas) y el WoE se puede utilizar para expresar información para toda la categoría
3) El efecto (univariante) de cada categoría en la variable dependiente se puede comparar simplemente entre categorías y entre variables porque WoE es un valor estandarizado (por ejemplo, puede comparar el Ay de las personas casadas con el Ay de los trabajadores manuales)
También tiene (al menos) tres inconvenientes:
1) Pérdida de información (variación) debido al binning a pocas categorías
2) Es una medida "univariada" por lo que no tiene en cuenta la correlación entre variables independientes
3) Es fácil de manipular (sobreajustar) el efecto de las variables según cómo se crean las categorías
Convencionalmente, las versiones beta de la regresión (donde la x ha sido reemplazada por WoE) no se interpretan per se pero se multiplican con WoE para obtener un "puntaje" (por ejemplo, beta para "estado civil" variable se puede multiplicar por WoE de grupo de "personas casadas" para ver la puntuación de las personas casadas; la beta para "ocupación" variable se puede multiplicar por WoE de "trabajadores manuales" para ver la puntuación de los trabajadores manuales. Entonces, si está interesado en la puntuación de los trabajadores manuales casados, resumir estos dos puntajes y ver cuánto es el efecto en el resultado). Cuanto más alto es el puntaje, mayor es la probabilidad de un resultado igual a 1.
fuente
Lo racional para usar WOE en la regresión logística es generar lo que a veces se llama Clasificador Bayesiano Semi-Naive (SNBC). El comienzo de esta publicación de blog explica las cosas bastante bien: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Los parámetros beta en el modelo son el sesgo lineal de cada efecto ingenuo (también conocido como peso de la evidencia) debido a la presencia de otros predictores y pueden interpretarse como el cambio lineal en las probabilidades logarítmicas de los predictores particulares debido a la presencia de otros predictores
fuente
Weight of Evidence (WoE) es una técnica poderosa para realizar una transformación y selección variables. Es ampliamente utilizado en la calificación crediticia para medir la separación de clientes buenos versus malos (variables). Ventajas :: - Maneja valores perdidos Maneja valores atípicos la transformación se basa en el valor logrítmico de distribución. Sin necesidad de variables ficticias mediante el uso de la técnica de agrupamiento adecuada, puede establecer una relación monotónica entre independientes y dependientes.
mono_bin () = usado para variables numéricas. char_bin () = usado para variables de caracteres.
fuente