¿Cuándo es útil la transformación del peso de la evidencia (WOE) de variables categóricas?
El ejemplo se puede ver en la transformación de WOE
(Así que para una respuesta , y un predictor categórico con categorías, y éxitos de ensayos dentro de la ésimo categoría de este predictor, el AY para el ésimo categoría se define comok y j n j j j
& la transformación consiste en codificar cada categoría del predictor categórico con su WOE para formar un nuevo predictor continuo).
Me gustaría saber la razón por la cual la transformación WOE ayuda a la regresión logística. ¿Cuál es la teoría detrás de esto?
La clasificación aproximada utilizando la medida del peso de la Evidencia (WoE) tiene la siguiente ventaja: WoE muestra una relación lineal con el logaritmo natural de la razón de probabilidades, que es la variable dependiente en la regresión logística.
Por lo tanto, la cuestión de la especificación errónea del modelo no surge en la regresión logística cuando usamos WoE en lugar de los valores reales de la variable.
α β W o E ( V a r 1 ) γ W o E ( V a r 2 ) η W o E ( V a r 3 )l n ( p / 1 - p ) = + * + * + *α β Wo E( Va r 1 ) γ Wo E( Va r 2 ) η Wo E( Va r 3 )
Fuente: En uno de los PPT que mi entrenador me mostró durante la capacitación de la compañía.
fuente
Las transformaciones de WOE ayudan cuando tiene datos numéricos y categóricos que necesita combinar y valores perdidos de los que le gustaría extraer información. Convertir todo a WOE ayuda a "estandarizar" muchos tipos diferentes de datos (incluso datos faltantes) en la misma escala de probabilidades de registro. Esta publicación de blog explica las cosas razonablemente bien: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
El resumen de la historia es que la Regresión logística con WOE debería llamarse (y se llama) Clasificador Bayesiano Semi-Ingenuo (SNBC). Si está tratando de entender el algoritmo, el nombre SNBC es, para mí, mucho más informativo.
fuente