¿Por qué debería uno hacer una transformación WOE de predictores categóricos en regresión logística?

10

¿Cuándo es útil la transformación del peso de la evidencia (WOE) de variables categóricas?

El ejemplo se puede ver en la transformación de WOE

(Así que para una respuesta , y un predictor categórico con categorías, y éxitos de ensayos dentro de la ésimo categoría de este predictor, el AY para el ésimo categoría se define comok y j n j j jykyjnortejjj

Iniciar sesiónyjjkyjjk(nortej-yj)nortej-yj

& la transformación consiste en codificar cada categoría del predictor categórico con su WOE para formar un nuevo predictor continuo).

Me gustaría saber la razón por la cual la transformación WOE ayuda a la regresión logística. ¿Cuál es la teoría detrás de esto?

Adán
fuente

Respuestas:

6

En el ejemplo al que se vincula, el predictor categórico está representado por una sola variable continua que toma un valor para cada nivel igual a las probabilidades de registro observadas de la respuesta en ese nivel (más una constante):

logyjnjyj+logjk(njyj)jkyj

Esta ofuscación no tiene ningún propósito en el que pueda pensar: obtendrá la misma respuesta pronosticada como si hubiera usado la codificación ficticia habitual; pero los grados de libertad son incorrectos, invalidando varias formas útiles de inferencia sobre el modelo.

En la regresión múltiple, con varios predictores categóricos para transformar, supongo que calcularía los WOE para cada uno utilizando probabilidades de registro marginales. Eso cambiará las respuestas predichas; pero como la confusión no se tiene en cuenta (las probabilidades de registro condicionales no son una función lineal de las probabilidades de registro marginales), no veo ninguna razón para suponer una mejora, y los problemas de inferencia persisten.

Scortchi - Restablece a Monica
fuente
¿Puedes explicar por qué los grados de libertad están mal con WOE? Es solo una transformación ¿verdad? Además, ¿qué pasaría si tuviéramos varias variables categóricas y obtuviéramos WOE para cada una de ellas? En mi experiencia, cuando tienes muchas variables categóricas, algunos intervalos entre diferentes variables se superponen mucho y comienzas a ver algunos coeficientes que son insignificantes. Y también necesitas llevar varios coeficientes.
Adam
1
(1) Una transformación que depende de evaluar la relación de los predictores con la respuesta, algo que se supone que debe dejarse en la regresión. Entonces, por ejemplo, el estadístico de prueba de razón de probabilidad no tendrá la misma distribución que cuando una transformación se especifica previamente. (2) Buen punto! - una regresión múltiple en WOE no será equivalente a la de las variables ficticias (a menos que los modelos estén saturados). (3) ¿Y qué? (4) Los coeficientes no son más pesados ​​que los WOE.
Scortchi - Restablece a Monica
1

La clasificación aproximada utilizando la medida del peso de la Evidencia (WoE) tiene la siguiente ventaja: WoE muestra una relación lineal con el logaritmo natural de la razón de probabilidades, que es la variable dependiente en la regresión logística.
Por lo tanto, la cuestión de la especificación errónea del modelo no surge en la regresión logística cuando usamos WoE en lugar de los valores reales de la variable.

α β W o E ( V a r 1 ) γ W o E ( V a r 2 ) η W o E ( V a r 3 )lnorte(pag/ /1-pag) = + * + * + *αβWomi(Vunar1)γWomi(Vunar2)ηWomi(Vunar3)

Fuente: En uno de los PPT que mi entrenador me mostró durante la capacitación de la compañía.

Srikanth Guhan
fuente
1
"la especificación errónea del modelo no surge en la regresión logística cuando usamos WoE en lugar de los valores reales de la variable". ¿Puedes explicar / probar esto matemáticamente?
Adam
No soy de antecedentes de análisis de riesgos, pero la página 131,132 de este libro parece decirlo books.google.co.in/…
Srikanth Guhan
También este enlace dice lo mismo, aunque no se explican las
Srikanth Guhan
Gracias por los enlaces, pero es claramente falso que las probabilidades de registro marginales a las que WoE es proporcional tienen una relación lineal con las probabilidades de registro condicionales con las que se relaciona la regresión logística. La confusión con otros predictores puede incluso resultar en categorías de ordenamiento de WoE de manera diferente.
Scortchi - Restablece a Monica
1

Las transformaciones de WOE ayudan cuando tiene datos numéricos y categóricos que necesita combinar y valores perdidos de los que le gustaría extraer información. Convertir todo a WOE ayuda a "estandarizar" muchos tipos diferentes de datos (incluso datos faltantes) en la misma escala de probabilidades de registro. Esta publicación de blog explica las cosas razonablemente bien: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

El resumen de la historia es que la Regresión logística con WOE debería llamarse (y se llama) Clasificador Bayesiano Semi-Ingenuo (SNBC). Si está tratando de entender el algoritmo, el nombre SNBC es, para mí, mucho más informativo.

Stephened
fuente