¿Qué es "inferencia de rechazo" y cómo se puede utilizar para aumentar la precisión de un modelo?

10

¿Alguien puede explicar en detalle:

¿Qué significa rechazar inferencia?
¿Cómo se puede usar para aumentar la precisión de mi modelo?

Tengo la idea de rechazar la inferencia en la solicitud de tarjeta de crédito, pero me cuesta pensar en usarla para aumentar la precisión de mi modelo.

logistic ayush biyani
fuente

23

En la construcción del modelo de crédito, la inferencia de rechazo es el proceso de inferir el rendimiento de las cuentas de crédito que fueron rechazadas en el proceso de solicitud.

Al crear un modelo de riesgo de crédito de aplicación, queremos construir un modelo que tenga aplicabilidad "a través de la puerta ", es decir, ingresamos todos los datos de la aplicación en el modelo de riesgo de crédito, y el modelo genera una calificación de riesgo o una probabilidad de incumplimiento. El problema al usar la regresión para construir un modelo a partir de datos pasados es que conocemos el rendimiento de la cuenta solo para las aplicaciones aceptadas en el pasado. Sin embargo, no conocemos el desempeño de los rechazados, porque después de presentar la solicitud los enviamos de regreso. Esto puede dar como resultado un sesgo de selección en nuestro modelo, porque si solo usamos "acepta" pasadas en nuestro modelo, el modelo podría no funcionar bien en la población "a través de la puerta".

Hay muchas formas de lidiar con la inferencia de rechazo, todas ellas controvertidas. Mencionaré dos simples aquí.

"Definir los rechazos del pasado como malos"
Parcelación

"Definir rechazos pasados como incorrectos" es simplemente tomar todos los datos de la aplicación rechazada y, en lugar de descartarlos al crear el modelo, asignarlos todos como incorrectos. Este método sesga fuertemente el modelo hacia la política de aceptación / rechazo del pasado.

"Parceling" es un poco más sofisticado. Consiste en

Construya el modelo de regresión con el pasado "acepta"
Aplicar el modelo a los rechazos pasados para asignarles calificaciones de riesgo
Utilizando la probabilidad esperada de incumplimiento para cada calificación de riesgo, asigne las aplicaciones rechazadas para que sean buenas o malas. Por ejemplo, si la calificación de riesgo tiene una probabilidad de incumplimiento del 10% y hay 100 solicitudes rechazadas que caen dentro de esta calificación de riesgo, asigne 10 de los rechazos a "malo" y 90 de los rechazados a "bueno".
Reconstruya el modelo de regresión utilizando las aplicaciones aceptadas y ahora el rendimiento inferido de las aplicaciones rechazadas.

Hay diferentes maneras de hacer las tareas para bien o para mal en el paso 3, y este proceso también se puede aplicar de forma iterativa.

Como se indicó anteriormente, el uso de la inferencia de rechazo es controvertido, y es difícil dar una respuesta directa sobre cómo se puede usar para aumentar la precisión de los modelos. Simplemente citaré a algunos otros sobre este asunto.

Jonathan Crook y John Banasik, ¿Reject Inference realmente mejora el rendimiento de los modelos de puntuación de aplicaciones?

Primero, incluso cuando una proporción muy grande de solicitantes son rechazados, el alcance para mejorar un modelo parametrizado solo en aquellos aceptados parece modesto. Cuando la tasa de rechazo no es tan grande, ese alcance parece ser muy pequeño.

David Hand, "Inferencia directa en operaciones de crédito", que aparece en el Manual de calificación crediticia, 2001

Se han propuesto y utilizado varios métodos y, aunque algunos de ellos son claramente pobres y nunca deberían recomendarse, no existe un mejor método único de aplicabilidad universal a menos que se obtenga información adicional. Es decir, la mejor solución es obtener más información (quizás otorgando préstamos a algunos posibles rechazados) sobre aquellos solicitantes que se encuentran en la región de rechazo.

Derek Ploor
fuente

1

+1 para una visión general extensa. Ahora sé lo que también rechazan la inferencia es :)

mpiktas

1

Gracias. pero ¿cómo se asigna en el paso 3? He leído que en lugar de usar 1 o 0 puedes usar la probabilidad para cada línea. Entonces tendrás la misma persona con 10% y 90%. ¿Cómo puede funcionar esto con la creación de un nuevo modelo logístico?

GabyLP

1

@GabyLP en comentarios anteriores. Según mi experiencia, puede dividir a dichos clientes en dos partes y asignar pesos para ambas divisiones de acuerdo con la probabilidad. Por ejemplo, si un cliente rechazado tiene un 10% de PD, puede hacer dos clientes de este. Primero con la variable objetivo 1 y peso 0.1 y segundo con la variable objetivo 0 y peso 0.9.

Toda la muestra aceptada de clientes tendrá pesos == 1.

Si bien esto funciona con regresión logística, no funciona con modelos basados en árboles.

MiksL
fuente

¿Tiene una fuente para su declaración?

T. Beige

Si la pregunta es si no funciona en modelos basados en árboles, entonces mi respuesta es: experiencia personal. He intentado implementar este enfoque pero no lo he logrado.

MiksL

¿Qué es "inferencia de rechazo" y cómo se puede utilizar para aumentar la precisión de un modelo?

Respuestas: