Estoy tratando de encontrar la mejor manera de predecir el monto del pago para una agencia de cobros. La variable dependiente solo es distinta de cero cuando se ha realizado un pago. Es comprensible que haya una cantidad abrumadora de ceros porque la mayoría de las personas no pueden ser contactadas o no pueden pagar la deuda.
También existe una correlación negativa muy fuerte entre el monto de la deuda y la probabilidad de realizar un pago. Por lo general, crearía un modelo logístico para predecir la probabilidad de pago / no pago, pero esto tiene la desafortunada consecuencia de encontrar a las personas con los saldos más bajos.
¿Hay alguna manera de combinar un modelo logístico de pago / no pago con un modelo separado que prediga el monto del pago?
fuente
Respuestas:
La idea de gui11aume de construir un modelo de dos etapas es el camino correcto, sin embargo, uno debe considerar la dificultad especial de su configuración, que es la fuerte correlación negativa entre el monto de la deuda y la probabilidad de realizar un pago
El problema principal de construir un modelo de dos etapas aquí es que el segundo modelo (para la predicción de la deuda), cuando se construye solo sobre "no ceros", se basa en una muestra de población no aleatoria muy probable ( es decir, todo el conjunto de datos), pero el modelo combinado debe aplicarse nuevamente a toda la población. Esto significa que el segundo modelo tendrá que hacer predicciones para partes de los datos que nunca ha visto antes, lo que provocará una pérdida de precisión. Esto se llama Sesgo de selección de muestra (para una visión general desde una perspectiva de ML, recomiendo un marco de red bayesiano para la inferencia de rechazo por Smith y Elkan).
La KDD-Cup-98 se ocupó de un problema similar en el que uno debería predecir si un donante para una organización de veteranos probablemente donará nuevamente y cuánto es probable que done. En este conjunto de datos, la probabilidad de volver a donar también se correlacionó negativamente con la cantidad de dinero esperada. El sesgo de selección de muestra también apareció.
La solución que más me impresionó se puede encontrar en Aprender y tomar decisiones cuando los costos y las probabilidades son desconocidos por Bianca Zadrozny y Charles Elkan. Han creado una solución sensible al costo basada en la corrección de Heckman , que es, según mi conocimiento, el primer enfoque sistemático para corregir el sesgo de selección (muestra).
fuente
Esa es una muy buena pregunta (+1).
¿Por qué no tratar los 0 como si fueran NA?
Puede agregar una respuesta ficticia que indique si se ha recuperado dinero ( es decir, igual a 0 cuando el valor es 0 y 1 cuando el valor es positivo) y ajustar un modelo logístico en esta respuesta binaria con los mismos predictores. Se ajustarían 2 modelos: la respuesta binaria usando todos los puntos de datos, y la respuesta continua usando solo los puntos de datos que no son cero (en línea con la idea de tratar 0 como NA).
Todavía puede probar la nulidad de los parámetros en cada modelo y calcular la ganancia esperada mediante el uso de ambos conjuntos de parámetros.
fuente