La mejor manera de combinar respuesta binaria y continua

10

Estoy tratando de encontrar la mejor manera de predecir el monto del pago para una agencia de cobros. La variable dependiente solo es distinta de cero cuando se ha realizado un pago. Es comprensible que haya una cantidad abrumadora de ceros porque la mayoría de las personas no pueden ser contactadas o no pueden pagar la deuda.

También existe una correlación negativa muy fuerte entre el monto de la deuda y la probabilidad de realizar un pago. Por lo general, crearía un modelo logístico para predecir la probabilidad de pago / no pago, pero esto tiene la desafortunada consecuencia de encontrar a las personas con los saldos más bajos.

¿Hay alguna manera de combinar un modelo logístico de pago / no pago con un modelo separado que prediga el monto del pago?

Zelazny7
fuente
55
Hay una regresión logarítmica normal inflada a cero, que parece ajustarse a sus necesidades. Ver este documento
Peter Flom - Restablecer a Monica
@PeterFlom ¿cómo crees que esto se compara con la discusión de gui11aume y steffen sobre un modelo de dos etapas y un sesgo de selección de muestra?
As3adTintin
1
Creo que ambos pueden ser útiles. Ha habido una discusión comparando los dos, pero olvido dónde lo leí.
Peter Flom - Restablece a Monica
Lo que terminé haciendo fue crear una red neuronal con una activación relu para la salida y pérdida logarítmica cuadrática media
Zelazny7
OK gracias. La activación de la red neuronal / relu suena más allá de mi conocimiento actual, pero seguiré investigando esto. ¡Gracias por hacer la pregunta original y por los comentarios!
As3adTintin

Respuestas:

6

La idea de gui11aume de construir un modelo de dos etapas es el camino correcto, sin embargo, uno debe considerar la dificultad especial de su configuración, que es la fuerte correlación negativa entre el monto de la deuda y la probabilidad de realizar un pago

El problema principal de construir un modelo de dos etapas aquí es que el segundo modelo (para la predicción de la deuda), cuando se construye solo sobre "no ceros", se basa en una muestra de población no aleatoria muy probable ( es decir, todo el conjunto de datos), pero el modelo combinado debe aplicarse nuevamente a toda la población. Esto significa que el segundo modelo tendrá que hacer predicciones para partes de los datos que nunca ha visto antes, lo que provocará una pérdida de precisión. Esto se llama Sesgo de selección de muestra (para una visión general desde una perspectiva de ML, recomiendo un marco de red bayesiano para la inferencia de rechazo por Smith y Elkan).

La KDD-Cup-98 se ocupó de un problema similar en el que uno debería predecir si un donante para una organización de veteranos probablemente donará nuevamente y cuánto es probable que done. En este conjunto de datos, la probabilidad de volver a donar también se correlacionó negativamente con la cantidad de dinero esperada. El sesgo de selección de muestra también apareció.

La solución que más me impresionó se puede encontrar en Aprender y tomar decisiones cuando los costos y las probabilidades son desconocidos por Bianca Zadrozny y Charles Elkan. Han creado una solución sensible al costo basada en la corrección de Heckman , que es, según mi conocimiento, el primer enfoque sistemático para corregir el sesgo de selección (muestra).

steffen
fuente
+1 Su segundo párrafo resalta muy bien algo que falta en mi respuesta.
gui11aume
¿Cómo se compara esto con la sugerencia de Peter Flom de una regresión logarítmica normal inflada a cero?
As3adTintin
3

Esa es una muy buena pregunta (+1).

¿Por qué no tratar los 0 como si fueran NA?

Puede agregar una respuesta ficticia que indique si se ha recuperado dinero ( es decir, igual a 0 cuando el valor es 0 y 1 cuando el valor es positivo) y ajustar un modelo logístico en esta respuesta binaria con los mismos predictores. Se ajustarían 2 modelos: la respuesta binaria usando todos los puntos de datos, y la respuesta continua usando solo los puntos de datos que no son cero (en línea con la idea de tratar 0 como NA).

Todavía puede probar la nulidad de los parámetros en cada modelo y calcular la ganancia esperada mediante el uso de ambos conjuntos de parámetros.

gui11aume
fuente
Gracias por la sugerencia. Antes de mi pregunta, había creado dos variables dependientes y conjuntos de datos similares a los que usted describe. ¿Puedes dar más detalles sobre lo que quieres decir con "Aún la nulidad de los paramenteros"? ¡Gracias!
Zelazny7
"Todavía la nulidad de los parámetros" fue un error tipográfico que arreglé en el texto. Lo siento :-)
gui11aume