Modelado de abandono de clientes: aprendizaje automático versus modelos de riesgo / supervivencia

9

¿Es racional (teórico, sustancial, estadístico) optar por el aprendizaje automático o los modelos de peligro al modelar la rotación de clientes (o más general, eventos)?

majom
fuente
1
Los dos: ¿por qué crees que son uno u otro?
EngrStudent
Aquí hay un ejemplo de aprendizaje automático y análisis de supervivencia, ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=1603631 seguramente será más. IIRC se realizó un trabajo sobre análisis de supervivencia basado en datos de microarrays utilizando enfoques de tipo de aprendizaje automático (por ejemplo, regularización L1).
Dikran Marsupial
El profesor Tibshirani es un gran contraejemplo a la idea "El aprendizaje automático y los modelos de peligro son disjuntos".
Cliff AB
3
Si por el aprendizaje de las máquinas modelo de media definiéndola como la predicción binaria Yo diría que si usted tiene un montón de datos y una mantequera definición muy clara / la consulta es una consulta binaria continuación binario es el camino a seguir. Por lo general, este no es el caso, por lo que desea predecir un peligro. Lo siento si es autopromoción, pero escribí este artículo para responder a esta pregunta que tuve hace un año. También puede convertir fácilmente los modelos de peligro en un problema de aprendizaje automático, por lo que es una especie de falsa dicotomía, como se indicó anteriormente.
ragulpr

Respuestas:

9

Creo que su pregunta podría definirse mejor. La primera distinción para los modelos de abandono es entre crear

(1) un modelo binario (o multiclase si hay varios tipos de abandono) para estimar la probabilidad de que un cliente abandone un determinado punto futuro (por ejemplo, los próximos 3 meses)

(2) un modelo de tipo de supervivencia que crea una estimación del riesgo de desgaste cada período (digamos cada mes para el próximo año)

Cuál de los dos es correcto para su situación depende del uso del modelo. Si realmente desea comprender el riesgo de desgaste con el tiempo y tal vez comprender cómo las variables (posiblemente variables en el tiempo) interactúan con el tiempo, entonces es apropiado un modelo de supervivencia. Para muchos modelos de clientes, prefiero usar modelos de riesgo de tiempo discreto para este propósito porque el tiempo a menudo es discreto en las bases de datos y la estimación de riesgo es una probabilidad del evento. La regresión de Cox es otra opción popular, pero el tiempo se trata como continuo (o mediante ajuste por vínculos), pero el peligro no es técnicamente una probabilidad.

Para la mayoría de los modelos de abandono, donde una compañía está interesada en apuntar a ese x% de los clientes que están en mayor riesgo y la base de datos se califica cada vez que se lanza una campaña de apuntado, la opción binaria (o de clase múltiple) es normalmente lo que se necesita.

La segunda opción es cómo estimar los modelos. ¿Utiliza un modelo estadístico tradicional como la regresión logística para el modelo binario (multiclase) o un algoritmo de aprendizaje automático (por ejemplo, bosque aleatorio). La elección se basa en cuál da el modelo más preciso y qué nivel de interpretabilidad se requiere. Para modelos de riesgo de tiempo discreto, una regresión logística se usa típicamente con splines para introducir efectos no lineales del tiempo. Esto también se puede hacer con redes neuronales y muchos otros tipos de algoritmos ML, ya que la configuración es simplemente aprendizaje supervisado con un conjunto de datos de "período de persona". Además, la regresión de Cox puede ajustarse a algoritmos tradicionales como SAS proc phreg o R coxph (). El algoritmo de aprendizaje automático GBM también se ajusta a la regresión de Cox con una función de pérdida seleccionada. Como se ha mencionado,

B_Miner
fuente
55
(+1) Aunque creo que depende de más cosas de las que mencionas. La probabilidad pronosticada de abandono en 3 meses puede leerse en un modelo de supervivencia, y si es un buen modelo, podría ser una mejor estimación que uno del modelo ajustado al resultado binario del abandono después de 3 meses o antes.
Scortchi - Restablece a Monica
1
¿Cómo se puede predecir una probabilidad de abandono en tres meses utilizando un bosque aleatorio, regresión logística o modelo C5.0? ¿Es esto posible?
Seanosapien
@Seanosapien, puede tomar su conjunto de datos de abandono con información sobre cuándo cada usuario abandonó, y para cada usuario asigne 1 si abandonó antes de 3 meses y 0 si no abandonó antes de 3 meses. Luego puede ajustar, por ejemplo, un modelo de regresión logística en los datos binarios y asignar probabilidades a los nuevos usuarios en función del modelo de ajuste
Kdawg
@Kdawg Gracias. Me las arreglé para encontrar una manera de diseñar un conjunto de datos para modelar teniendo en cuenta el abandono.
Seanosapien
-2

En primer lugar, aclararía exactamente dónde se hace la distinción entre el aprendizaje automático y los modelos de peligro. Según tengo entendido, la literatura ml distingue entre modelos paramétricos y no paramétricos (entre otros).

Y segundo, ¿para qué necesitas el modelo? ¿Es para investigación científica o algo más? En cualquier caso, elegir el modelo apropiado para describir sus datos depende en primer lugar de para qué necesita el modelo.

A su pregunta: depende de cuánto sepa sobre el proceso de generación de datos.

Si, por ejemplo, toma el famoso lanzamiento de moneda o tirada de dados, tiene una muy buena idea sobre el proceso que genera el resultado esperado de un experimento.

En ese caso, realmente desea utilizar una estimación paramétrica (bayesiana o frecuentista) porque le proporcionarán una muy buena estimación del parámetro desconocido. Además, estos modelos se entienden muy bien, lo que tiene muchas ventajas.

Si no conoce el proceso de generación de datos, o no está seguro de ello, no tiene muchas opciones, tendrá que estimar los parámetros que describen los datos de los datos en sí. Si decide este enfoque, debe aceptar que estos modelos tienen inconvenientes (dependiendo del modelo específico, etc.)

Según tengo entendido, cuanto menos sepa sobre un proceso, más tendrá que estimar a partir de los datos en sí, lo que sin duda tendrá un precio.

Vincent
fuente