Digamos que tenemos el siguiente problema:
Predecir qué clientes tienen más probabilidades de dejar de comprar en nuestra tienda en los próximos 3 meses.
Para cada cliente, sabemos el mes en que uno comenzó a comprar en nuestra tienda y, además, tenemos muchas características de comportamiento en agregados mensuales. El cliente 'mayor' ha estado comprando durante cincuenta meses; denotemos el tiempo desde que un cliente comenzó a comprar por ( ). Se puede suponer que el número de clientes es muy grande. Si un cliente deja de comprar durante tres meses y luego regresa, se lo trata como un nuevo cliente, por lo que un evento (dejar de comprar) solo puede ocurrir una vez.
Dos soluciones vienen a mi mente:
Regresión logística : para cada cliente y cada mes (tal vez excepto los 3 meses más recientes), podemos decir si un cliente dejó de comprar o no, por lo que podemos hacer muestras sucesivas con una observación por cliente y mes. Podemos usar el número de meses desde que comenzó como una variable categórica para obtener algún equivalente de la función de riesgo base.
Modelo extendido de Cox : este problema también se puede modelar utilizando el modelo extendido de Cox. Parece que este problema es más adecuado para el análisis de supervivencia.
Pregunta: ¿Cuáles son las ventajas del análisis de supervivencia en problemas similares? El análisis de supervivencia fue inventado por alguna razón, por lo que debe haber alguna ventaja seria.
Mi conocimiento en el análisis de supervivencia no es muy profundo y creo que la mayoría de las ventajas potenciales del modelo Cox también se pueden lograr mediante regresión logística.
- El equivalente del modelo estratificado de Cox puede obtenerse usando una interacción de y la variable estratificante.
- El modelo Interaction Cox puede obtenerse sumergiendo a la población en varias subpoblaciones y estimando LR para cada subpoblación.
La única ventaja que veo es que el modelo de Cox es más flexible; Por ejemplo, podemos calcular fácilmente la probabilidad de que un cliente deje de comprar en 6 meses.
coxph
y obtener estimaciones de riesgo son empinados y muchos.El análisis de supervivencia tiene en cuenta el hecho de que cada cliente tiene su propio tiempo de ingreso al estudio. Por lo tanto, el hecho de que el período de seguimiento varía entre los clientes no es un problema.
Observación : aquí hay un documento que muestra que, bajo algunas restricciones, tanto el modelo logístico como el modelo de Cox están vinculados.
fuente
La literatura de marketing sugiere un Pareto / NBD aquí o similar. Básicamente asume que la compra, mientras están comprando, sigue una distribución binomial negativa. Pero debe modelar el momento en que el cliente se detiene. Esa es la otra parte.
Pete Fader y Bruce Hardie tienen algunos documentos sobre esto, junto con Abe.
Hay varios enfoques más simples para Pareto / NBD, incluso solo contando los diversos documentos de Fader y Hardie. NO use el enfoque más simple en el que se supone que la probabilidad de detenerse es constante en cada momento, lo que significa que es más probable que sus clientes más pesados abandonen antes. Es un modelo más simple de ajustar, pero está equivocado.
No me he adaptado a uno de estos en mucho tiempo; Lamento ser un poco inespecífico.
Aquí hay una referencia al artículo de Abe, que reformula este problema como un Bayes jerárquico. . Si volviera a trabajar en esta área, creo que probaría este enfoque.
fuente