Modelo de Cox vs regresión logística

15

Digamos que tenemos el siguiente problema:

Predecir qué clientes tienen más probabilidades de dejar de comprar en nuestra tienda en los próximos 3 meses.
Para cada cliente, sabemos el mes en que uno comenzó a comprar en nuestra tienda y, además, tenemos muchas características de comportamiento en agregados mensuales. El cliente 'mayor' ha estado comprando durante cincuenta meses; denotemos el tiempo desde que un cliente comenzó a comprar por ( ). Se puede suponer que el número de clientes es muy grande. Si un cliente deja de comprar durante tres meses y luego regresa, se lo trata como un nuevo cliente, por lo que un evento (dejar de comprar) solo puede ocurrir una vez.tt[0,50]

Dos soluciones vienen a mi mente:

Regresión logística : para cada cliente y cada mes (tal vez excepto los 3 meses más recientes), podemos decir si un cliente dejó de comprar o no, por lo que podemos hacer muestras sucesivas con una observación por cliente y mes. Podemos usar el número de meses desde que comenzó como una variable categórica para obtener algún equivalente de la función de riesgo base.

Modelo extendido de Cox : este problema también se puede modelar utilizando el modelo extendido de Cox. Parece que este problema es más adecuado para el análisis de supervivencia.

Pregunta: ¿Cuáles son las ventajas del análisis de supervivencia en problemas similares? El análisis de supervivencia fue inventado por alguna razón, por lo que debe haber alguna ventaja seria.

Mi conocimiento en el análisis de supervivencia no es muy profundo y creo que la mayoría de las ventajas potenciales del modelo Cox también se pueden lograr mediante regresión logística.

  • El equivalente del modelo estratificado de Cox puede obtenerse usando una interacción de y la variable estratificante. t
  • El modelo Interaction Cox puede obtenerse sumergiendo a la población en varias subpoblaciones y estimando LR para cada subpoblación.

La única ventaja que veo es que el modelo de Cox es más flexible; Por ejemplo, podemos calcular fácilmente la probabilidad de que un cliente deje de comprar en 6 meses.

Tomek Tarczynski
fuente

Respuestas:

10

El problema con el modelo de Cox es que no predice nada. La "intercepción" (función de riesgo de referencia) en los modelos de Cox nunca se estima realmente. La regresión logística se puede utilizar para predecir el riesgo o la probabilidad de algún evento, en este caso: si un sujeto entra o no a comprar algo en un mes específico.

El problema con los supuestos detrás de la regresión logística ordinaria es que usted trata cada observación persona-mes como independiente, independientemente de si fue la misma persona o el mismo mes en que ocurrieron las observaciones. Esto puede ser peligroso porque algunos artículos se compran en intervalos de dos meses, por lo que las observaciones consecutivas persona por mes se correlacionan negativamente . Alternativamente, un cliente puede ser retenido o perdido por buenas o malas experiencias, lo que lleva a que las observaciones consecutivas de personas por mes estén correlacionadas positivamente .

Creo que un buen comienzo para este problema de predicción es adoptar el enfoque de pronóstico en el que podamos usar información previa para informar nuestras predicciones sobre el negocio del próximo mes. Un comienzo simple para este problema es ajustar por un efecto rezagado, o un indicador de si un sujeto había llegado en el último mes, como un predictor de si podría llegar este mes.

AdamO
fuente
2
¿No podría usarse aquí una regresión logística multinivel para resolver el problema de la independencia? El nivel 2 serían clientes y el nivel 1 serían medidas repetidas a lo largo del tiempo.
ejemplo el
1
@AdamO, la intercepción se puede estimar y, combinada con la predicción del peligro parcial del individuo, podemos crear curvas de supervivencia individuales. No estoy seguro de por qué crees que el modelo de Cox puede predecir "nada".
Cam.Davidson.Pilon
@ Cam.Davidson.Pilon, la estimación de la función de riesgo de la línea de base es un procedimiento auxiliar (función de paso de Breslow) que debe realizarse de forma secundaria al modelo de Cox. Además, hay desacuerdo en el cálculo de los límites de incertidumbre ya que la covarianza entre la estimación del riesgo acumulativo y los parámetros del modelo no está clara. El método con independencia asumida y los límites de Hall y Wellner son lo que uso. δ
AdamO
Para fines de predicción, siento que estos no son bloqueadores. No es inusual combinar múltiples estimaciones para crear una sola predicción, y (desafortunadamente y no lo defiendo) los intervalos de predicción no se usan comúnmente o no están disponibles de todos modos.
Cam.Davidson.Pilon
@ Cam.Davidson.Pilon No dije que no se puedan obtener predicciones de riesgo de los datos de supervivencia, dije que los modelos de Cox no predicen el riesgo. Los pasos entre llamar coxphy obtener estimaciones de riesgo son empinados y muchos.
AdamO
3

TjjPr(Tj>3)j3

El análisis de supervivencia tiene en cuenta el hecho de que cada cliente tiene su propio tiempo de ingreso al estudio. Por lo tanto, el hecho de que el período de seguimiento varía entre los clientes no es un problema.

j


Observación : aquí hay un documento que muestra que, bajo algunas restricciones, tanto el modelo logístico como el modelo de Cox están vinculados.

ocram
fuente
Gracias por responder. Si SA maneja adecuadamente la censura, entonces implica que la solución LR no maneja la censura adecuadamente. ¿Cómo podría resultar? Todavía no puedo convencer a myselft de que SA es mejor para un objetivo de tiempo fijo. ¿Puedo encontrar este artículo de forma gratuita?
Tomek Tarczynski
Y=0 0
Mi correo electrónico es: [email protected] ¡Muchas gracias!
Tomek Tarczynski
@TomekTarczynski: recibido?
ocram
Sí, gracias de nuevo! Mañana tendré tiempo para leerlo más detenidamente. Simplemente lo hojeé y si entendí correctamente, aborda un problema ligeramente diferente. Usando la analogía de la tienda, compara LR y COX con el problema "¿Cuál es la probabilidad de que el cliente ya no sea cliente después de un número fijo de meses desde el comienzo?"
Tomek Tarczynski
2

La literatura de marketing sugiere un Pareto / NBD aquí o similar. Básicamente asume que la compra, mientras están comprando, sigue una distribución binomial negativa. Pero debe modelar el momento en que el cliente se detiene. Esa es la otra parte.

Pete Fader y Bruce Hardie tienen algunos documentos sobre esto, junto con Abe.

Hay varios enfoques más simples para Pareto / NBD, incluso solo contando los diversos documentos de Fader y Hardie. NO use el enfoque más simple en el que se supone que la probabilidad de detenerse es constante en cada momento, lo que significa que es más probable que sus clientes más pesados ​​abandonen antes. Es un modelo más simple de ajustar, pero está equivocado.

No me he adaptado a uno de estos en mucho tiempo; Lamento ser un poco inespecífico.

Aquí hay una referencia al artículo de Abe, que reformula este problema como un Bayes jerárquico. . Si volviera a trabajar en esta área, creo que probaría este enfoque.

zbicyclist
fuente