¿Cómo determino si un modelo de supervivencia con datos faltantes es apropiado?

9

Simplificando un poco, tengo aproximadamente un millón de registros que registran el tiempo de entrada y salida de las personas en un sistema que abarca unos diez años. Cada registro tiene una hora de entrada, pero no todos los registros tienen una hora de salida. El tiempo medio en el sistema es de ~ 1 año.

Los tiempos de salida que faltan ocurren por dos razones:

  1. La persona no ha abandonado el sistema en el momento en que se capturaron los datos.
  2. El tiempo de salida de la persona no se registró. Esto pasa a decir el 50% de los registros

Las preguntas de interés son:

  1. ¿Las personas pasan menos tiempo en el sistema y cuánto menos tiempo?
  2. ¿Se registran más horas de salida y cuántas?

Podemos modelar esto diciendo que la probabilidad de que se registre una salida varía linealmente con el tiempo, y que el tiempo en el sistema tiene un Weibull cuyos parámetros varían linealmente con el tiempo. Luego podemos hacer una estimación de máxima verosimilitud de los diversos parámetros y observar los resultados y considerarlos plausibles. Elegimos la distribución de Weibull porque parece usarse para medir vidas y es divertido decirlo en lugar de ajustar los datos mejor que decir una distribución gamma.

¿Dónde debo buscar para obtener una pista sobre cómo hacer esto correctamente? Somos algo expertos en matemática, pero no extremadamente expertos en estadística.

deinst
fuente

Respuestas:

5

La forma básica de ver si sus datos son Weibull es trazar el registro de riesgos acumulativos versus el registro de tiempos y ver si una línea recta podría ser una buena opción. El peligro acumulativo se puede encontrar utilizando el estimador no paramétrico Nelson-Aalen. Hay diagnósticos gráficos similares para la regresión de Weibull si ajusta sus datos con covariables y le siguen algunas referencias.

El texto de Klein & Moeschberger es bastante bueno y cubre mucho terreno con la construcción / diagnóstico de modelos para modelos paramétricos y semi-paramétricos (aunque principalmente el último). Si estás trabajando en R, el libro de Theneau es bastante bueno (creo que escribió el paquete de supervivencia ). Cubre una gran cantidad de Cox PH y modelos asociados, pero no recuerdo si tiene mucha cobertura de modelos paramétricos, como el que está construyendo.

Por cierto, ¿es este un millón de sujetos cada uno con una entrada / salida o eventos de entrada / salida recurrentes para un grupo más pequeño de personas? ¿Está condicionando su probabilidad de explicar el mecanismo de censura?

ars
fuente
Gracias, esto es justo lo que estaba buscando. Esto es esencialmente un millón de sujetos cada uno con un tiempo de entrada y salida. Sí, estamos condicionando para dar cuenta de la censura.
deinst
2

Puede usar el modelo estimado para predecir los tiempos de salida de todas las personas en su sistema. Luego, puede comparar los tiempos de salida estimados con los tiempos de salida reales (donde tiene estos datos) y calcular una métrica como RMSE para evaluar qué tan buenas son sus predicciones, lo que a su vez le dará una idea del ajuste del modelo. Ver también este enlace .


fuente
1
Con un millon de puntos y un modelo de 8 parámetros, una prueba de bondad de ajuste como chi-cuadrado me dice que esencialmente no hay posibilidad de que el modelo sea correcto. (Lo cual no es sorprendente, ya que hay un sinfín de factores que influyen en la realidad que no están en el modelo) RMSE me da una idea de cuán bueno se ajusta el modelo a los datos, pero no me da una idea de si hay un modelo mejor
desde el
Bueno, para descubrir si hay un mejor modelo, puede experimentar con diferentes formulaciones o puede usar varios gráficos (por ejemplo, tiempos de salida frente a tiempo) para ver si los datos son consistentes con los supuestos de su modelo. También puede trazar los tiempos de salida pronosticados para una pequeña muestra seleccionada al azar con respecto a los tiempos reales para las ideas de mejora del modelo.