He estado aprendiendo sobre el modelo de riesgo proporcional de Cox. Tengo mucha experiencia ajuste modelos de regresión logística, y los modelos de manera de construir la intuición que he estado comparando ajuste usando coxph
Del R "supervivencia" con modelos de regresión logística aptos utilizando glm
con family="binomial"
.
Si ejecuto el código:
library(survival)
s = Surv(time=lung$time, event=lung$status - 1)
summary(coxph(s ~ age, data=lung))
summary(glm(status-1 ~ age, data=lung, family="binomial"))
Obtengo valores p para la edad de 0.0419 y 0.0254 respectivamente. Del mismo modo, si uso el sexo como predictor, con o sin edad.
Encuentro esto desconcertante porque creo que tomar en cuenta la cantidad de tiempo transcurrido al ajustar el modelo daría más poder estadístico que solo tratar la muerte como un resultado binario, mientras que los valores de p parecerían consistentes con uno que tenga menos poder estadístico. ¿Que esta pasando aqui?
Respuestas:
El modelo de regresión logística supone que la respuesta es un ensayo de Bernoulli (o más generalmente un binomio, pero por simplicidad, lo mantendremos 0-1). Un modelo de supervivencia supone que la respuesta suele ser un momento de evento (de nuevo, hay generalizaciones de esto que omitiremos). Otra forma de decir eso es que las unidades pasan a través de una serie de valores hasta que ocurre un evento. No es que una moneda se arroje discretamente en cada punto. (Eso podría suceder, por supuesto, pero necesitaría un modelo para medidas repetidas, tal vez un GLMM).
Su modelo de regresión logística toma cada muerte como un lanzamiento de moneda que ocurrió a esa edad y salió de colas. Del mismo modo, considera cada dato censurado como un solo lanzamiento de moneda que ocurrió a la edad especificada y surgió cara. El problema aquí es que eso es inconsistente con lo que realmente son los datos.
Aquí hay algunos gráficos de los datos y la salida de los modelos. (Tenga en cuenta que volteo las predicciones del modelo de regresión logística a la predicción de estar vivo para que la línea coincida con la gráfica de densidad condicional).
Puede ser útil considerar una situación en la que los datos fueron apropiados para un análisis de supervivencia o una regresión logística. Imagine un estudio para determinar la probabilidad de que un paciente sea readmitido en el hospital dentro de los 30 días posteriores al alta bajo un nuevo protocolo o estándar de atención. Sin embargo, todos los pacientes son seguidos hasta el reingreso, y no hay censura (esto no es terriblemente realista), por lo que el tiempo exacto para el reingreso podría analizarse con análisis de supervivencia (a saber, un modelo de riesgos proporcionales de Cox aquí). Para simular esta situación, usaré distribuciones exponenciales con tasas de .5 y 1, y usaré el valor 1 como límite para representar 30 días:
En este caso, vemos que el valor p del modelo de regresión logística (
0.163
) fue mayor que el valor p de un análisis de supervivencia (0.005
). Para explorar más esta idea, podemos extender la simulación para estimar el poder de un análisis de regresión logística versus un análisis de supervivencia, y la probabilidad de que el valor p del modelo de Cox sea menor que el valor p de la regresión logística . También usaré 1.4 como umbral, para no poner en desventaja la regresión logística usando un corte subóptimo:Por lo tanto, el poder de la regresión logística es más bajo (aproximadamente 75%) que el análisis de supervivencia (aproximadamente 93%), y el 90% de los valores p del análisis de supervivencia fueron más bajos que los valores p correspondientes de la regresión logística. Tener en cuenta los tiempos de retraso, en lugar de solo menor o mayor que algún umbral, produce más poder estadístico como lo había intuido.
fuente