En R, estoy haciendo análisis de datos de supervivencia de pacientes con cáncer.
He estado leyendo cosas muy útiles sobre el análisis de supervivencia en CrossValidated y otros lugares y creo que entendí cómo interpretar los resultados de la regresión de Cox. Sin embargo, un resultado todavía me molesta ...
Estoy comparando supervivencia versus género. Las curvas de Kaplan-Meier están claramente a favor de las pacientes femeninas (he comprobado varias veces que la leyenda que he agregado es correcta, el paciente con la supervivencia máxima, 4856 días, es de hecho una mujer):
Y la regresión de Cox está regresando:
Call:
coxph(formula = survival ~ gender, data = Clinical)
n= 348, number of events= 154
coef exp(coef) se(coef) z Pr(>|z|)
gendermale -0.3707 0.6903 0.1758 -2.109 0.035 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
exp(coef) exp(-coef) lower .95 upper .95
gendermale 0.6903 1.449 0.4891 0.9742
Concordance= 0.555 (se = 0.019 )
Rsquare= 0.012 (max possible= 0.989 )
Likelihood ratio test= 4.23 on 1 df, p=0.03982
Wald test = 4.45 on 1 df, p=0.03499
Score (logrank) test = 4.5 on 1 df, p=0.03396
Entonces, la razón de riesgos (HR) para pacientes masculinos ( gendermale
) es 0.6903. La forma en que interpretaría eso (sin mirar la curva de Kaplan-Meier) es: como la FC es <1, ser paciente del género masculino es protector. O más precisamente, un paciente femenino es 1 / 0.6903 = exp (-coef) = 1.449 más probabilidades de morir en un momento específico que un hombre.
¡Pero eso no parece lo que dicen las curvas de Kaplan-Meier! ¿Qué hay de malo en mi interpretación?
fuente
Respuestas:
Este es un muy buen ejemplo de riesgos no proporcionales O el efecto de 'agotamiento' en el análisis de supervivencia. Voy a intentar de explicar.
Al principio, eche un vistazo a su curva de Kaplan-Meier (KM): puede ver en la primera parte (hasta alrededor de 3000 días) la proporción de machos que aún viven en la población en riesgo en el momento t es mayor que la proporción de hembras (es decir, la línea azul es "más alta" que la roja). Esto significa que, de hecho, el género masculino es 'protector' para el evento (muerte) estudiado. En consecuencia, la razón de riesgo debe estar entre 0 y 1 (y el coeficiente debe ser negativo).
Sin embargo, después del día 3000, ¡la línea roja es más alta! De hecho, esto sugeriría lo contrario. Basado solo en este gráfico de KM, esto sugeriría además un peligro no proporcional. En este caso, 'no proporcional' significa que el efecto de su variable independiente (género) no es constante en el tiempo. En otras palabras, la razón de riesgo es viable para cambiar a medida que pasa el tiempo. Como se explicó anteriormente, este parece ser el caso. El modelo de Cox de riesgo proporcional regular no tiene en cuenta tales efectos. En realidad, uno de los principales supuestos es que los peligros son proporcionales. Ahora también puede modelar peligros no proporcionales, pero eso está más allá del alcance de esta respuesta.
Hay un comentario adicional que hacer: esta diferencia podría deberse a que los verdaderos peligros son no proporcionales oEl hecho de que haya mucha variación en las estimaciones de cola de las curvas KM. Tenga en cuenta que en este momento el grupo total de 348 pacientes habrá disminuido a una población muy pequeña que todavía está en riesgo. Como puede ver, ambos grupos de género tienen pacientes que experimentan el evento y pacientes que están siendo censurados (las líneas verticales). A medida que disminuye la población en riesgo, las estimaciones de supervivencia serán menos seguras. Si hubiera trazado los intervalos de confianza del 95% alrededor de las líneas KM, vería que aumenta el ancho del intervalo de confianza. Esto también es importante para la estimación de los peligros. En pocas palabras, dado que la población en riesgo y la cantidad de eventos en el período final de su estudio son bajos, este período contribuirá menos a las estimaciones en su modelo inicial de Cox.
Finalmente, esto explicaría por qué el peligro (asumido constante en el tiempo) está más en línea con la primera parte de su KM, en lugar del punto final final.
EDITAR: vea el comentario puntual de @ Scrotchi a la pregunta original: Como se indicó, el efecto de los números bajos en el período final del estudio es que las estimaciones de los peligros en esos momentos son inciertas. En consecuencia, también está menos seguro de si la aparente violación del supuesto de riesgos proporcionales no se debe al azar. Como afirma @ scrotchi, la suposición de PH puede no ser tan mala.
fuente
Estás confundido en cuanto a la naturaleza de tu salida. Estos datos dicen: si usted es un hombre, es más probable que viva más que una mujer; Las mujeres tienen PEOR supervivencia que los hombres. Esto se refleja en el resultado de la regresión, ya que el efecto de ser MASCULINO es tener una relación de riesgo logarítmico negativo, por ejemplo, los hombres tienen un riesgo menor que las mujeres. En la mayoría de los casos (cuando las curvas "escalonan"), la curva de supervivencia masculina es mayor que la de las mujeres, los resultados del modelo de Cox y el gráfico coinciden muy bien. Las curvas KM confirman esto al igual que la salida del modelo de regresión. La "cruz" es intrascendente.
Las curvas KM se comportan mal en las colas, especialmente cuando se acercan al 0% y / o se reducen de forma plana. El eje Y es la proporción que sobrevive. Con relativamente pocos que sobreviven mucho tiempo en el estudio, y pocos que mueren en ese momento, la confiabilidad de las estimaciones es intuitiva y gráficamente terrible. Noto, por ejemplo, que hay visiblemente menos mujeres en su cohorte que hombres y que después de 2.800 días, quedan menos de 10 mujeres en la cohorte, como lo demuestran los pasos en la curva de supervivencia y la falta de eventos censurados.
Como nota interesante, debido a que los análisis de supervivencia que utilizan curvas KM, las pruebas de rango logarítmico y los modelos de Cox usan el tiempo de supervivencia clasificado , la duración real de la supervivencia es algo irrelevante. De hecho, su hembra más longeva podría haber sobrevivido durante otros 100 años y no tendría ningún impacto en los análisis. Esto se debe a que la función de riesgo de referencia (sin haber observado ningún evento durante los últimos 13 años) supondría que no hubo riesgo de muerte durante los siguientes 87 años, ya que nadie murió en ese momento.
Si desea una HR sólida para obtener valores de CI y valores de p del 95% correctos para esto, especifique
robust=TRUE
en Cox-PH para obtener errores estándar tipo sandwich. En ese caso, la FC es una FC promediada en el tiempo que compara hombres con mujeres en todos los momentos de falla.fuente