En el análisis de supervivencia, ¿por qué utilizamos modelos semiparamétricos (riesgos proporcionales de Cox) en lugar de modelos completamente paramétricos?

24

He estado estudiando el modelo de riesgos proporcionales de Cox, y esta pregunta se pasa por alto en la mayoría de los textos.

Cox propuso ajustar los coeficientes de la función de peligro usando un método de probabilidad parcial, pero ¿por qué no solo ajustar los coeficientes de una función de supervivencia paramétrica usando el método de máxima probabilidad y un modelo lineal?

En cualquier caso en que haya censurado datos, puede encontrar el área debajo de la curva. Por ejemplo, si su estimación es 380 con una desviación estándar de 80, y una muestra está censurada> 300, entonces hay una probabilidad del 84% para esa muestra en el cálculo de probabilidad asumiendo un error normal.

usuario1956609
fuente
Por mucho que me guste tener preguntas de ciencias actuariales aquí, tengo que decir que esta pregunta probablemente obtendrá una mejor respuesta en el sitio de estadísticas, Cross Validated. Puede solicitar que un moderador lo migre.
Gráfico
Muy bien, no me di cuenta de que existía. No estoy seguro de cómo solicitar una migración. Por favor migrar?
@Graphth, tampoco me di cuenta de que había uno ... No lo encontré en la lista de "todos los sitios", ¿podría vincularlo aquí? Gracias

Respuestas:

27

Si conoce la distribución paramétrica que siguen sus datos, utilice un enfoque de máxima verosimilitud y la distribución tiene sentido. La verdadera ventaja de la regresión de riesgos proporcionales de Cox es que aún puede ajustarse a los modelos de supervivencia sin conocer (o asumir) la distribución. Usted da un ejemplo usando la distribución normal, pero la mayoría de los tiempos de supervivencia (y otros tipos de datos para los que se usa la regresión Cox PH) no se acercan a seguir una distribución normal. Algunos pueden seguir un log-normal, o un Weibull, u otra distribución paramétrica, y si está dispuesto a hacer esa suposición, entonces el enfoque paramétrico de máxima probabilidad es excelente. Pero en muchos casos del mundo real no sabemos cuál es la distribución adecuada (o incluso una aproximación lo suficientemente cercana). Con la censura y las covariables no podemos hacer un histograma simple y decir "eso me parece una ... distribución". Por lo tanto, es muy útil tener una técnica que funcione bien sin necesidad de una distribución específica.

¿Por qué usar el peligro en lugar de la función de distribución? Considere la siguiente declaración: "Las personas en el grupo A tienen el doble de probabilidades de morir a los 80 años que las personas en el grupo B". Ahora, eso podría ser cierto porque las personas en el grupo B tienden a vivir más tiempo que las del grupo A, o podría ser porque las personas en el grupo B tienden a vivir vidas más cortas y la mayoría de ellas mueren mucho antes de los 80 años, lo que da una probabilidad muy pequeña de ellos murieron a los 80 mientras que suficientes personas en el grupo A viven hasta los 80 que un buen número de ellos morirá a esa edad dando una probabilidad mucho mayor de muerte a esa edad. Entonces, la misma afirmación podría significar que estar en el grupo A es mejor o peor que estar en el grupo B. Lo que tiene más sentido es decir, de aquellas personas (en cada grupo) que vivieron hasta los 80, qué proporción morirá antes de cumplir los 81 años. Ese es el peligro (y el peligro es una función de la función de distribución / función de supervivencia / etc.). Es más fácil trabajar con el peligro en el modelo semiparamétrico y luego puede brindarle información sobre la distribución.

Greg Snow
fuente
77
Buena respuesta. Lo que es único sobre el tiempo es que pasa en una dirección, y una vez que hemos resistido un período de alto riesgo, nos interesan principalmente los riesgos que están vigentes. Eso es lo que nos dice la función de peligro.
Frank Harrell
2
Otro punto que vale la pena agregar es que con los datos censurados, la inspección de los supuestos de distribución puede ser muy difícil. Por ejemplo, suponga que solo el 20% de sus sujetos observan un evento. ¡Intentar determinar si las colas de la distribución siguen una distribución de Weibull claramente no será posible! Un modelo de Cox-PH deja de lado el problema (pero hay que tener mucho cuidado con el supuesto de riesgos proporcionales si se quiere extrapolar a las áreas de tiempos que fueron altamente censurados)
Cliff AB
16

"Nosotros" no necesariamente. La gama de herramientas de análisis de supervivencia abarca desde los no totalmente paramétricos, como el método de Kaplan-Meier, hasta los modelos completamente paramétricos donde se especifica la distribución del peligro subyacente. Cada uno tiene sus ventajas y desventajas.

Los métodos semiparamétricos, como el modelo de riesgos proporcionales de Cox, le permiten evitar especificar la función de riesgo subyacente. Esto puede ser útil, ya que no siempre conocemos la función de riesgo subyacente y en muchos casos tampoco nos importa . Por ejemplo, muchos estudios epidemiológicos quieren saber "¿La exposición X disminuye el tiempo hasta el evento Y?" Lo que les importa es la diferencia en los pacientes que tienen X y que no tienen X. En ese caso, el peligro subyacente realmente no importa, y el riesgo de especificarlo de forma errónea es peor que las consecuencias de no saberlo.

Sin embargo, hay momentos en que esto tampoco es cierto. He trabajado con modelos totalmente paramétricos porque el peligro subyacente era de interés.

Fomite
fuente
1
"... y el riesgo de especificar mal es peor que las consecuencias de no saberlo". Esto fue muy útil, gracias.
¿Podría dar un ejemplo de cuándo sería interesante el peligro subyacente?
Dan Chaltiel
1
@DanChaltiel Cualquier estimación que tenga la intención de entrar en un modelo matemático o similar sería un ejemplo: la función de riesgo subyacente allí es de particular interés.
Fomite