Intuición para la función de riesgo acumulativo (análisis de supervivencia)

17

Estoy tratando de obtener una intuición para cada una de las funciones principales de la ciencia actuarial (específicamente para el Modelo de riesgos proporcionales de Cox). Esto es lo que tengo hasta ahora:

  • : comenzando a la hora de inicio, la distribución de probabilidad de cuándo morirás.f(x)
  • : solo la distribución acumulativa. En el momento T , ¿qué porcentaje de la población estará muerto?F(x)T
  • : 1 - F ( x ) . En el momento T , ¿qué porcentaje de la población estará vivo?S(x)1F(x)T
  • : función de peligro. En un momento dado T , de las personas que aún están vivas, esto se puede usar para estimar cuántas personas morirán en el próximo intervalo de tiempo, o si el intervalo-> 0, la probabilidad de muerte 'instantánea'.h(x)T
  • : peligro acumulado. Ni idea.H(x)

¿Cuál es la idea detrás de combinar valores de peligro, especialmente cuando son continuos? Si usamos un ejemplo discreto con tasas de mortalidad en cuatro estaciones, y la función de peligro es la siguiente:

  • A partir de la primavera, todos están vivos y el 20% morirá.
  • Ahora en verano, de los restantes, el 50% morirá
  • Ahora en otoño, de los restantes, el 75% morirá
  • La temporada final es el invierno. De los restantes, el 100% morirá

¿Entonces el riesgo acumulativo es 20%, 70%, 145%, 245%? ¿Qué significa eso y por qué es útil?

Jon
fuente
1
Sus deben ser x , o viceversa. Tx
Glen_b: reinstala a Monica
55
Con respecto a , tiene un error (aunque es una confusión muy común). Escribe "intervalo-> 0, probabilidad de muerte 'instantánea'". Una declaración correcta sería " tasa de mortalidad instantánea ". Esto no puede ser una probabilidad porque es una probabilidad dividida por d t ; Además, podría ser> 1. h(x)dt
gung - Restablece a Monica

Respuestas:

6

Combinar las proporciones de morir como lo hace no le da un riesgo acumulativo. La tasa de riesgo en tiempo continuo es una probabilidad condicional de que durante un intervalo muy corto ocurra un evento:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

El riesgo acumulado es la tasa de riesgo integrador (instantáneo) a lo largo de las edades / tiempo. Es como resumir las probabilidades, pero dado que es muy pequeño, estas probabilidades también son números pequeños (por ejemplo, la tasa de riesgo de muerte puede ser de alrededor de 0.004 a las edades de alrededor de 30). La tasa de riesgo está condicionada a no haber experimentado el evento antes de t , por lo que para una población puede sumar más de 1.Δtt

Puede buscar alguna tabla de vida de mortalidad humana, aunque esta es una formulación de tiempo discreto, y tratar de acumular .mx

Si usa R, aquí hay un pequeño ejemplo de aproximación de estas funciones a partir del número de muertes en cada intervalo de edad de 1 año:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

Espero que esto ayude.

martín
fuente
¿Es correcto decir que h (t) * dt es la probabilidad de que ocurra un evento en un intervalo de longitud dt alrededor de t? por lo tanto, el valor h (t) es la probabilidad de que ocurra un evento dentro de 1 unidad de tiempo centrada alrededor de t. Este solo sería el caso si h (t) <= 1
cuervo
10

El libro "Una introducción al análisis de supervivencia usando Stata" (2ª edición) de Mario Cleves tiene un buen capítulo sobre ese tema.

Puede encontrar el capítulo en google books , pág. 13-15. Pero yo recomendaría leer todo el capítulo 2.

Aquí está la forma corta:

  • "mide la cantidad total de riesgo que se ha acumulado hasta el tiempo t" (p. 8)
  • interpretación de datos de conteo: "da el número de veces que esperaríamos (matemáticamente) observar fallas [u otros eventos] durante un período dado, si solo el evento de falla fuera repetible" (p. 13)
elevendollar
fuente
5

Me PELIGRO una conjetura que es digno de mención debido a su uso en gráficos de diagnóstico:

h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x)x

h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^, siempre que la suposición de Weibull sea correcta. Y, por supuesto, una pendiente cercana a 1 sugiere que un modelo exponencial podría encajar.

H(x) is the expected number of deaths of an individual up to time x if the individual were to be resurrected after each death (without resetting time to zero).

Scortchi - Reinstate Monica
fuente
3

Al parafrasear lo que dice @Scortchi, enfatizaría que la función de riesgo acumulativo no tiene una buena interpretación, y como tal no trataría de usarla como una forma de interpretar los resultados; decirle a un investigador no estadístico que los riesgos acumulativos son diferentes probablemente dará como resultado una respuesta "mm-hm" y que nunca más volverán a preguntar sobre el tema, y ​​no en el buen sentido.

Sin embargo, la función de riesgo acumulativo resulta ser matemáticamente muy útil, como una forma general de vincular la función de riesgo y la función de supervivencia. Por lo tanto, es importante saber cuál es el riesgo acumulativo y cómo se puede usar en varios métodos estadísticos. Pero, en general, no creo que sea particularmente útil pensar en datos reales en términos de riesgos acumulativos.

Cliff AB
fuente