Aplicación apropiada del análisis de supervivencia

8

Tengo un experimento que producirá observaciones del tiempo hasta que ocurra un evento. Algunas propiedades básicas son que

  1. Contamos el número de eventos que ocurrieron en algún momento .t1,...,tnorte
  2. Los tiempos de evento son censurados por intervalo, entre ,(t-1,t]
  3. Los individuos no abandonarán la prueba entre , es decir, un individuo experimenta el evento por o no, en cuyo punto son censurados,t1,...tnortet1
  4. Una gran proporción de los individuos no recibirá el evento por , cuando finalicemos el experimento, ytnorte
  5. No puedo asumir ningún modelo de decaimiento paramétrico subyacente.

Parece ser una aplicación natural para el análisis de supervivencia. Sin embargo, es complicado por el hecho de que es trivial repetir el experimento desde la misma configuración inicial varias veces. En efecto, tendremos un conjunto de recuentos de eventos (donde es el número de muestras) para cada tiempo de observación . Soy relativamente nuevo en estadísticas y me cuesta ver cómo aplicar el análisis de supervivencia a estos datos (si es aplicable y no existen métodos más apropiados para medir este tipo de datos de tiempo hasta el evento). Mi inclinación es construir la función de supervivencia alrededor del número medio de eventos observados en cada intervalo (es decir,metro1,...,sstyometro¯1,...,norte), que debería aproximarse mejor al número esperado de eventos en cada intervalo de la población, sin embargo, no tengo idea de si esto es apropiado o de sus implicaciones.

He buscado en vano en Google Académico, si alguien pudiera señalarme más material (o darme la nomenclatura correcta para lo que estoy tratando de hacer), sería apreciado.

Editar

Dado que los intervalos son uniformes en todas las muestras, digamos que tenía la siguiente matriz que describe el número acumulado de individuos para los cuales ha ocurrido un evento en cada intervalo(t-1,t]

METRO=(0 024355260 60710 022385764750 026345562720 02132526173)

donde cada fila proporciona el recuento de eventos para el mismo conjunto de individuos en riesgo en en todas las muestras (es decir, múltiples instancias del experimento), y cada columna es un intervalo de observación. Supongo que al tomar el número medio de eventos para cada intervalo, puedo obtener una mejor estimación de la supervivencia de la población esperada, así que denote el número de intervalos de tiempo, denote el número de muestras (instancias de experimento), luego el vectort=0 0nortes

METRO¯=[yo=1sMETROyots]t=1 ...norte

será el número medio de eventos observados para cada intervalo de tiempo.

Mi objetivo, entonces, es usar esto como la entrada para la estimación de supervivencia. Sea el número de individuos en riesgo cuando . Usando el estimador ingenuo (por ahora, dado que los intervalos de eventos son uniformes en todas las muestras y no hay censura hasta ), la función de supervivencia podría estimarse como:Ft=0 0tnorte

S(t)=F-METRO¯tF

Lo cual (con suerte) sería una mejor estimación de la supervivencia de la población que cualquier muestra individual (una sola fila de ). Para reformular mi pregunta:METRO

  1. ¿Es una entrada apropiada para una estimación de la función de supervivencia? No he visto este enfoque en ninguno de los materiales que he leído.METRO¯
  2. Como soy realmente, dolorosamente un novato en estadística, ¿alguien puede señalarme algún material (documentos académicos, libros de texto, wikis, etc. estaría bien) para estimar el intervalo de confianza y la varianza para esta estimación de la función de supervivencia? Supongo que no será idéntico a las formulaciones estándar.

Disculpas si mi pregunta original era confusa, probablemente no incluí suficiente información.

Joachim Ziemssen
fuente
No estoy entendiendo qué es lo que te está confundiendo. ¿Por qué le preocupa que el análisis de supervivencia no sea apropiado aquí? ¿Es que solo estás mirando a intervalos de tiempo discretos?
gung - Restablece a Monica
Estoy realmente confundido al tener múltiples conteos de eventos observados para cada intervalo. Todos los libros que he leído, en particular (Kleinbaum y Klein, 2012), esperan que construyas tu función de supervivencia para una sola muestra. De hecho, estoy tomando varias muestras de la población y tratando de estimar la verdadera función de supervivencia de la población, que luego compararé entre las poblaciones bajo diferentes tratamientos utilizando la prueba logrank (ya que todavía no estoy introduciendo variables explicativas). Para cada muestra,m1,...,smostrará tasas de descomposición ligeramente diferentes para los mismos individuos.
Joachim Ziemssen

Respuestas:

5

Recientemente tuve un conjunto de datos de supervivencia censurados por intervalos, por lo que sé exactamente lo que necesita. Si alguna vez ha usado R, esto debería ayudar.

Si no desea asumir una forma paramétrica, ¿qué tal un modelo de riesgos proporcionales de Cox censurado por intervalos? El intcoxpaquete que haría esto ya no está en el Rrepositorio. Sugeriría imputar tiempos de supervivencia y luego usar la coxphfunción de la survivalbiblioteca. Tenga en cuenta que sus errores estándar serán demasiado bajos con este método; No ha tenido en cuenta la incertidumbre de no saber el tiempo exacto de supervivencia. Si desea estimaciones de supervivencia censuradas por intervalos, use la icfitfunción del intervalpaquete.

Otra forma de analizar el efecto de las covariables en el tiempo de supervivencia es mediante el uso de regresión no paramétrica censurada por intervalos. Vea el Rpaquete ICE: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Primero debe imputar los puntos medios del tiempo de supervivencia, luego realiza una regresión lineal local utilizando la locpolyfunción del nppaquete. No es tan difícil como parece.

wcampbell
fuente
Gracias, estoy usando R / Mathematica, y probablemente terminaré usando esos paquetes (¡y no había oído hablar de intcox!) Cuando se trata de hacer esto realmente. Por ahora, sin embargo, mi problema (que he agregado a la pregunta) es tener múltiples muestras de la descomposición de los mismos individuos durante el mismo período de tiempo. Piense en ello como repetir un experimentosveces, estoy tratando de usar esos datos para estimar mejor la función de supervivencia.
Joachim Ziemssen
Creo que también estamos confundidos: ¿cómo puede el mismo individuo tener múltiples tasas de descomposición? Una observación no puede tener múltiples valores para una sola variable dependiente. Creo que deberías tratarlos como observaciones separadas. De todos modos, no debería haber ningún problema al usarMETRO¯como su estimación de supervivencia para esa observación.
wcampbell
Problema interesante ... usaría M¯como datos de supervivencia, pero probablemente quieras hablar sobre la variación de los tiempos de descomposición para la misma computadora.
wcampbell
¡Es problemático que sea un problema interesante! Seguiré trabajando en esto y veré la variación, muchas gracias por el consejo.
Joachim Ziemssen
0

La función de supervivencia suele ser derecha-continua ya que es una función de distribución, utilizaré unak: =[tk-1,tk),k=1,2,,norte como el intervalo

Dejar Tyoj y Cyoj ser el verdadero tiempo de supervivencia y censura continua para el sujeto j en la muestra yo, respectivamente. Es posible que ambas variables no se observen directamente, pero solo en uno de los intervalosuna1,una2,. Además, dejaXyoj denotar el intervalo dentro del cual Tyoj caídas, esencialmente un tiempo de supervivencia discreto, y de manera similar Cyoj para Cyoj. Entonces el indicador de censura viene dado porδyoj=1(XyojCyoj).

La función de peligro hyoj(X) para el tiempo de supervivencia discreto se define como la probabilidad condicional del evento que ocurre en el XIntervalo de tiempo dado que no ha ocurrido antes de la X-1intervalo th, es decir

hyoj(X)=PAGS(Xyoj=XEl |XyojX)

y la función de supervivencia correspondiente Syoj=PAGS(X>X) se puede escribir de forma recursiva utilizando la ley de producto condicional:

Syoj(X)=PAGS(Xyoj>XEl |XyojX)PAGS(Xyoj>1El |Xyoj1)=metro=1X(1-hyoj(metro))

La función de probabilidad del par (Xyoj,δyoj) puede construirse como el producto de dos tipos de temas, a saber, aquellos que experimentaron un evento en Xyoj (Xyoj=Xyoj,δyoj=1) y aquellos que fueron censurados en Xyoj (Xyoj>Xyoj,δyoj=0 0):

L=yo=1sj=1norteyo[PAGS(Xyoj=Xyoj)]δyoj[PAGS(Xyoj>Xyoj)]1-δyoj=yo=1sj=1norteyo{(hyoj(Xyoj)metro=1Xyoj-1[1-hyoj(metro)])δyoj(metro=1Xyoj[1-hyoj(metro)])1-δyoj}=yo=1sj=1norteyo{[hyoj(Xyoj)1-hyoj(Xyoj)]δyojmetro=1Xyoj[1-hyoj(metro)]}.
y la función de log-verosimilitud correspondiente es:

=yo=1METROj=1norteyo{δyojIniciar sesión[hyoj(Xyoj)1-hyoj(Xyoj)]+metro=1XyojIniciar sesión[1-hyoj(metro)]}

Ahora, si reconstruimos nuestros datos en la estructura del historial de eventos, es decir, en cada intervalo, una variable indicadora de eventos yyojk Para el kintervalo de la jth sujeto de la muestra yo, Podemos ver eso δyojIniciar sesión[hyoj(Xyoj)/ /(1-hyoj(Xyoj)] en lo anterior reescrito en k=1XyojyyojkIniciar sesión[hyoj(k)/ /(1-hyoj(k))](básicamente resumiendo todos los 0 hasta el último intervalo observado de este tema, si tiene evento, será 1, si censuró 0). Entonces podemos reescribir nuestro log-verosimilitud como

=yo=1sj=1norteyok=1Xyoj{yyojkIniciar sesiónhyoj(k)+(1-yyojk)Iniciar sesión[1-hyoj(k)]}.
Esto es idéntico a la probabilidad logarítmica de una variable aleatoria binaria yyojk, pero ahora con la proporción pagsyojk para un evento en intervalo k definido por hyoj(k).

Ahora finalmente podemos responder a su pregunta. Si asumiéramos, que en el mismo intervalo,yyojkes iid para un tema diferentej en la muestra yo, y también a través de diferentes muestras, entonces METROj¯=(yonorteyo)-1yo=1sj=1norteyoyyojk es el estimador apropiado para hyoj(k)=h(k).

Y el estimador apropiado para S(X) es, por lo tanto S^(X)=k=1X(1-METRO¯j).

jujae
fuente