Aplicación apropiada del análisis de supervivencia

Tengo un experimento que producirá observaciones del tiempo hasta que ocurra un evento. Algunas propiedades básicas son que

Contamos el número de eventos que ocurrieron en algún momento . $t_1,...,t_n$
Los tiempos de evento son censurados por intervalo, entre , $(t-1,t]$
Los individuos no abandonarán la prueba entre , es decir, un individuo experimenta el evento por o no, en cuyo punto son censurados, $t_1,...t_n$ $t_1$
Una gran proporción de los individuos no recibirá el evento por , cuando finalicemos el experimento, y $t_n$
No puedo asumir ningún modelo de decaimiento paramétrico subyacente.

Parece ser una aplicación natural para el análisis de supervivencia. Sin embargo, es complicado por el hecho de que es trivial repetir el experimento desde la misma configuración inicial varias veces. En efecto, tendremos un conjunto de recuentos de eventos (donde es el número de muestras) para cada tiempo de observación . Soy relativamente nuevo en estadísticas y me cuesta ver cómo aplicar el análisis de supervivencia a estos datos (si es aplicable y no existen métodos más apropiados para medir este tipo de datos de tiempo hasta el evento). Mi inclinación es construir la función de supervivencia alrededor del número medio de eventos observados en cada intervalo (es decir, $m_{1,...,s}$ $s$ $t_i$ $\bar{m}_{1,...,n}$ ), que debería aproximarse mejor al número esperado de eventos en cada intervalo de la población, sin embargo, no tengo idea de si esto es apropiado o de sus implicaciones.

He buscado en vano en Google Académico, si alguien pudiera señalarme más material (o darme la nomenclatura correcta para lo que estoy tratando de hacer), sería apreciado.

Editar

Dado que los intervalos son uniformes en todas las muestras, digamos que tenía la siguiente matriz que describe el número acumulado de individuos para los cuales ha ocurrido un evento en cada intervalo $(t-1, t]$

$M = \left(\begin{array}{ccc} 0 & 24 & 35 & 52 & 60 & 71 \\ 0 & 22 & 38 & 57 & 64 & 75 \\ 0 & 26 & 34 & 55 & 62 & 72 \\ 0 & 21 & 32 & 52 & 61 & 73 \end{array}\right)$

donde cada fila proporciona el recuento de eventos para el mismo conjunto de individuos en riesgo en en todas las muestras (es decir, múltiples instancias del experimento), y cada columna es un intervalo de observación. Supongo que al tomar el número medio de eventos para cada intervalo, puedo obtener una mejor estimación de la supervivencia de la población esperada, así que denote el número de intervalos de tiempo, denote el número de muestras (instancias de experimento), luego el vector $t=0$ $n$ $s$

$\bar{M} = \left[ {{\sum_{i=1}^{s}M_{it}}\over{s}} \right]_{t=1...n}$

será el número medio de eventos observados para cada intervalo de tiempo.

Mi objetivo, entonces, es usar esto como la entrada para la estimación de supervivencia. Sea el número de individuos en riesgo cuando . Usando el estimador ingenuo (por ahora, dado que los intervalos de eventos son uniformes en todas las muestras y no hay censura hasta ), la función de supervivencia podría estimarse como: $f$ $t=0$ $t_n$

$S(t) = {{f - \bar{M}_t}\over{f}}$

Lo cual (con suerte) sería una mejor estimación de la supervivencia de la población que cualquier muestra individual (una sola fila de ). Para reformular mi pregunta: $M$

¿Es una entrada apropiada para una estimación de la función de supervivencia? No he visto este enfoque en ninguno de los materiales que he leído. $\bar{M}$
Como soy realmente, dolorosamente un novato en estadística, ¿alguien puede señalarme algún material (documentos académicos, libros de texto, wikis, etc. estaría bien) para estimar el intervalo de confianza y la varianza para esta estimación de la función de supervivencia? Supongo que no será idéntico a las formulaciones estándar.

Disculpas si mi pregunta original era confusa, probablemente no incluí suficiente información.

survival Joachim Ziemssen
fuente

No estoy entendiendo qué es lo que te está confundiendo. ¿Por qué le preocupa que el análisis de supervivencia no sea apropiado aquí? ¿Es que solo estás mirando a intervalos de tiempo discretos?

gung - Restablece a Monica

Estoy realmente confundido al tener múltiples conteos de eventos observados para cada intervalo. Todos los libros que he leído, en particular (Kleinbaum y Klein, 2012), esperan que construyas tu función de supervivencia para una sola muestra. De hecho, estoy tomando varias muestras de la población y tratando de estimar la verdadera función de supervivencia de la población, que luego compararé entre las poblaciones bajo diferentes tratamientos utilizando la prueba logrank (ya que todavía no estoy introduciendo variables explicativas). Para cada muestra,

m_{1}, . . ., s

$m_1,...,s$ mostrará tasas de descomposición ligeramente diferentes para los mismos individuos.

Joachim Ziemssen

Respuestas:

Recientemente tuve un conjunto de datos de supervivencia censurados por intervalos, por lo que sé exactamente lo que necesita. Si alguna vez ha usado R, esto debería ayudar.

Si no desea asumir una forma paramétrica, ¿qué tal un modelo de riesgos proporcionales de Cox censurado por intervalos? El intcoxpaquete que haría esto ya no está en el Rrepositorio. Sugeriría imputar tiempos de supervivencia y luego usar la coxphfunción de la survivalbiblioteca. Tenga en cuenta que sus errores estándar serán demasiado bajos con este método; No ha tenido en cuenta la incertidumbre de no saber el tiempo exacto de supervivencia. Si desea estimaciones de supervivencia censuradas por intervalos, use la icfitfunción del intervalpaquete.

Otra forma de analizar el efecto de las covariables en el tiempo de supervivencia es mediante el uso de regresión no paramétrica censurada por intervalos. Vea el Rpaquete ICE: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Primero debe imputar los puntos medios del tiempo de supervivencia, luego realiza una regresión lineal local utilizando la locpolyfunción del nppaquete. No es tan difícil como parece.

wcampbell
fuente

Gracias, estoy usando R / Mathematica, y probablemente terminaré usando esos paquetes (¡y no había oído hablar de intcox!) Cuando se trata de hacer esto realmente. Por ahora, sin embargo, mi problema (que he agregado a la pregunta) es tener múltiples muestras de la descomposición de los mismos individuos durante el mismo período de tiempo. Piense en ello como repetir un experimento

s

$s$ veces, estoy tratando de usar esos datos para estimar mejor la función de supervivencia.

Joachim Ziemssen

Creo que también estamos confundidos: ¿cómo puede el mismo individuo tener múltiples tasas de descomposición? Una observación no puede tener múltiples valores para una sola variable dependiente. Creo que deberías tratarlos como observaciones separadas. De todos modos, no debería haber ningún problema al usar

\bar{M}

$\bar{M}$ como su estimación de supervivencia para esa observación.

wcampbell

Problema interesante ... usaría

\bar{M}

$\bar{M}$ como datos de supervivencia, pero probablemente quieras hablar sobre la variación de los tiempos de descomposición para la misma computadora.

wcampbell

¡Es problemático que sea un problema interesante! Seguiré trabajando en esto y veré la variación, muchas gracias por el consejo.

Joachim Ziemssen

La función de supervivencia suele ser derecha-continua ya que es una función de distribución, utilizaré $a_k:=[t_{k-1}, t_k),k=1,2,\cdots,n$ como el intervalo

Dejar $T_{ij}$ y $C_{ij}$ ser el verdadero tiempo de supervivencia y censura continua para el sujeto $j$ en la muestra $i$ , respectivamente. Es posible que ambas variables no se observen directamente, pero solo en uno de los intervalos $a_1,a_2,\cdots$ . Además, deja $X_{ij}$ denotar el intervalo dentro del cual $T_{ij}$ caídas, esencialmente un tiempo de supervivencia discreto, y de manera similar $\mathcal{C}_{ij}$ para $C_{ij}$ . Entonces el indicador de censura viene dado por $\delta_{ij}=\mathbf{1}(X_{ij} \le \mathcal{C}_{ij})$ .

La función de peligro $h_{ij}(x)$ para el tiempo de supervivencia discreto se define como la probabilidad condicional del evento que ocurre en el $x$ Intervalo de tiempo dado que no ha ocurrido antes de la $x-1$ intervalo th, es decir

h_{yo j} (X) = PAGS (X_{yo j} = X El | X_{yo j} \geq X)

$h_{ij}(x)=P(X_{ij}=x | X_{ij} \ge x)$

y la función de supervivencia correspondiente $S_{ij}=P(X>x)$ se puede escribir de forma recursiva utilizando la ley de producto condicional:

S_{yo j} (X) = PAGS (X_{yo j} > X El | X_{yo j} \geq X) \dots PAGS (X_{yo j} > 1 El | X_{yo j} \geq 1) = \prod_{metro = 1}^{X} (1 - h_{yo j} (metro))

$S_{ij}(x)=P(X_{ij}>x | X_{ij}\ge x)\cdots P(X_{ij}>1 | X_{ij} \ge 1)=\prod_{m=1}^x (1-h_{ij}(m))$

La función de probabilidad del par $(x_{ij},\delta_{ij})$ puede construirse como el producto de dos tipos de temas, a saber, aquellos que experimentaron un evento en $x_{ij}$ ( $X_{ij}=x_{ij},\delta_{ij}=1$ ) y aquellos que fueron censurados en $x_{ij}$ ( $X_{ij}>x_{ij},\delta_{ij}=0$ ):

\begin{aligned} L & = \prod_{yo = 1}^{s} \prod_{j = 1}^{{norte}_{yo}} [PAGS (X_{yo j} = X_{yo j})]^{δ_{yo j}} [PAGS (X_{yo j} > X_{yo j})]^{1 - δ_{yo j}} \\ = \prod_{yo = 1}^{s} \prod_{j = 1}^{{norte}_{yo}} {{(h_{yo j} (X_{yo j}) \prod_{metro = 1}^{X_{yo j} - 1} [1 - h_{yo j} (metro)])}^{δ_{yo j}} {(\prod_{metro = 1}^{X_{yo j}} [1 - h_{yo j} (metro)])}^{1 - δ_{yo j}}} \\ = \prod_{yo = 1}^{s} \prod_{j = 1}^{{norte}_{yo}} {{[\frac{h_{yo j} (X_{yo j})}{1 - h_{yo j} (X_{yo j})}]}^{δ_{yo j}} \prod_{metro = 1}^{X_{yo j}} [1 - h_{yo j} (metro)]} . \end{aligned}

$\begin{split} \mathcal{L} &= \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}[P(X_{ij}=x_{ij})]^{\delta_{ij}}[P(X_{ij}>x_{ij})]^{1-\delta_{ij}}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left(h_{ij}(x_{ij})\prod_{m=1}^{x_{ij}-1}[1-h_{ij}(m)]\right)^{\delta_{ij}}\left( \prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right)^{1-\delta_{ij}}\right\}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}\right]^{\delta_{ij}}\prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right\}. \end{split}$ y la función de log-verosimilitud correspondiente es:

ℓ = \sum_{yo = 1}^{METRO} \sum_{j = 1}^{{norte}_{yo}} {δ_{yo j} Iniciar sesión [\frac{h_{yo j} (X_{yo j})}{1 - h_{yo j} (X_{yo j})}] + \sum_{metro = 1}^{X_{yo j}} Iniciar sesión [1 - h_{yo j} (metro)]}

$\ell=\sum_{i=1}^{M}\sum_{j=1}^{n_{i}}\left\{\delta_{ij}\log[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}]+\sum_{m=1}^{x_{ij}}\log[1-h_{ij}(m)]\right\}$

Ahora, si reconstruimos nuestros datos en la estructura del historial de eventos, es decir, en cada intervalo, una variable indicadora de eventos $y_{ijk}$ Para el $k$ intervalo de la $j$ th sujeto de la muestra $i$ , Podemos ver eso $\delta_{ij}\log[h_{ij}(x_{ij})/(1-h_{ij}(x_{ij})]$ en lo anterior reescrito en $\sum_{k=1}^{x_{ij}}y_{ijk} \log[h_{ij}(k)/(1-h_{ij}(k))]$ (básicamente resumiendo todos los 0 hasta el último intervalo observado de este tema, si tiene evento, será 1, si censuró 0). Entonces podemos reescribir nuestro log-verosimilitud como

ℓ = \sum_{yo = 1}^{s} \sum_{j = 1}^{{norte}_{yo}} \sum_{k = 1}^{X_{yo j}} {y_{yo j k} Iniciar sesión h_{yo j} (k) + (1 - y_{yo j k}) Iniciar sesión [1 - h_{yo j} (k)]} .

$\ell=\sum_{i=1}^s \sum_{j=1}^{n_i} \sum_{k=1}^{x_{ij}} \left\{ y_{ijk} \log h_{ij}(k) + (1 - y_{ijk}) \log [1 - h_{ij}(k)] \right\}.$ Esto es idéntico a la probabilidad logarítmica de una variable aleatoria binaria

y_{i j k}

$y_{ijk}$ , pero ahora con la proporción

p_{i j k}

$p_{ijk}$ para un evento en intervalo

k

$k$ definido por

h_{i j} (k)

$h_{ij}(k)$ .

Ahora finalmente podemos responder a su pregunta. Si asumiéramos, que en el mismo intervalo, $y_{ijk}$ es iid para un tema diferente $j$ en la muestra $i$ , y también a través de diferentes muestras, entonces $\bar{M_j}=(\sum_i n_i)^{-1}\sum_{i=1}^{s}\sum_{j=1}^{n_i}y_{ijk}$ es el estimador apropiado para $h_{ij}(k)=h(k)$ .

Y el estimador apropiado para $S(x)$ es, por lo tanto $\hat{S}(x)=\prod_{k=1}^{x}(1-\bar{M}_j)$ .

jujae
fuente