Tengo un experimento que producirá observaciones del tiempo hasta que ocurra un evento. Algunas propiedades básicas son que
- Contamos el número de eventos que ocurrieron en algún momento .
- Los tiempos de evento son censurados por intervalo, entre ,
- Los individuos no abandonarán la prueba entre , es decir, un individuo experimenta el evento por o no, en cuyo punto son censurados,
- Una gran proporción de los individuos no recibirá el evento por , cuando finalicemos el experimento, y
- No puedo asumir ningún modelo de decaimiento paramétrico subyacente.
Parece ser una aplicación natural para el análisis de supervivencia. Sin embargo, es complicado por el hecho de que es trivial repetir el experimento desde la misma configuración inicial varias veces. En efecto, tendremos un conjunto de recuentos de eventos (donde es el número de muestras) para cada tiempo de observación . Soy relativamente nuevo en estadísticas y me cuesta ver cómo aplicar el análisis de supervivencia a estos datos (si es aplicable y no existen métodos más apropiados para medir este tipo de datos de tiempo hasta el evento). Mi inclinación es construir la función de supervivencia alrededor del número medio de eventos observados en cada intervalo (es decir,), que debería aproximarse mejor al número esperado de eventos en cada intervalo de la población, sin embargo, no tengo idea de si esto es apropiado o de sus implicaciones.
He buscado en vano en Google Académico, si alguien pudiera señalarme más material (o darme la nomenclatura correcta para lo que estoy tratando de hacer), sería apreciado.
Editar
Dado que los intervalos son uniformes en todas las muestras, digamos que tenía la siguiente matriz que describe el número acumulado de individuos para los cuales ha ocurrido un evento en cada intervalo
donde cada fila proporciona el recuento de eventos para el mismo conjunto de individuos en riesgo en en todas las muestras (es decir, múltiples instancias del experimento), y cada columna es un intervalo de observación. Supongo que al tomar el número medio de eventos para cada intervalo, puedo obtener una mejor estimación de la supervivencia de la población esperada, así que denote el número de intervalos de tiempo, denote el número de muestras (instancias de experimento), luego el vector
será el número medio de eventos observados para cada intervalo de tiempo.
Mi objetivo, entonces, es usar esto como la entrada para la estimación de supervivencia. Sea el número de individuos en riesgo cuando . Usando el estimador ingenuo (por ahora, dado que los intervalos de eventos son uniformes en todas las muestras y no hay censura hasta ), la función de supervivencia podría estimarse como:
Lo cual (con suerte) sería una mejor estimación de la supervivencia de la población que cualquier muestra individual (una sola fila de ). Para reformular mi pregunta:
- ¿Es una entrada apropiada para una estimación de la función de supervivencia? No he visto este enfoque en ninguno de los materiales que he leído.
- Como soy realmente, dolorosamente un novato en estadística, ¿alguien puede señalarme algún material (documentos académicos, libros de texto, wikis, etc. estaría bien) para estimar el intervalo de confianza y la varianza para esta estimación de la función de supervivencia? Supongo que no será idéntico a las formulaciones estándar.
Disculpas si mi pregunta original era confusa, probablemente no incluí suficiente información.
Respuestas:
Recientemente tuve un conjunto de datos de supervivencia censurados por intervalos, por lo que sé exactamente lo que necesita. Si alguna vez ha usado
R
, esto debería ayudar.Si no desea asumir una forma paramétrica, ¿qué tal un modelo de riesgos proporcionales de Cox censurado por intervalos? El
intcox
paquete que haría esto ya no está en elR
repositorio. Sugeriría imputar tiempos de supervivencia y luego usar lacoxph
función de lasurvival
biblioteca. Tenga en cuenta que sus errores estándar serán demasiado bajos con este método; No ha tenido en cuenta la incertidumbre de no saber el tiempo exacto de supervivencia. Si desea estimaciones de supervivencia censuradas por intervalos, use laicfit
función delinterval
paquete.Otra forma de analizar el efecto de las covariables en el tiempo de supervivencia es mediante el uso de regresión no paramétrica censurada por intervalos. Vea el
R
paqueteICE
: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Primero debe imputar los puntos medios del tiempo de supervivencia, luego realiza una regresión lineal local utilizando lalocpoly
función delnp
paquete. No es tan difícil como parece.fuente
La función de supervivencia suele ser derecha-continua ya que es una función de distribución, utilizaréunak: = [tk - 1,tk) , k = 1 , 2 , ⋯ , n como el intervalo
DejarTyo j y Cyo j ser el verdadero tiempo de supervivencia y censura continua para el sujeto j en la muestra yo , respectivamente. Es posible que ambas variables no se observen directamente, pero solo en uno de los intervalosuna1,una2, ⋯ . Además, dejaXyo j denotar el intervalo dentro del cual Tyo j caídas, esencialmente un tiempo de supervivencia discreto, y de manera similar Cyo j para Cyo j . Entonces el indicador de censura viene dado porδyo j= 1 (Xyo j≤Cyo j) .
La función de peligrohyo j( x ) para el tiempo de supervivencia discreto se define como la probabilidad condicional del evento que ocurre en el X Intervalo de tiempo dado que no ha ocurrido antes de la x - 1 intervalo th, es decir
y la función de supervivencia correspondienteSyo j= P( X> x ) se puede escribir de forma recursiva utilizando la ley de producto condicional:
La función de probabilidad del par(Xyo j,δyo j) puede construirse como el producto de dos tipos de temas, a saber, aquellos que experimentaron un evento en Xyo j (Xyo j=Xyo j,δyo j= 1 ) y aquellos que fueron censurados en Xyo j (Xyo j>Xyo j,δyo j= 0 ):
Ahora, si reconstruimos nuestros datos en la estructura del historial de eventos, es decir, en cada intervalo, una variable indicadora de eventosyi j k Para el k intervalo de la j th sujeto de la muestra yo , Podemos ver eso δyo jIniciar sesión[hyo j(Xyo j) / ( 1 -hyo j(Xyo j) ] en lo anterior reescrito en ∑Xyo jk = 1yi j kIniciar sesión[hyo j( k ) / ( 1 -hyo j( k ) ) ] (básicamente resumiendo todos los 0 hasta el último intervalo observado de este tema, si tiene evento, será 1, si censuró 0). Entonces podemos reescribir nuestro log-verosimilitud como
Ahora finalmente podemos responder a su pregunta. Si asumiéramos, que en el mismo intervalo,yi j k es iid para un tema diferentej en la muestra yo , y también a través de diferentes muestras, entonces METROj¯= (∑yonorteyo)- 1∑si = 1∑norteyoj = 1yi j k es el estimador apropiado para hyo j( k ) = h ( k ) .
Y el estimador apropiado paraS( x ) es, por lo tanto S^( x ) =∏Xk = 1( 1 -METRO¯j) .
fuente