Censura de intervalo

Corrí una curva de supervivencia de censura de intervalo con R, JMP y SAS. Ambos me dieron gráficos idénticos, pero las tablas diferían un poco. Esta es la tabla que me dio JMP.

Start Time  End Time    Survival    Failure SurvStdErr
.            14.0000      1.0000     0.0000     0.0000
16.0000      21.0000      0.5000     0.5000     0.2485
28.0000      36.0000      0.5000     0.5000     0.2188
40.0000      59.0000      0.2000     0.8000     0.2828
59.0000      91.0000      0.2000     0.8000     0.1340
94.0000     .             0.0000     1.0000     0.0000

Esta es la tabla que me dio SAS:

Obs Lower Upper Probability Cum Probability Survival Prob Std.Error
1    14    16      0.5          0.5             0.5        0.1581
2    21    28      0.0          0.5             0.5        0.1581
3    36    40      0.3          0.8             0.2        0.1265
4    91    94      0.2          1.0             0.0        0.0

R tuvo un rendimiento menor. El gráfico era idéntico y el resultado era:

Interval (14,16] -> probability 0.5
Interval (36,40] -> probability 0.3
Interval (91,94] -> probability 0.2

Mis problemas son:

No entiendo las diferencias
No sé cómo interpretar los resultados ...
No entiendo la lógica detrás del método.

Si pudiera ayudarme, especialmente con la interpretación, sería de gran ayuda. Necesito resumir los resultados en un par de líneas y no estoy seguro de cómo leer las tablas.

Debo agregar que la muestra tuvo solo 10 observaciones, desafortunadamente, de intervalos en los que ocurrieron los eventos. No quería usar el método de imputación de punto medio que está sesgado. Pero tengo dos intervalos de (2,16], y la primera persona que no sobrevivió falla a los 14 en el análisis, así que no sé cómo hace lo que hace.

Grafico:

ingrese la descripción de la imagen aquí

r survival sas jmp interval-censoring usuario45442
fuente

En realidad, Ry SAScompletamente de acuerdo entre sí: SASincluye 4 intervalos en lugar de 3, ¡ pero tenga en cuenta que el CDF no cambia en el intervalo 2! De hecho, los JMPresultados también están de acuerdo, pero son un poco más difíciles de seguir.

Cliff AB

Respuestas:

El tema más importante aquí es la comprensión de la censura y qué tipo se aplica en su situación. Entonces, para sus problemas 1. y 3., comprenda el contexto de su problema. Esto lo ayudará a definir el método de censura apropiado.

La salida de R dice que el primer grupo de fallas está en el intervalo (14,16]. Esto no significa que la falla ocurrió en 14. Significa que R asumió que los datos estaban censurados a la derecha, que es la suposición más común para el análisis de supervivencia. ¿Por qué la falla se cita como un rango (14,16] en lugar de una probabilidad de 16? Probablemente se deba a una estimación del límite de confianza.

Interpretación del resultado R, que es similar a SAS: la probabilidad de falla en t = 16 es 50%, en t = 40 es 30%, en t = 94 es 20%.

Olvídate de tratar de entender el problema usando tres paquetes de análisis. Elija uno, comprenda las opciones que puede establecer para censurar y úselo. Un buen enlace para R: aquí

Gary Chung
fuente

El contexto de la pregunta es una recaída de una condición. Estoy interesado en el momento de la recaída. Desafortunadamente, las visitas de seguimiento no son diarias, por lo que si en la visita número 4 ocurrió la recaída, no sé dónde sucedió entre 3 (+ un día) y 4. La censura es correcta, y entre 10 observaciones solo 1 fue censurada (94, infinito). ¿Será correcto decir que el 50% sobrevivió más de 28 días?

user45442

y una pregunta más, dado que la censura de intervalos se basa en datos desconocidos, ¿qué tan eficiente es la estimación basada en 10 observaciones? ¿Son las estimaciones realmente mejores que las que obtendría en la forma sesgada de imputación de punto medio, en la que tomo la media de cada intervalo para representar el intervalo?

user45442

No diría que el 50% sobrevivió 28 días o más, ya que no lo sabe por la misma razón de incertidumbre durante el intervalo que señaló. Puede decir que el 50% sobrevivió hasta el día 16. Con respecto al tema del intervalo, usted presenta un problema muy real que tiene que ver con la imprecisión de datos. Usar un método de imputación de punto medio tiene sentido, pero el enfoque ampliamente aceptado para su situación es la estimación de Kaplan Meier .

Gary Chung

@GaryChung: estás ignorando por completo el aspecto de censura de intervalos de estos datos.

Cliff AB