¿Cómo comparar la supervivencia media entre grupos?

12

Estoy investigando la mediana de supervivencia usando Kaplan-Meier en diferentes estados para un tipo de cáncer. Hay diferencias bastante grandes entre los estados. ¿Cómo puedo comparar la supervivencia media entre todos los estados y determinar cuáles son significativamente diferentes de la supervivencia media en todo el país?

multiple-comparisons survival Misha
fuente

¿Podría dar alguna indicación sobre el tamaño de la muestra, el período de tiempo, el porcentaje de supervivencia, etc. para que podamos tener una mejor idea del diseño de su estudio?

chl

¿Hay valores censurados en los datos, aparte de los valores más grandes?

ronaf

De hecho, hay valores censurados en los datos y la población total es de aproximadamente 1500, la supervivencia global media es de 18 meses (rango 300-600 días) ... el período de tiempo es el período 2000-2007.

Misha

6

Una cosa a tener en cuenta con la curva de supervivencia de Kaplan-Meier es que es básicamente descriptiva y no inferencial . Es solo una función de los datos, con un modelo increíblemente flexible que se encuentra detrás de ellos. Esto es una fortaleza porque significa que prácticamente no hay supuestos que puedan romperse, sino una debilidad porque es difícil generalizarlo y que se ajusta al "ruido" y a la "señal". Si desea hacer una inferencia, entonces básicamente tiene que introducir algo desconocido que desea saber.

Ahora, una forma de comparar los tiempos medios de supervivencia es hacer los siguientes supuestos:

Tengo una estimación de la mediana del tiempo de supervivencia para cada uno de los estados , dada por la curva de kaplan meier. $t_{i}$ $i$
Espero que el tiempo medio de supervivencia real, sea igual a esta estimación. $T_{i}$ $E(T_{i}|t_{i})=t_{i}$
Estoy 100% seguro de que el verdadero tiempo de supervivencia promedio es positivo. $Pr(T_{i}>0)=1$

Ahora, la forma "más conservadora" de utilizar estos supuestos es el principio de máxima entropía, por lo que obtienes:

pag (T_{yo} El | t_{yo}) = K mi X pag (- λ T_{yo})

$p(T_{i}|t_{i})= K exp(-\lambda T_{i})$

Donde se eligen y modo que el PDF se normalice, y el valor esperado es . Ahora tenemos: $K$ $\lambda$ $t_{i}$

1 = \int_{0 0}^{\infty} pag (T_{yo} El | t_{yo}) re T_{yo} = K \int_{0 0}^{\infty} mi X pag (- λ T_{yo}) re T_{yo}

$1=\int_{0}^{\infty}p(T_{i}|t_{i})dT_{i} =K \int_{0}^{\infty}exp(-\lambda T_{i})dT_{i}$

y ahora tenemos

= K {[- \frac{mi X pag (- λ T_{yo})}{λ}]}_{T_{yo} = 0 0}^{T_{yo} = \infty} = \frac{K}{λ} ⟹ K = λ

$=K \left[-\frac{exp(-\lambda T_{i})}{\lambda}\right]_{T_{i}=0}^{T_{i}=\infty}=\frac{K}{\lambda}\implies K=\lambda$

E (T_{i}) = \frac{1}{λ} ⟹ λ = t_{i}^{- 1}

$E(T_{i})=\frac{1}{\lambda}\implies \lambda=t_{i}^{-1}$

Y así tiene un conjunto de distribuciones de probabilidad para cada estado.

pag (T_{yo} El | t_{yo}) = \frac{1}{t_{yo}} mi X pag (- \frac{T_{yo}}{t_{yo}}) (yo = 1, ..., norte)

$p(T_{i}|t_{i})= \frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)\;\;\;\;\;(i=1,\dots,N)$

Que dan una distribución de probabilidad conjunta de:

pag (T_{1}, T_{2}, ..., T_{norte} El | t_{1}, t_{2}, ..., t_{norte}) = \prod_{yo = 1}^{norte} \frac{1}{t_{yo}} mi X pag (- \frac{T_{yo}}{t_{yo}})

$p(T_{1},T_{2},\dots,T_{N}|t_{1},t_{2},\dots,t_{N})= \prod_{i=1}^{N}\frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)$

Ahora parece que quiere probar la hipótesis $H_{0}:T_{1}=T_{2}=\dots=T_{N}=\overline{t}$ es la mediana del tiempo medio de supervivencia. La hipótesis alternativa severa para probar es la hipótesis de "cada estado es un copo de nieve único y hermoso" $\overline{t}=\frac{1}{N}\sum_{i=1}^{N}t_{i}$ $H_{A}:T_{1}=t_{1},\dots,T_{N}=t_{N}$

O (H_{UN} El | H_{0 0}) = \frac{pag (T_{1} = t_{1}, T_{2} = t_{2}, ..., T_{norte} = t_{norte} El | t_{1}, t_{2}, ..., t_{norte})}{pag (T_{1} = \bar{t}, T_{2} = \bar{t}, ..., T_{norte} = \bar{t} El | t_{1}, t_{2}, ..., t_{norte})}

$O(H_{A}|H_{0})=\frac{p(T_{1}=t_{1},T_{2}=t_{2},\dots,T_{N}=t_{N}|t_{1},t_{2},\dots,t_{N})}{ p(T_{1}=\overline{t},T_{2}=\overline{t},\dots,T_{N}=\overline{t}|t_{1},t_{2},\dots,t_{N})}$

= \frac{[\prod_{yo = 1}^{norte} \frac{1}{t_{yo}}] mi X pag (- \sum_{yo = 1}^{norte} \frac{t_{yo}}{t_{yo}})}{[\prod_{yo = 1}^{norte} \frac{1}{t_{yo}}] mi X pag (- \sum_{yo = 1}^{norte} \frac{\bar{t}}{t_{yo}})} = mi X pag (norte [\frac{\bar{t}}{t_{h un r metro}} - 1])

$=\frac{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{t_{i}}{t_{i}}\right) }{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{\overline{t}}{t_{i}}\right) } =exp\left(N\left[\frac{\overline{t}}{t_{harm}}-1\right]\right)$

Dónde

t_{h un r metro} = {[\frac{1}{norte} \sum_{yo = 1}^{norte} t_{yo}^{- 1}]}^{- 1} \leq \bar{t}

$t_{harm}=\left[\frac{1}{N}\sum_{i=1}^{N}t_{i}^{-1}\right]^{-1}\leq \overline{t}$

es la media armónica Tenga en cuenta que las probabilidades siempre favorecerán el ajuste perfecto, pero no mucho si los tiempos medios de supervivencia son razonablemente cercanos. Además, esto le brinda una forma directa de establecer la evidencia de esta prueba de hipótesis particular:

$O(H_{A}|H_{0}):1$

Combine esto con una regla de decisión, función de pérdida, función de utilidad, etc., que diga lo ventajoso que es aceptar la hipótesis más simple, ¡y ya tiene su conclusión!

$H_{0}$

H_{S, yo} : T_{yo} = t_{yo}, T_{j} = T = {\bar{t}}_{(yo)} = \frac{1}{norte - 1} \sum_{j \neq yo} t_{j}

$H_{S,i}:T_{i}=t_{i},T_{j}=T=\overline{t}_{(i)}=\frac{1}{N-1}\sum_{j\neq i}t_{j}$

$i$

$H_{A}$ $H_{S,i}$
$H_{0}$ $H_{S,i}$
una diferente $H_{S,k}$ $k$ $i$

Ahora, una cosa que se ha pasado por alto aquí es la correlación entre estados: esta estructura supone que conocer la tasa de supervivencia media en un estado no le dice nada sobre la tasa de supervivencia media en otro estado. Si bien esto puede parecer "malo", no es difícil mejorarlo, y los cálculos anteriores son buenos resultados iniciales que son fáciles de calcular.

Agregar conexiones entre estados cambiará los modelos de probabilidad, y verá efectivamente una "agrupación" de los tiempos de supervivencia promedio. Una forma de incorporar correlaciones en el análisis es separar los verdaderos tiempos de supervivencia en dos componentes, una "parte común" o "tendencia" y una "parte individual":

T_{yo} = T + U_{yo}

$T_{i}=T+U_{i}$

Y luego restringir la parte individual $U_{i}$ $\sigma$

probabilidadislogica
fuente

(+1) Muy interesante. Tu publicación también me hizo insertar un comentario en mi respuesta.

GaBorgulya

M_{1}

$M_1$

@cardinal, mis disculpas, es un error tipográfico. será eliminado

probabilidadislogic

No se necesitan disculpas. Simplemente no estaba seguro si lo había saltado mientras leía o si simplemente me faltaba algo obvio.

cardinal

4

Pensé que solo agregué a este tema que podría estar interesado en la regresión cuantil con la censura. Bottai y Zhang 2010 propusieron una "Regresión de Laplace" que puede hacer exactamente esta tarea, puede encontrar un PDF aquí . Para esto hay un paquete para Stata, aún no se ha traducido a R, aunque el paquete quantreg en R tiene una función para la regresión cuantílica censurada, crq , que podría ser una opción.

Creo que el enfoque es muy interesante y podría ser mucho más intuitivo para los pacientes que las proporciones de riesgos. Saber, por ejemplo, que el 50% del medicamento sobrevive 2 meses más que los que no toman el medicamento y los efectos secundarios que lo obligan a permanecer de 1 a 2 meses en el hospital podrían facilitar la elección del tratamiento.

Max Gordon
fuente

No sé "Regresión de Laplace", pero con respecto a su segundo párrafo, me pregunto si lo entiendo correctamente. Por lo general, en el análisis de supervivencia (pensando en términos de tiempo de falla acelerado), diríamos algo así como 'el percentil 50 para el grupo de drogas llega 2 meses después que el 50% para el grupo de control'. ¿Es eso lo que quieres decir, o el resultado de LR ofrece una interpretación diferente?

gung - Restablece a Monica

@gung: Creo que tienes razón en tu interpretación: cambió el texto, ¿mejor? No he usado los modelos de regresión, aunque los he encontrado recientemente en un curso. Es una alternativa interesante a los modelos regulares de Cox que he usado mucho. Aunque probablemente necesito dedicar más tiempo a digerir la idea, creo que probablemente sea más fácil para mí explicarles a mis pacientes, ya que con frecuencia utilizo curvas KM para explicarles a mis pacientes. RR. HH. Exige que realmente comprenda la diferencia entre los riesgos relativos y absolutos, un concepto que puede tomar un tiempo explicar ...

Max Gordon

econ.uiuc.edu/~roger/research/crq/note.pdf

Misha

Gracias @Misha por el enlace. El autor tiene una respuesta aquí: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract

Max Gordon

3

Primero, visualizaría los datos: calcularía los intervalos de confianza y los errores estándar para las supervivencias medias en cada estado y mostraría los IC en una parcela forestal, las medianas y sus SE utilizando una gráfica en embudo.

La "supervivencia media media en todo el país" es una cantidad que se estima a partir de los datos y, por lo tanto, tiene incertidumbre, por lo que no puede tomarse como un valor de referencia definido durante las pruebas de significación. Otra dificultad con el enfoque de la media de todo es que cuando compara una mediana de estado con ella, está comparando la mediana con una cantidad que ya incluye esa cantidad como componente. Por lo tanto, es más fácil comparar cada estado con todos los demás estados combinados. Esto se puede hacer realizando una prueba de rango de registro (o sus alternativas) para cada estado.
(Editar después de leer la respuesta de probabilidad lógico: la prueba de rango de registro compara la supervivencia en dos (o más) grupos, pero no es estrictamente la mediana que está comparando. Si está seguro es la mediana que desea comparar, puede confiar en sus ecuaciones o usar el remuestreo aquí también)

Usted etiquetó su pregunta [comparaciones múltiples], por lo que supongo que también desea ajustar (aumentar) sus valores de p de manera que si ve al menos un valor de p ajustado inferior al 5%, podría concluir que "la supervivencia media en todos los estados es no igual ”al nivel de significancia del 5%. Puede utilizar métodos genéricos y demasiado conservadores como Bonferroni, pero el esquema de corrección óptimo tendrá en cuenta las correlaciones de los valores de p. Supongo que no desea construir ningún conocimiento a priori en el esquema de corrección, por lo que analizaré un esquema en el que el ajuste está multiplicando cada valor de p por la misma constante de C.

Como no sé cómo derivar la fórmula para obtener el multiplicador C óptimo, usaría remuestreo . Bajo la hipótesis nula de que las características de supervivencia son las mismas en todos los estados, por lo que puede permutar las etiquetas de estado de los casos de cáncer y recalcular las medianas. Después de obtener muchos vectores muestreados de valores de estado p, encontraría numéricamente el multiplicador C por debajo del cual menos del 95% de los vectores no incluyen valores p significativos y por encima del cual más del 95%. Si bien el rango parece amplio, aumentaría repetidamente el número de muestras en un orden de magnitud.

GaBorgulya
fuente

Un buen consejo para visualizar los datos. (1)

probabilityislogic

@probabilityislogic ¡Gracias! También agradezco las críticas, especialmente si son constructivas.

GaBorgulya

La única crítica que tengo es el uso de valores p, pero esto es más un "chip en mi hombro" que cualquier otra cosa en su respuesta. Parece que si va a usar valores p, entonces lo que recomienda es bueno. Simplemente no creo que usar valores p sea bueno. Vea aquí mi intercambio con @eduardo en los comentarios sobre los valores p.

probabilidadislogic

¿Cómo comparar la supervivencia media entre grupos?

Respuestas: