¿Cuáles son los pros y los contras de usar el método logrank versus el método Mantel-Haenszel para calcular la razón de riesgo en el análisis de supervivencia?

17

Una forma de resumir la comparación de dos curvas de supervivencia es calcular la razón de riesgo (FC). Hay (al menos) dos métodos para calcular este valor.

  • Método logrank. Como parte de los cálculos de Kaplan-Meier, calcule el número de eventos observados (muertes, generalmente) en cada grupo ( y O b ), y el número de eventos esperados suponiendo una hipótesis nula de ausencia de diferencias en la supervivencia ( E a y E b ). La razón de riesgo es: H R = ( O a / E a )OunOsimiunmisi
    HR=(Oun/ /miun)(Osi/ /misi)
  • Método Mantel-Haenszel. Primero calcule V, que es la suma de las variaciones hipergeométricas en cada punto de tiempo. Luego calcule la razón de riesgo como: Obtuve ambas ecuaciones del capítulo 3 de Machin, Cheung y Parmar,Survival Analysis. Ese libro afirma que los dos métodos generalmente dan métodos muy similares, y de hecho ese es el caso con el ejemplo en el libro.
    HR=Exp((Oun-miun)V)

Alguien me envió un ejemplo donde los dos métodos difieren en un factor de tres. En este ejemplo en particular, es obvio que la estimación logrank es razonable, y la estimación Mantel-Haenszel está muy lejos. Mi pregunta es si alguien tiene algún consejo general sobre cuándo es mejor elegir la estimación logrank de la razón de riesgo, y cuándo es mejor elegir la estimación de Mantel-Haenszel. ¿Tiene que ver con el tamaño de la muestra? Número de lazos? Relación de tamaños de muestra?

Harvey Motulsky
fuente
¿Cómo se relacionan estas estimaciones con la dada por la regresión de Cox? Ese debe ser el estándar de oro para estimar los recursos humanos.
Aniko
El modelo de Cox incorpora covariables. Los métodos de Kaplan-Meier, Nelson-Aalen, Mantel-Haenszel modelan el peligro como una función solo de la edad.
shabbychef
@shabbychef: con Cox PH, use una sola covariable binaria, es decir, codificada 0/1 para grupos de referencia / comparación, luego exp (beta) = HR.
ars
El log-rank es una prueba más poderosa que Cox PH cuando se cumple el supuesto de riesgos proporcionales. Entonces, con una sola covariable de 2 niveles, es preferible una prueba de log-rank o Mantel-Haenszel.
Thylacoleo
vea a continuación la respuesta ...
Thylacoleo

Respuestas:

11

Creo que descubrí la respuesta (a mi propia pregunta). Si la suposición de riesgos proporcionales es verdadera, los dos métodos dan estimaciones similares de la razón de riesgo. Creo que la discrepancia que encontré en un ejemplo en particular se debe al hecho de que esa suposición es dudosa.

Si la suposición de riesgos proporcionales es verdadera, entonces una gráfica de log (tiempo) vs. log (-log (St)) (donde St es la supervivencia proporcional en el tiempo t) debería mostrar dos líneas paralelas. A continuación se muestra el gráfico creado a partir del conjunto de datos del problema. Parece lejos de ser lineal. Si el supuesto de riesgos proporcionales no es válido, entonces el concepto de una razón de riesgo no tiene sentido, por lo que no importa qué método se use para calcular la razón de riesgo.

texto alternativo

Me pregunto si la discrepancia entre las estimaciones de logrank y Mantel-Haenszel de la razón de riesgo se puede utilizar como un método para probar la suposición de riesgos proporcionales.

Harvey Motulsky
fuente
7

Si no me equivoco, el estimador de rango logarítmico al que hace referencia también se conoce como estimador de Pike. Creo que generalmente se recomienda para HR <3 porque exhibe menos sesgos en ese rango. El siguiente documento puede ser de interés (tenga en cuenta que el documento se refiere a él como O / E):

[...] El método O / E está sesgado pero, dentro del rango de valores de la razón de las tasas de riesgo de interés en ensayos clínicos, es más eficiente en términos de error cuadrado medio que CML o Mantel-Haenszel. método para todos menos los ensayos más grandes. El método Mantel-Haenszel tiene un sesgo mínimo, proporciona respuestas muy cercanas a las obtenidas con CML y puede usarse para proporcionar intervalos de confianza aproximados satisfactorios.

ars
fuente
Después de haber examinado brevemente ese documento, no estoy seguro de que las estimaciones que consideran sean las mismas que las de las ecuaciones del interrogador. Estoy de acuerdo con los comentarios bajo la pregunta: tal vez en 1981 los métodos aproximados fueron útiles, pero en estos días no hay una razón obvia para no usar la regresión de Cox.
parada el
@onestop: hmm, piensa en la definición de O / E == LR con el registro olvidado arriba? Estoy de acuerdo con lo que dices sobre Cox PH: esa no es la pregunta que estaba tratando de responder, pero tu consejo es mejor en un contexto más amplio.
ars
Bernstein et. Alabama. muestra algunos motivos (n pequeños, vínculos) que hacen que los dos métodos sean inexactos o diferentes. Pero todas las discrepancias que mostraron son pequeñas. Así que no creo que nada en ese documento explique la triple discrepancia que vi que provocó esta pregunta. Vea a continuación la respuesta que se me ocurrió.
Harvey Motulsky
7

En realidad, existen varios métodos más y la elección a menudo depende de si está más interesado en buscar diferencias tempranas, diferencias posteriores o, en cuanto a la prueba de rango de registro y la prueba de Mantel-Haenszel, otorgar el mismo peso a todos los puntos de tiempo.

A la pregunta en cuestión. La prueba de log-rank es, de hecho, una forma de la prueba de Mantel-Haenszel aplicada a los datos de supervivencia. La prueba de Mantel-Haenszel se usa generalmente para probar la independencia en tablas de contingencia estratificadas.

Si intentamos aplicar la prueba MH a los datos de supervivencia, podemos comenzar asumiendo que los eventos en cada momento de falla son independientes. Luego nos estratificamos por tiempo de falla. Utilizamos los métodos MH para hacer de cada tiempo de falla un estrato. No es sorprendente que a menudo den el mismo resultado.

La excepción ocurre cuando más de un evento ocurre simultáneamente: múltiples muertes exactamente en el mismo punto de tiempo. No recuerdo cómo difiere el tratamiento. Creo que la prueba de log-rank promedia sobre los posibles ordenamientos de los tiempos de falla vinculados.

Entonces, la prueba de rango logarítmico es la prueba MH para datos de supervivencia y puede tratar con lazos. Nunca he usado la prueba MH para datos de supervivencia.

Tilacoleo
fuente
3

Pensé que había tropezado con un sitio web y una referencia que trata exactamente con esta pregunta:

http://www.graphpad.com/faq/viewfaq.cfm?faq=1226 Comience desde "Los dos métodos comparados".

El sitio hace referencia al documento de Berstein vinculado (arriba):

http://www.jstor.org/stable/2530564?seq=1

El sitio resume los resultados de Berstein et al., Así que lo citaré:

Los dos generalmente dan resultados idénticos (o casi idénticos). Pero los resultados pueden diferir cuando varios sujetos mueren al mismo tiempo o cuando la relación de riesgo está lejos de ser 1.0.

Bernsetin y sus colegas analizaron datos simulados con ambos métodos (1). En todas sus simulaciones, la suposición de riesgos proporcionales era cierta. Los dos métodos dieron valores muy similares. El método logrank (al que se refieren como el método O / E) informa valores que están más cerca de 1.0 que la verdadera razón de riesgo, especialmente cuando la razón de riesgo es grande o el tamaño de la muestra es grande.

Cuando hay vínculos, ambos métodos son menos precisos. Los métodos logrank tienden a informar índices de riesgo que están aún más cerca de 1.0 (por lo que el índice de riesgo informado es demasiado pequeño cuando el índice de riesgo es mayor que 1.0 y demasiado grande cuando el índice de riesgo es menor que 1.0). El método Mantel-Haenszel, por el contrario, informa índices de riesgo que están más lejos de 1.0 (por lo tanto, el índice de riesgo informado es demasiado grande cuando el índice de riesgo es mayor que 1.0 y demasiado pequeño cuando el índice de riesgo es menor que 1.0).

No probaron los dos métodos con datos simulados donde la suposición de riesgos proporcionales no es cierta. He visto un conjunto de datos donde las dos estimaciones de FC eran muy diferentes (por un factor de tres), y la suposición de riesgos proporcionales era dudosa para esos datos. Parece que el método Mantel-Haenszel da más peso a las diferencias en el peligro en puntos de tiempo tardíos, mientras que el método logran da el mismo peso en todas partes (pero no he explorado esto en detalle). Si observa valores de FC muy diferentes con los dos métodos, piense si la suposición de riesgos proporcionales es razonable. Si esa suposición no es razonable, entonces, por supuesto, el concepto completo de una sola razón de riesgo que describe la curva completa no tiene sentido

El sitio también se refiere al conjunto de datos en el que "las dos estimaciones de FC eran muy diferentes (por un factor de tres)", y sugieren que la suposición de PH es una consideración clave.

Entonces pensé: "¿Quién creó el sitio?" Después de buscar un poco, descubrí que era Harvey Motulsky. Entonces, Harvey, he logrado hacerte referencia para responder tu propia pregunta. Te has convertido en la autoridad!

¿Es el "conjunto de datos problemático" un conjunto de datos disponible públicamente?

Tilacoleo
fuente
Descubrí la respuesta hace dos días y la publiqué aquí como una nueva respuesta. También expandí y actualicé la página web en graphpad.com que encontraste. Acabo de editar esa página nuevamente para incluir un enlace a un archivo de Excel con los datos del problema ( graphpad.com/faq/file/1226.xls ). No pude hacerlo hasta que obtuve el permiso del tipo que generó los datos (quiere ser anónimo, y los datos están etiquetados vagamente).
Harvey Motulsky