Regresión de Poisson para estimar el riesgo relativo de resultados binarios.

42

Resumen breve

¿Por qué es más común que la regresión logística (con odds ratios) se use en estudios de cohortes con resultados binarios, en comparación con la regresión de Poisson (con riesgos relativos)?

Fondo

Los cursos de estadística y epidemiología de pregrado y posgrado, en mi experiencia, generalmente enseñan que la regresión logística debe usarse para modelar datos con resultados binarios, con estimaciones de riesgo informadas como odds ratios.

Sin embargo, la regresión de Poisson (y relacionada: cuasi-Poisson, binomio negativo, etc.) también se puede usar para modelar datos con resultados binarios y, con métodos apropiados (por ejemplo, estimador robusto de varianza tipo sándwich), proporciona estimaciones de riesgo válidas y niveles de confianza. P.ej,

A partir de la regresión de Poisson, se pueden informar los riesgos relativos, que algunos han argumentado que son más fáciles de interpretar en comparación con los odds ratios, especialmente para los resultados frecuentes, y especialmente para individuos sin una sólida formación en estadísticas. Ver Zhang J. y Yu KF, ¿Cuál es el riesgo relativo? Un método para corregir la odds ratio en estudios de cohortes de resultados comunes , JAMA. 18 de noviembre de 1998; 280 (19): 1690-1.

Al leer la literatura médica, entre los estudios de cohortes con resultados binarios, parece que todavía es mucho más común informar los odds ratios de las regresiones logísticas en lugar de los riesgos relativos de las regresiones de Poisson.

Preguntas

Para estudios de cohortes con resultados binarios:

  1. ¿Existe una buena razón para informar los odds ratios de las regresiones logísticas en lugar de los riesgos relativos de las regresiones de Poisson?
  2. Si no es así, ¿puede atribuirse la poca frecuencia de las regresiones de Poisson con riesgos relativos en la literatura médica principalmente a un desfase entre la teoría y la práctica metodológica entre científicos, clínicos, estadísticos y epidemiólogos?
  3. ¿Deberían los cursos intermedios de estadística y epidemiología incluir más discusión sobre la regresión de Poisson para resultados binarios?
  4. ¿Debería alentar a los estudiantes y colegas a considerar la regresión de Poisson sobre la regresión logística cuando sea apropiado?
jthetzel
fuente
Si desea un riesgo relativo, ¿por qué no usaría simplemente la regresión binomial con el enlace log (en lugar de logístico)? La relación de varianza media de la familia Poisson no tiene mucho sentido si se ha condicionado el número de posibles eventos por observación.
Andrew M
@ AndrewM ¿Cómo aplicaría una regresión binomial con enlace de registro? Los valores positivos del regresor implicarían valores de probabilidad mayores que 1.
Rufo
[0,1]
@ AndrewM Sí, mencioné un predictor lineal, gracias :). Pero incluso cuando logras implementar el modelo, no estoy seguro de que sea adecuado. Como indico en un comentario en la primera respuesta, si intercambia 0 por 1 y viceversa para la variable de respuesta, ya que el enlace de registro no es simétrico alrededor de 0.5, las estimaciones de los riesgos relativos son diferentes ( exp(beta_M1) =/= 1/exp(beta_M2)). Eso me molesta bastante.
Rufo
1
P(Y|X)/P(Y|Xc)P(Y|X)/P(Y|Xc)P(Yc|X)/P(Yc|Xc)

Respuestas:

28

Una respuesta a las cuatro preguntas, precedida de una nota:

En realidad, no es tan común que los estudios modernos de epidemiología reporten un odds ratio de una regresión logística para un estudio de cohorte. Sigue siendo la técnica de regresión elegida para los estudios de casos y controles, pero las técnicas más sofisticadas son ahora el estándar de facto para el análisis en las principales revistas de epidemiología como Epidemiología , AJE o IJE.. Habrá una mayor tendencia a que aparezcan en revistas clínicas que informan los resultados de los estudios observacionales. También habrá algunos problemas porque la regresión de Poisson se puede usar en dos contextos: a lo que se refiere, en donde es un sustituto de un modelo de regresión binomial, y en un contexto de tiempo hasta el evento, que es extremadamente común para la cohorte estudios. Más detalles en las respuestas de preguntas particulares:

  1. Para un estudio de cohorte, en realidad no. Hay algunos casos extremadamente específicos en los que, por ejemplo, puede haberse utilizado un modelo logístico por partes, pero estos son valores atípicos. El objetivo de un estudio de cohorte es que puede medir directamente el riesgo relativo, o muchas medidas relacionadas, y no tener que depender de una razón de posibilidades. Sin embargo, haré dos notas: una regresión de Poisson está estimando a menudo una tasa, no es un riesgo y, por lo tanto, la estimación del efecto a partir de él a menudo se notará como una relación de tasa (principalmente, en mi opinión, por lo que todavía puede abreviar RR) o una razón de densidad de incidencia (TIR o TIR). Así que asegúrese de buscar realmente los términos correctos en su búsqueda: hay muchos estudios de cohortes que utilizan métodos de análisis de supervivencia. Para estos estudios, la regresión de Poisson hace algunas suposiciones que son problemáticas, en particular que el peligro es constante. Como tal, es mucho más común analizar un estudio de cohorte utilizando modelos de riesgos proporcionales de Cox, en lugar de los modelos de Poisson, e informar la consiguiente relación de riesgo (HR). Si se presiona para nombrar un método "predeterminado" con el que analizar una cohorte, diría que la epidemiología está dominada por el modelo Cox. Esto tiene sus propios problemas, y algunos epidemiólogos muy buenos quisieran cambiarlo,

  2. Hay dos cosas a las que podría atribuir la infrecuencia: una infrecuencia que no necesariamente creo que exista en la medida en que sugieres. Una es que sí: la "epidemiología" como campo no está exactamente cerrada, y obtienes una gran cantidad de documentos de médicos, científicos sociales, etc., así como epidemiólogos de diferentes antecedentes estadísticos. El modelo logístico se enseña comúnmente y, en mi experiencia, muchos investigadores recurrirán a la herramienta familiar sobre la mejor herramienta.

    El segundo es en realidad una cuestión de lo que quiere decir con estudio de "cohorte". Algo como el modelo de Cox, o un modelo de Poisson, necesita una estimación real del tiempo de la persona. Es posible obtener un estudio de cohorte que siga a una población algo cerrada durante un período particular, especialmente en los primeros ejemplos de "Introducción a Epi", donde los métodos de supervivencia como los modelos de Poisson o Cox no son tan útiles. El modelo logístico puedese utilizará para estimar un odds ratio que, con una prevalencia de enfermedad suficientemente baja, se aproxima a un riesgo relativo. Otras técnicas de regresión que lo estiman directamente, como la regresión binomial, tienen problemas de convergencia que pueden descarrilar fácilmente a un nuevo estudiante. Tenga en cuenta que los documentos de Zou que cita están utilizando una técnica de regresión de Poisson para evitar los problemas de convergencia de la regresión binomial. Pero los estudios de cohorte apropiados para el binomio son en realidad una pequeña porción del "pastel de estudio de cohortes".

  3. Sí. Francamente, los métodos de análisis de supervivencia deberían aparecer antes de lo que suelen hacerlo. Mi teoría favorita es que la razón por la que esto no es así es que métodos como la regresión logística son más fáciles de codificar . Las técnicas que son más fáciles de codificar, pero vienen con advertencias mucho más grandes sobre la validez de sus estimaciones de efectos, se enseñan como el estándar "básico", lo cual es un problema.

  4. Debería alentar a los estudiantes y colegas a utilizar la herramienta adecuada. En general, para el campo, creo que probablemente sería mejor sugerir una consideración del modelo de Cox en lugar de una regresión de Poisson, ya que la mayoría de los revisores (y deberían) plantear rápidamente inquietudes sobre el supuesto de un peligro constante. Pero sí, cuanto antes pueda alejarlos de "¿Cómo calzo mi pregunta en un modelo de regresión logística?" mejor estaremos todos. Pero sí, si está mirando un estudio sin tiempo, los estudiantes deben conocer tanto la regresión binomial como los enfoques alternativos, como la regresión de Poisson, que se pueden usar en caso de problemas de convergencia.

Fomite
fuente
Cuando dice Otras técnicas de regresión que lo estiman directamente [riesgo relativo, supongo], como la regresión binomial, tienen problemas de convergencia [...] , ¿cómo aplicaría una regresión binomial para que le dé un riesgo relativo? @ AndrewM sugiere un enlace de registro, pero no veo cómo evitaría el problema de tener estimaciones de la probabilidad de éxito superiores a 1.
Rufo
@Rufo Un modelo binomial con un enlace de registro, cuando se ejecuta en una cohorte, estimará el riesgo relativo. Que estos modelos a veces estimen probabilidades mayores que 1 es de hecho una de las razones por las que los modelos binomiales son más difíciles de implementar de lo ideal. Pero he logrado usarlos: es útil que sus datos a menudo tengan probabilidades muy por debajo de 1, por lo que el modelo nunca terminará con el problema que le preocupa.
Fomite
p
9

Yo también especulo sobre la prevalencia de modelos logísticos en la literatura cuando un modelo de riesgo relativo sería más apropiado. Nosotros, como estadísticos, estamos muy familiarizados con el cumplimiento de las convenciones o con los análisis de "menú desplegable". Estos crean muchos más problemas de los que resuelven. La regresión logística se enseña como una "herramienta estándar" para analizar los resultados binarios, donde un individuo tiene un tipo de resultado sí / no como muerte o discapacidad.

La regresión de Poisson se enseña con frecuencia como un método para analizar recuentos . Se subraya un poco que dicho modelo de probabilidad funciona excepcionalmente bien para modelar resultados 0/1, especialmente cuando son raros. Sin embargo, un modelo logístico también se aplica bien con resultados poco frecuentes: la razón de posibilidades es aproximadamente una razón de riesgo, incluso con el muestreo dependiente del resultado como con los estudios de casos y controles. No se puede decir lo mismo de los modelos de riesgo relativo o de Poisson.

Un modelo de Poisson también es útil cuando las personas pueden tener un "resultado" más de una vez, y usted podría estar interesado en la incidencia acumulada, como brotes de herpes, hospitalizaciones o cánceres de seno. Por esta razón, los coeficientes exponenciados pueden interpretarse como tasas relativas . Para resaltar la diferencia entre tasas y riesgos: si hay 100 casos por cada 1,000 años-persona, pero los 100 casos ocurrieron en un individuo, la incidencia (tasa) sigue siendo 1 caso por cada 10 años-persona. En un entorno de prestación de atención médica, aún necesita tratar 100 casos, y la vacunación del 80% de las personas tiene una reducción de la tasa de incidencia del 80% (a priori). Sin embargo, el riesgo de al menos un resultado es 1/1000. La naturaleza del resultado y la pregunta, juntas, determinan qué modelo es apropiado.

var(y)=E(y)(1E(y))

log(E[Y|X])=β0+β1Xvar(Y)=E[Y](1E[Y])

Por cierto, el artículo de Zhang proporciona una estimación sesgada de la inferencia basada en la estimación del riesgo relativo que no tiene en cuenta la variabilidad en el término de intercepción. Puede corregir el estimador mediante bootstrapping.

Para responder las preguntas específicas:

  1. Si el resultado es raro, son aproximadamente iguales. Si el resultado es común, la varianza del estimador de tasa relativa del Poisson podría estar demasiado inflada, y podríamos preferir el odds ratio como una estimación sesgada pero eficiente de asociación entre un resultado binario y varias exposiciones. También creo que los estudios de casos y controles justifican el uso de odds ratio como una medida que no varía con el muestreo dependiente del resultado. Scott y Wild 97 discuten métodos alrededor de esto. Por supuesto, otras revistas podrían no tener revisores estadísticos dedicados.

2.3. Creo que estás culpando y asumiendo demasiado sobre lo que sucede en la revisión médica y académica.

  1. Siempre debe alentar a sus alumnos a usar modelos apropiados siempre que sea posible.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat

AdamO
fuente
2
"Tengo entendido que si el interés científico radica en estimar las tasas relativas, existe un modelo híbrido: la regresión de riesgo relativo que es un GLM que utiliza la estructura de varianza logística y la estructura de la media de Poisson": también conocido como regresión binomial con un enlace de registro.
Andrew M
2
@ Andrew De hecho. De hecho, creo que ese es el idioma preferido. Gracias por señalar eso. Edité la pregunta para incluir una referencia a un documento de trabajo de Thomas Lumley que enfatiza que el modelo de Poisson es un "modelo de trabajo" en el sentido de que es una relación de varianza media supuesta incorrecta.
AdamO
¿Qué quiere decir con "Si el resultado es raro son aproximadamente iguales"? ¿Cuál es el porcentaje máximo de resultado "raro" para usar OR en lugar de RR para estimar la prevalencia?
vasili111
2
@ vasili111 este es un tema muy debatido sin una respuesta clara. Hoy en día se ven muchas críticas de personas que hacen la suposición "rara" cuando la incidencia no era tan rara, como más de 1/30. Y con modelos multivariantes, ¡todo vale!
AdamO