Desde una perspectiva estadística, ¿se puede inferir causalidad usando puntajes de propensión con un estudio observacional?

27

Pregunta: Desde el punto de vista del estadístico (o un profesional), ¿se puede inferir causalidad usando puntajes de propensión con un estudio observacional ( no un experimento )?

Por favor, no quiera comenzar una guerra de llamas o un debate fanático.

Antecedentes: dentro de nuestro programa de doctorado de estadísticas, solo hemos tocado la inferencia causal a través de grupos de trabajo y algunas sesiones temáticas. Sin embargo, hay algunos investigadores muy destacados en otros departamentos (por ejemplo, HDFS, Sociología) que los están utilizando activamente.

Ya he presenciado un debate bastante acalorado sobre este tema. No es mi intención comenzar uno aquí. Dicho esto, ¿qué referencias has encontrado? ¿Qué puntos de vista tienes? Por ejemplo, un argumento que escuché contra los puntajes de propensión como técnica de inferencia causal es que nunca se puede inferir causalidad debido al sesgo variable omitido: si omite algo importante, rompe la cadena causal. ¿Es este un problema irresoluble?

Descargo de responsabilidad: esta pregunta puede no tener una respuesta correcta, completamente genial al hacer clic en cw, pero personalmente estoy muy interesado en las respuestas y estaría contento con algunas buenas referencias que incluyen ejemplos del mundo real.

M. Tibbits
fuente

Respuestas:

16

Al comienzo de un artículo destinado a promover el uso de PS en epidemiología, Oakes y Church (1) citaron las afirmaciones de Hernán y Robins sobre el efecto de confusión en epidemiología (2):

¿Puede garantizar que los resultados de su estudio de observación no se vean afectados por factores de confusión no medidos? La única respuesta que puede proporcionar un epidemiólogo es 'no'.

Esto no es solo para decir que no podemos garantizar que los resultados de los estudios de observación sean imparciales o inútiles (porque, como dijo @propofol, sus resultados pueden ser útiles para diseñar ECA), sino que los PS ciertamente no ofrecen una solución completa para esto. problema, o al menos no necesariamente producen mejores resultados que otros métodos coincidentes o multivariados (ver, por ejemplo, (10)).

Los puntajes de propensión (PS) son, por construcción, indicadores probabilísticos no causales . La elección de las covariables que ingresan a la función de puntaje de propensión es un elemento clave para garantizar su confiabilidad, y su debilidad, como se ha dicho, se basa principalmente en no controlar los factores de confusión no observados (lo cual es muy probable en estudios retrospectivos o de casos y controles ) . Deben considerarse otros factores: (a) la especificación errónea del modelo afectará las estimaciones de efectos directos (no más que en el caso de MCO), (b) puede haber datos faltantes a nivel de las covariables, (c) los PS sí No superar los efectos sinérgicos que se sabe que afectan la interpretación causal (8,9).

En cuanto a las referencias, encontré las diapositivas de Roger Newson ( causalidad, factores de confusión y puntajes de propensión ) relativamente bien equilibradas sobre los pros y los contras del uso de puntajes de propensión, con ilustraciones de estudios reales. También hubo varios buenos documentos que discutieron el uso de puntajes de propensión en estudios observacionales o epidemiología ambiental hace dos años en Estadísticas en Medicina, y adjunto un par de ellos al final (3-6). Pero me gusta la revisión de Pearl (7) porque ofrece una perspectiva más amplia sobre los problemas de causalidad (los PS se discuten en las páginas 117 y 130). Obviamente, encontrará muchas más ilustraciones al observar la investigación aplicada. Me gustaría agregar dos artículos recientes de William R Shadish que se encontraron con el sitio web de Andrew Gelman (11,12). Se discute el uso de puntajes de propensión, pero los dos documentos se centran más en la inferencia causal en los estudios observacionales (y cómo se compara con los entornos aleatorios).

Referencias

  1. Oakes, JM e Church, TR (2007). Comentario invitado: Métodos avanzados de puntuación de propensión en epidemiología . American Journal of Epidemiology , 165 (10), 1119-1121.
  2. Hernan MA y Robins JM (2006). Instrumentos para la inferencia causal: ¿el sueño de un epidemiólogo? Epidemiología , 17, 360-72.
  3. Rubin, D. (2007). El diseño versus el análisis de estudios observacionales para efectos causales: paralelos con el diseño de ensayos aleatorios . Estadísticas en medicina , 26, 20–36.
  4. Shrier, I. (2008). Carta al editor . Estadísticas en medicina , 27, 2740–2741.
  5. Pearl, J. (2009). Observaciones sobre el método de puntuación de propensión . Estadísticas en medicina , 28, 1415–1424.
  6. Stuart, EA (2008). Desarrollo de recomendaciones prácticas para el uso de puntajes de propensión: Discusión de 'Una evaluación crítica de la coincidencia de puntajes de propensión en la literatura médica entre 1996 y 2003' por Peter Austin . Estadísticas en medicina , 27, 2062-2065.
  7. Pearl, J. (2009). Inferencia causal en estadística: una visión general . Encuestas estadísticas , 3, 96-146.
  8. Oakes, JM y Johnson, PJ (2006). Puntaje de propensión correspondiente a la epidemiología social . En Methods in Social Epidemiology , JM Oakes y S. Kaufman (Eds.), Pp. 364-386. Jossez-Bass.
  9. Höfler, M (2005). Inferencia causal basada en contrafactuals . Metodología de investigación médica de BMC , 5, 28.
  10. Winkelmayer, WC y Kurth, T. (2004). Puntajes de propensión: ¿ayuda o exageración? Trasplante de diálisis de nefrología , 19 (7), 1671-1673.
  11. Shadish, WR, Clark, MH y Steiner, PM (2008). ¿Pueden los experimentos no aleatorizados dar respuestas precisas? Un experimento aleatorizado que compara asignaciones aleatorias y no aleatorias . JASA , 103 (484), 1334-1356.
  12. Cook, TD, Shadish, WR y Wong, VC (2008). Tres condiciones bajo las cuales los experimentos y los estudios de observación producen estimaciones causales comparables: nuevos hallazgos de las comparaciones dentro del estudio . Journal of Policy Analysis and Management , 27 (4), 724–750.
chl
fuente
11

Los puntajes de propensión se usan típicamente en la literatura correspondiente. Los puntajes de propensión utilizan covariables previas al tratamiento para estimar la probabilidad de recibir tratamiento. Esencialmente, se usa una regresión (ya sea OLS regular o logit, probit, etc.) para calcular el puntaje de propensión con el tratamiento, ya que sus variables de resultado y pretratamiento son sus covariables. Una vez que se obtiene una buena estimación del puntaje de propensión, los sujetos con puntajes de propensión similares, pero con diferentes tratamientos recibidos, se comparan entre sí. El efecto del tratamiento es la diferencia de medias entre estos dos grupos.

Rosenbaum y Rubin (1983) muestran que emparejar sujetos tratados y de control usando solo el puntaje de propensión es suficiente para eliminar todo sesgo en la estimación del efecto del tratamiento derivado de las covariables observadas antes del tratamiento usadas para construir el puntaje. Tenga en cuenta que esta prueba requiere el uso del puntaje de propensión real, en lugar de una estimación. La ventaja de este enfoque es que convierte un problema de coincidencia en múltiples dimensiones (una para cada covariable de pretratamiento) en un caso de coincidencia univariante, una gran simplificación.

Rosenbaum, Paul R. y Donald B. Rubin. 1983. " El papel central de la puntuación de propensión en los estudios observacionales de los efectos causales ". Biometrika 70 (1): 41--55.

Charlie
fuente
8

Solo un ensayo prospectivo aleatorizado puede determinar la causalidad. En los estudios observacionales, siempre existirá la posibilidad de una covariable no medida o desconocida que imposibilite la atribución de la causalidad.

Sin embargo, los ensayos observacionales pueden proporcionar evidencia de una fuerte asociación entre xey, y por lo tanto son útiles para la generación de hipótesis. Estas hipótesis deben confirmarse con un ensayo aleatorio.

pmgjones
fuente
Estoy totalmente de acuerdo con usted. Un estudio observacional puede ser bueno para descubrir algunas asociaciones que, a su vez, se pueden probar utilizando un marco mucho más riguroso (ensayo aleatorio, como sugiere).
Sympa
Expresión ordenada. No puedo estar más de acuerdo contigo con la palabra, asociación 'fuerte' entre x e y.
Kevin Kang
7

La pregunta parece involucrar dos cosas que realmente deberían considerarse por separado. Primero es si uno puede inferir causalidad a partir de un estudio observacional, y en eso podría contrastar las opiniones de, por ejemplo, Pearl (2009), quien argumenta que sí siempre y cuando pueda modelar el proceso correctamente, frente a la vista @propofol, que encuentra muchos aliados en disciplinas experimentales y quienes pueden compartir algunos de los pensamientos expresados ​​en (un ensayo bastante oscuro pero bueno) de Gerber et al (2004). En segundo lugar, suponiendo que usted piense que la causalidad puede inferirse de los datos de observación, podría preguntarse si los métodos de puntaje de propensión son útiles para hacerlo. Los métodos de puntuación de propensión incluyen varias estrategias de acondicionamiento, así como ponderación de propensión inversa. Lunceford y Davidian (2004) ofrecen una buena revisión.

Sin embargo, una pequeña arruga: el emparejamiento y la ponderación del puntaje de propensión también se usan en el análisis de experimentos aleatorios cuando, por ejemplo, hay interés en calcular los "efectos indirectos" y también cuando hay problemas de deserción o abandono potencialmente no aleatorio ( en cuyo caso lo que tienes se parece a un estudio observacional).

Referencias

Gerber A y col. 2004. "La ilusión de aprender de la investigación observacional". En Shapiro I, et al, Problemas y métodos en el estudio de la política , Cambridge University Press.

Lunceford JK, Davidian M. 2004. "Estratificación y ponderación a través de la puntuación de propensión en la estimación de los efectos del tratamiento causal: un estudio comparativo". Estadísticas en medicina 23 (19): 2937–2960.

Pearl J. 2009. Causality (2nd Ed.) , Cambridge University Press.

Cyrus S
fuente
Es bueno que cites todo el libro de Pearl.
chl
0

La sabiduría convencional afirma que solo los ensayos controlados aleatorios (experimentos "reales") pueden identificar la causalidad.

Sin embargo, no es tan simple como eso.

Una razón por la que la aleatorización puede no ser suficiente es que en muestras "pequeñas" la ley de gran número no es "lo suficientemente fuerte" para garantizar que todas y cada una de las diferencias estén equilibradas. La pregunta es: ¿qué es "demasiado pequeño" y cuándo comienza "lo suficientemente grande"? ¡Saint-Mont (2015) argumenta aquí que "lo suficientemente grande" bien puede comenzar en miles (n> 1000)!

Después de todo, el punto es equilibrar las diferencias entre grupos, controlar las diferencias. Por lo tanto, incluso en experimentos, se debe tener mucho cuidado para equilibrar las diferencias entre los grupos. De acuerdo con los cálculos de Saint-Mont (2015), es muy posible que en muestras más pequeñas se pueda mejorar considerablemente con muestras emparejadas (balanceadas manualmente).

En cuanto a la probabilidad. Por supuesto, la probabilidad nunca puede dar una respuesta concluyente, a menos que la probabilidad sea extrema (cero o uno). Sin embargo, en ciencia, nos encontramos con frecuencia confrontados con situaciones en las que no podemos proporcionar una respuesta concluyente ya que las cosas son difíciles. De ahí la necesidad de probabilidad. La probabilidad no es más que una forma de expresar nuestra incertidumbre en una declaración. Como tal, es similar a la lógica; ver Briggs (2016) aquí .

Entonces, la probabilidad nos ayudará, pero no dará respuestas concluyentes, no hay certeza. Pero es de gran utilidad: expresar incertidumbre.

Tenga en cuenta también que la causalidad no es principalmente una cuestión estadística. Supongamos que dos medios difieren "significativamente". ¿No significa que la variable de agrupación es la causa de la diferencia en la variable medida? No (no necesariamente) No importa qué estadística particular se use (puntaje de propensión, valores p, factores de Bayes, etc.), tales métodos (prácticamente) nunca son suficientes para respaldar las afirmaciones causales.

Sebastian Sauer
fuente