Pregunta: Desde el punto de vista del estadístico (o un profesional), ¿se puede inferir causalidad usando puntajes de propensión con un estudio observacional ( no un experimento )?
Por favor, no quiera comenzar una guerra de llamas o un debate fanático.
Antecedentes: dentro de nuestro programa de doctorado de estadísticas, solo hemos tocado la inferencia causal a través de grupos de trabajo y algunas sesiones temáticas. Sin embargo, hay algunos investigadores muy destacados en otros departamentos (por ejemplo, HDFS, Sociología) que los están utilizando activamente.
Ya he presenciado un debate bastante acalorado sobre este tema. No es mi intención comenzar uno aquí. Dicho esto, ¿qué referencias has encontrado? ¿Qué puntos de vista tienes? Por ejemplo, un argumento que escuché contra los puntajes de propensión como técnica de inferencia causal es que nunca se puede inferir causalidad debido al sesgo variable omitido: si omite algo importante, rompe la cadena causal. ¿Es este un problema irresoluble?
Descargo de responsabilidad: esta pregunta puede no tener una respuesta correcta, completamente genial al hacer clic en cw, pero personalmente estoy muy interesado en las respuestas y estaría contento con algunas buenas referencias que incluyen ejemplos del mundo real.
fuente
La pregunta parece involucrar dos cosas que realmente deberían considerarse por separado. Primero es si uno puede inferir causalidad a partir de un estudio observacional, y en eso podría contrastar las opiniones de, por ejemplo, Pearl (2009), quien argumenta que sí siempre y cuando pueda modelar el proceso correctamente, frente a la vista @propofol, que encuentra muchos aliados en disciplinas experimentales y quienes pueden compartir algunos de los pensamientos expresados en (un ensayo bastante oscuro pero bueno) de Gerber et al (2004). En segundo lugar, suponiendo que usted piense que la causalidad puede inferirse de los datos de observación, podría preguntarse si los métodos de puntaje de propensión son útiles para hacerlo. Los métodos de puntuación de propensión incluyen varias estrategias de acondicionamiento, así como ponderación de propensión inversa. Lunceford y Davidian (2004) ofrecen una buena revisión.
Sin embargo, una pequeña arruga: el emparejamiento y la ponderación del puntaje de propensión también se usan en el análisis de experimentos aleatorios cuando, por ejemplo, hay interés en calcular los "efectos indirectos" y también cuando hay problemas de deserción o abandono potencialmente no aleatorio ( en cuyo caso lo que tienes se parece a un estudio observacional).
Referencias
Gerber A y col. 2004. "La ilusión de aprender de la investigación observacional". En Shapiro I, et al, Problemas y métodos en el estudio de la política , Cambridge University Press.
Lunceford JK, Davidian M. 2004. "Estratificación y ponderación a través de la puntuación de propensión en la estimación de los efectos del tratamiento causal: un estudio comparativo". Estadísticas en medicina 23 (19): 2937–2960.
Pearl J. 2009. Causality (2nd Ed.) , Cambridge University Press.
fuente
La sabiduría convencional afirma que solo los ensayos controlados aleatorios (experimentos "reales") pueden identificar la causalidad.
Sin embargo, no es tan simple como eso.
Una razón por la que la aleatorización puede no ser suficiente es que en muestras "pequeñas" la ley de gran número no es "lo suficientemente fuerte" para garantizar que todas y cada una de las diferencias estén equilibradas. La pregunta es: ¿qué es "demasiado pequeño" y cuándo comienza "lo suficientemente grande"? ¡Saint-Mont (2015) argumenta aquí que "lo suficientemente grande" bien puede comenzar en miles (n> 1000)!
Después de todo, el punto es equilibrar las diferencias entre grupos, controlar las diferencias. Por lo tanto, incluso en experimentos, se debe tener mucho cuidado para equilibrar las diferencias entre los grupos. De acuerdo con los cálculos de Saint-Mont (2015), es muy posible que en muestras más pequeñas se pueda mejorar considerablemente con muestras emparejadas (balanceadas manualmente).
En cuanto a la probabilidad. Por supuesto, la probabilidad nunca puede dar una respuesta concluyente, a menos que la probabilidad sea extrema (cero o uno). Sin embargo, en ciencia, nos encontramos con frecuencia confrontados con situaciones en las que no podemos proporcionar una respuesta concluyente ya que las cosas son difíciles. De ahí la necesidad de probabilidad. La probabilidad no es más que una forma de expresar nuestra incertidumbre en una declaración. Como tal, es similar a la lógica; ver Briggs (2016) aquí .
Entonces, la probabilidad nos ayudará, pero no dará respuestas concluyentes, no hay certeza. Pero es de gran utilidad: expresar incertidumbre.
Tenga en cuenta también que la causalidad no es principalmente una cuestión estadística. Supongamos que dos medios difieren "significativamente". ¿No significa que la variable de agrupación es la causa de la diferencia en la variable medida? No (no necesariamente) No importa qué estadística particular se use (puntaje de propensión, valores p, factores de Bayes, etc.), tales métodos (prácticamente) nunca son suficientes para respaldar las afirmaciones causales.
fuente