¿Por qué la coincidencia de puntaje de propensión funciona para la inferencia causal?

13

La coincidencia de puntaje de propensión se usa para hacer inferencias causales en estudios observacionales (ver el artículo de Rosenbaum / Rubin ). ¿Cuál es la simple intuición detrás de por qué funciona?

En otras palabras, ¿por qué si nos aseguramos de que la probabilidad de participar en el tratamiento sea igual para los dos grupos, los efectos de confusión desaparecen y podemos usar el resultado para sacar conclusiones causales sobre el tratamiento?

causality regression-strategies propensity-scores confounding max
fuente

8

La mía es probablemente una opinión impopular, pero creo que decir que PSM le permite hacer inferencias causales lo está estirando un poco. Sí, es un método de emparejamiento más fino que solo el emparejamiento "crudo" en un puñado de variables, pero al final del día, todavía solo está emparejando solo aquellas variables que usted puede observar. Es posible que aún tenga un tratamiento endógeno, pero asume que después del emparejamiento, el tratamiento es exógeno. Pero, de nuevo, no soy nadie en comparación con Rubin :)

Marqués de Carabas

55

Hay quienes no están de acuerdo con Rosenbaum y Rubin. Gary King ha argumentado de manera bastante efectiva que los resultados de la comparación usando PSM son inferiores a los resultados obtenidos de la comparación basada en la distancia de Mahalanobis. Véase su papel aquí ... gking.harvard.edu/files/gking/files/psnot.pdf?m=1456683191 Además, este seminario proporciona evidencia aún más convincente ... methods-colloquium.com/...

Mike Hunter

44

En teoría, PUEDES hacer una inferencia causal aplicando el modelo causal de Rubin si se cumplen todos los supuestos. Pero, por supuesto, el diablo siempre está en los detalles de la suposición, y para mí, la suposición de factores de confusión no observados es a menudo difícil. De hecho, es imposible de probar. Pero al menos puede realizar análisis de sensibilidad para determinar qué tomaría cambiar sus conclusiones si tuviera factores de confusión no observados.

StatsStudent

55

Buen punto @DJohnson. También hay personas como Judea Pearl, Ian Shrier y Arvid Sjolander que critican el Marco de resultados potenciales de Rubin para la inferencia causal debido a la posibilidad de introducir un "sesgo M" a través de lo que llaman un "colisionador". Son lecturas interesantes y deberían complementar cualquier lectura de Rubin.

StatsStudent

12

Trataré de darte una comprensión intuitiva con un mínimo énfasis en las matemáticas.

El principal problema con los datos de observación y los análisis que se derivan de ellos es confuso. La confusión ocurre cuando una variable afecta no solo el tratamiento asignado sino también los resultados. Cuando se realiza un experimento aleatorio, los sujetos se asignan al azar a los tratamientos, de modo que, en promedio, los sujetos asignados a cada tratamiento deben ser similares con respecto a las covariables (edad, raza, género, etc.). Como resultado de esta aleatorización, es poco probable (especialmente en muestras grandes) que las diferencias en el resultado se deban a cualquier covariable, pero debido al tratamiento aplicado, ya que, en promedio, las covariables en los grupos de tratamiento son similares.

Por otro lado, con los datos de observación no existe un mecanismo aleatorio que asigne a los sujetos a los tratamientos. Tomemos, por ejemplo, un estudio para examinar las tasas de supervivencia de los pacientes después de una nueva cirugía cardíaca en comparación con un procedimiento quirúrgico estándar. Por lo general, uno no puede aleatorizar a los pacientes a cada procedimiento por razones éticas. Como resultado, los pacientes y los médicos se auto-seleccionan en uno de los tratamientos, a menudo debido a una serie de razones relacionadas con sus covariables. Por ejemplo, el nuevo procedimiento podría ser algo más arriesgado si es mayor y, como resultado, los médicos pueden recomendar el nuevo tratamiento con mayor frecuencia a pacientes más jóvenes. Si esto sucede y observa las tasas de supervivencia, el nuevo tratamiento podría parecer más efectivo, pero esto sería engañoso ya que los pacientes más jóvenes fueron asignados a este tratamiento y los pacientes más jóvenes tienden a vivir más tiempo, en igualdad de condiciones. Aquí es donde los puntajes de propensión son útiles.

Los puntajes de propensión ayudan con el problema fundamental de la inferencia causal: que puede tener confusión debido a la no aleatorización de los sujetos a los tratamientos y esta puede ser la causa de los "efectos" que está viendo en lugar de la intervención o el tratamiento solo. Si pudiera modificar su análisis de alguna manera para que las covariables (por ejemplo, edad, sexo, sexo, estado de salud) estuvieran "equilibradas" entre los grupos de tratamiento, tendría una fuerte evidencia de que la diferencia en los resultados se debe a la intervención / tratamiento en lugar de estas covariables. Las puntuaciones de propensión determinan la probabilidad de que cada sujeto sea asignado al tratamiento que recibió dado el conjunto de covaritas observadas. Si luego coincide con estas probabilidades (puntajes de propensión),

Puede preguntar por qué no coincide exactamente con las covariables (por ejemplo, asegúrese de que los hombres de 40 años con buena salud en el tratamiento 1 con los hombres de 40 años con buena salud en el tratamiento 2). Esto funciona bien para muestras grandes y algunas covariables, pero se vuelve casi imposible hacerlo cuando el tamaño de la muestra es pequeño y el número de covariables es incluso de tamaño moderado (vea la maldición de dimensionalidad en Validación cruzada para saber por qué este es el caso) .

Ahora, dicho todo esto, el puntaje de propensión al talón de Aquiles es la suposición de que no hay factores de confusión no observados. Esta suposición establece que no ha fallado en incluir ninguna covariable en su ajuste que sea un posible factor de confusión. Intuitivamente, la razón detrás de esto es que si no ha incluido un factor de confusión al crear su puntaje de propensión, ¿cómo puede ajustarlo? También hay suposiciones adicionales, como la suposición de valor de tratamiento de unidad estable, que establece que el tratamiento asignado a un sujeto no afecta el resultado potencial de los otros sujetos.

EstadísticasEstudiante
fuente

7

En sentido estricto, el ajuste del puntaje de propensión no tiene más que ver con la inferencia causal que el modelado de regresión. La única diferencia real con los puntajes de propensión es que facilitan el ajuste para más factores de confusión potenciales observados que el tamaño de la muestra que puede permitir la incorporación de modelos de regresión. El ajuste del puntaje de propensión (que se realiza mejor mediante el ajuste de covariables en la mayoría de los casos, utilizando una spline en el logit PS) puede considerarse como una técnica de reducción de datos en la que la reducción se realiza a lo largo de un eje importante: confusión. Sin embargo, no maneja la heterogeneidad de los resultados (sesgo de susceptibilidad), por lo que también debe ajustarse para las covariables importantes clave incluso cuando se utilizan propensiones (consulte también los problemas relacionados con la no colapsabilidad de las probabilidades y las razones de riesgo).

La coincidencia de puntaje de propensión puede excluir muchas observaciones y, por lo tanto, ser terriblemente ineficiente. Veo cualquier método que excluya observaciones relevantes como problemático. El verdadero problema con el emparejamiento es que excluye las observaciones fácilmente emparejadas debido a la necesidad percibida de tener un emparejamiento 1: 1, y la mayoría de los algoritmos de emparejamiento dependen del orden de observación.

Tenga en cuenta que es muy fácil cuando se realiza un ajuste de regresión estándar para la confusión para verificar y excluir regiones que no se superponen. A los usuarios con puntaje de propensión se les enseña a hacer esto y la única razón por la que los modeladores de regresión no lo hacen es porque no se les enseña a hacerlo.

El análisis del puntaje de propensión oculta cualquier interacción con la exposición, y el emparejamiento del puntaje de propensión oculta además una posible relación entre el PS y el efecto del tratamiento.

El análisis de sensibilidad (a factores de confusión no medidos) se ha elaborado para PS pero es aún más fácil de hacer con el modelo de regresión estándar.

Si usa métodos de regresión flexibles para estimar el PS (p. Ej., No asuma que ninguna variable continua actúa linealmente), ni siquiera necesita verificar el equilibrio; debe haber equilibrio o el modelo de regresión del PS no se especificó correctamente al principio . Solo necesita verificar si no se superponen. Esto supone que no hay interacciones importantes que se omitieron del modelo de propensión. Coincidencia hace la misma suposición.

Frank Harrell
fuente

3

Recomiendo echar un vistazo a la Econometría en su mayoría inofensiva: tienen una buena explicación de esto a un nivel intuitivo.

El problema que está tratando de resolver es el sesgo de selección. Si una variable se correlaciona con los resultados potenciales y con la probabilidad de recibir tratamiento, entonces si encuentra que el resultado esperado del tratamiento es mejor que el resultado esperado del no tratado, esto puede ser un hallazgo espurio ya que los tratados tienden a tener una mayor y, por lo tanto, tienen mayor . El problema surge porque hace que correlacionen con el tratamiento. $x_i$ $y_{0i},y_{1i}$ $x$ $y_{0i},y_{1i}$ $x$ $y_{0i},y_{1i}$

Este problema se puede resolver controlando . Si creemos que la relación entre los resultados potenciales y las variables es lineal, solo hacemos esto al incluir en una regresión con una variable ficticia para el tratamiento, y la variable ficticia interactúa con . Por supuesto, la regresión lineal es flexible ya que también podemos incluir funciones de . ¿Pero qué pasa si no queremos imponer una forma funcional? Entonces necesitamos usar un enfoque no paramétrico: coincidencia. $x$ $x$ $x$ $x$ $x$

Con el emparejamiento, comparamos observaciones tratadas y no tratadas con similares . Salimos de esto con una estimación del efecto del tratamiento para todos los valores de (o pequeños rangos de valores o "cubos") para los que tenemos observaciones tratadas y no tratadas. Si no tenemos muchos valores o cubetas de , en particular si es un vector de alta dimensión, por lo que es difícil encontrar observaciones cercanas entre sí, entonces es útil proyectar este espacio en una dimensión. $x$ $x$ $x$ $x$

Esto es lo que hace el emparejamiento de puntaje de propensión. Si no están correlacionados con el tratamiento dado , entonces resulta que tampoco están correlacionados con el tratamiento dado donde es la probabilidad de tratamiento dado , es decir, el puntaje de propensión de . $y_{0i},y_{1i}$ $x_i$ $p(x_i)$ $p(x)$ $x$ $x$

Aquí está su intuición: si encontramos una submuestra de observaciones con un puntaje de propensión muy similar , entonces para esa submuestra, los grupos tratados y no tratados no están correlacionados con . Es igualmente probable que cada observación sea tratada o no tratada; Esto implica que cualquier observación tratada es igualmente probable que provenga de cualquiera de los valores de en la submuestra. Dado que es lo que determina los resultados potenciales en nuestro modelo, esto implica que, para esa submuestra, los resultados potenciales $p(x)$ $x$ $x$ $x$ $y_{0i},y_{1i}$ no están correlacionados con el tratamiento. Esta condición asegura que la diferencia promedio de resultado de la submuestra entre los tratados y no tratados es una estimación consistente del efecto promedio del tratamiento en esta submuestra, es decir

E [y_{i} | Treated, p (x)] - E [y_{i} | Untreated, p (x)]

$E[y_i|\text{Treated},p(x)] - E[y_i|\text{Untreated},p(x)]$

es una estimación consistente del efecto del tratamiento promedio local.

Otras lecturas:

¿Realmente deberíamos usar el emparejamiento de puntaje de propensión en la práctica?

Pregunta relacionada que compara emparejamiento y regresión

nfernand
fuente

1

"Funciona" por la misma razón que la regresión "funciona": estás controlando todos los factores de confusión.

Puede lograr dicho control analítico mediante un modelo de regresión completamente especificado con quizás muchas variables de confusión, o un modelo de regresión con solo una variable: el puntaje de propensión (que puede ser o no un modelo igualmente complicado que consiste en esos mismos factores de confusión). Podría seguir con esta regresión frente al puntaje de propensión, o podría comparar la respuesta dentro de grupos similares, donde la similitud se define por el puntaje de propensión. En espíritu, estás haciendo lo mismo, pero algunas personas sienten que el último método resalta mejor la tarea causal en cuestión.

Actualizar los siguientes comentarios

Mi pensamiento para explicar la intuición detrás de por qué funciona el emparejamiento de puntaje de propensión fue explicar el teorema del puntaje de propensión , es decir, algo que pensé que podría hacer usando la regresión. Pero como sostiene @StatsStudent, la regresión facilita la extrapolación de comparaciones entre el tratamiento y el control que nunca ocurren en los datos. Si esto es parte de por qué la coincidencia de puntaje de propensión "funciona", entonces mi respuesta fue incompleta. Consulté contrafactuales e inferencia causal

Y (0), Y (1) ⊥ T | X \Rightarrow Y (0), Y (1) ⊥ T | p (X),

$Y(0), Y(1) \perp T \, | \, X \Rightarrow Y(0), Y(1) \perp T \, | \, p(X),$ y lea acerca de una versión de coincidencia de vecino más cercano, llamada "coincidencia de calibre" (p. 108) donde los puntajes de propensión del tratamiento y el caso de control más cercano deben estar dentro de una distancia máxima, lo que resulta en algunos casos de tratamiento sin coincidencias. En este caso, el método aún funcionaría ajustando el puntaje de propensión usando un análogo no paramétrico para la regresión, pero también deja en claro lo que no se puede saber solo de los datos (sin un modelo para extrapolar) y permitir una redefinición de la cantidad causal dados los datos disponibles.

Ben Ogorek
fuente

1

Esta respuesta está destinada a ser rechazada porque abarata los métodos de puntaje de propensión comparándolos con la regresión, una palabra sucia en los círculos causales. Pero la respuesta principal admite que "el puntaje de propensión al talón de Aquiles es la suposición de que no hay factores de confusión no observados". Ese es un talón de Aquiles bastante grande. Digamos que se cumple la suposición y tengo un conjunto de datos con todos los factores de confusión en el universo. Ayúdame a entender por qué la regresión no funcionará para descubrir la verdad causal, pero la coincidencia de puntaje de propensión lo hará.

Ben Ogorek

1

La razón por la cual la regresión es a menudo problemática es porque los resultados de la regresión se extrapolan. Con los puntajes de propensión, se asegura, durante las comprobaciones de equilibrio de covariables, que haya una superposición de factores de confusión suficiente entre los grupos de tratamiento. Este no es necesariamente el caso en la regresión y puede conducir a estimaciones inexactas ya que no hay verificaciones de diagnóstico estándar que le indiquen que su modelo de regresión está extrapolando. Es por eso que normalmente ejecuto verificaciones de equilibrio de puntaje de propensión incluso si solo estoy ejecutando un modelo de regresión y no planeo usar los puntajes de propensión por sí mismos.

StatsStudent

¿Por qué la coincidencia de puntaje de propensión funciona para la inferencia causal?

Respuestas: