¿En qué se diferencian los puntajes de propensión de agregar covariables en una regresión, y cuándo se prefieren a la última?

41

Admito que soy relativamente nuevo en los puntajes de propensión y el análisis causal.

Una cosa que no es obvia para mí como recién llegado es cómo el "equilibrio" usando puntajes de propensión es matemáticamente diferente de lo que sucede cuando agregamos covariables en una regresión. ¿Qué tiene de diferente la operación y por qué es (o es) mejor que agregar covariables de subpoblación en una regresión?

He visto algunos estudios que hacen una comparación empírica de los métodos, pero no he visto una buena discusión que relacione las propiedades matemáticas de los dos métodos y por qué PSM se presta a interpretaciones causales mientras que no incluye las covariables de regresión. También parece haber mucha confusión y controversia en este campo, lo que hace que las cosas sean aún más difíciles de aprender.

¿Alguna idea sobre esto o algún indicador de buenos recursos / documentos para comprender mejor la distinción? (Me estoy abriendo paso lentamente a través del libro de causalidad de Judea Pearl, así que no hay necesidad de señalarme eso)

Frank Barry
fuente
3
Le recomiendo que lea Morgan and Winship, 2007 . Los capítulos 4 y 5 hacen una comparación explícita y un contraste de regresión y coincidencia para la identificación del efecto causal.
conjugateprior
1
Cuando verifica las estadísticas de equilibrio, se asegura de que no haya extrapolación entre los grupos de tratamiento que está comparando con respecto al espacio covariable multidimensional. La regresión simplemente extrapola sin verificar esto, por lo que las extrapolaciones pueden dar malas predicciones.
StatsStudent

Respuestas:

17

Una gran diferencia es que la regresión "controla" esas características de forma lineal. La coincidencia por puntajes de propensión elimina la suposición de linealidad, pero, como algunas observaciones pueden no coincidir, es posible que no pueda decir nada sobre ciertos grupos.

Por ejemplo, si está estudiando un programa de capacitación para trabajadores, es posible que todos los afiliados sean hombres, pero la población control no participante estará compuesta por hombres y mujeres. Usando la regresión, podría retroceder, ingresos, por ejemplo, en una variable indicadora de participación y un indicador masculino. Usaría todos sus datos y podría estimar los ingresos de una mujer si hubiera participado en el programa.

Si estuvieras haciendo coincidir, solo podrías unir hombres con hombres. Como resultado, no usaría a ninguna mujer en su análisis y sus resultados no pertenecerían a ellas.

La regresión se puede extrapolar utilizando el supuesto de linealidad, pero la coincidencia no. Todos los demás supuestos son esencialmente los mismos entre regresión y coincidencia. El beneficio del emparejamiento sobre la regresión es que no es paramétrico (excepto que debe suponer que tiene el puntaje de propensión correcto, si así es como está haciendo su emparejamiento).

Para más discusión, vea mi página aquí para un curso que se centró en gran medida en los métodos de correspondencia. Ver especialmente los supuestos de la estrategia de estimación de efectos causales .

Además, asegúrese de leer el artículo de Rosenbaum y Rubin (1983) que describe la coincidencia de puntaje de propensión.

Por último, el emparejamiento ha recorrido un largo camino desde 1983. Visite la página web de Jas Sekhon para conocer su algoritmo de emparejamiento genético.

Charlie
fuente
3
Tal vez esto se deba a que no soy un estadístico, pero cuando parece que asumiste una regresión lineal cuando el OP preguntó sobre la regresión en general. Pero supongo que lo esencial es que agregar covariables a cualquier tipo de regresor hace algunas suposiciones sobre el espacio de entrada para que pueda extrapolarse a nuevos ejemplos, y la coincidencia es más cautelosa sobre qué tipo de cosas pueden extrapolarse.
rrenaud
2
Realiza algunas suposiciones sobre la forma funcional de las variables de confusión cuando estima la función de propensión. Posteriormente, también coincide con personas que tienen valores "cercanos" de la propensión, por lo que no asumiría de inmediato que la coincidencia de propensión resuelve el problema de los efectos de confusión no lineales.
AdamO
2
Los enlaces están rotos.
Carlos Cinelli
11

La respuesta corta es que los puntajes de propensión no son mejores que el modelo ANCOVA equivalente, particularmente con respecto a la interpretación causal.

Los puntajes de propensión se entienden mejor como un método de reducción de datos. Son un medio eficaz para reducir muchas covariables en una sola puntuación que se puede utilizar para ajustar un efecto de interés para un conjunto de variables. Al hacerlo, ahorra grados de libertad al ajustar para un puntaje de propensión único en lugar de múltiples covariables. Esto presenta una ventaja estadística, ciertamente, pero nada más.

Una pregunta que puede surgir al usar el ajuste de regresión con puntajes de propensión es si hay alguna ganancia al usar el puntaje de propensión en lugar de realizar un ajuste de regresión con todas las covariables utilizadas para estimar el puntaje de propensión incluido en el modelo. Rosenbaum y Rubin mostraron que la "estimación puntual del efecto del tratamiento de un análisis de ajuste de covarianza para X multivariante es igual a la estimación obtenida de un ajuste de covarianza univariante para el discriminante lineal de muestra basado en X, siempre que se use la misma matriz de covarianza de muestra tanto para el ajuste de covarianza como para el análisis discriminante ". Por lo tanto, los resultados de ambos métodos deberían llevar a las mismas conclusiones. Sin embargo, Una ventaja de realizar el procedimiento de dos pasos es que primero se puede ajustar un modelo de puntaje de propensión muy complicado con interacciones y términos de orden superior. Dado que el objetivo de este modelo de puntaje de propensión es obtener la mejor probabilidad estimada de asignación de tratamiento, a uno no le preocupa la parametrización excesiva de este modelo.

Desde:

MÉTODOS DE PUNTUACIÓN DE PROPENSIDAD PARA LA REDUCCIÓN DE BIAS EN LA COMPARACIÓN DE UN TRATAMIENTO CON UN GRUPO DE CONTROL NO ALEATORIO

D'Agostino (citando Rosenbaum y Rubin)

D'agostino, RB 1998. Coincidencia de puntaje de propensión para la reducción del sesgo en la comparación de un tratamiento con un grupo de control no aleatorio. Medicina estadística 17: 2265–2281.

Brett
fuente
55
(+1) También hubo un hilo interesante sobre el tema de la causalidad en esta pregunta relacionada. Desde una perspectiva estadística, ¿se puede inferir la causalidad usando puntajes de propensión con un estudio observacional? .
chl
3
Estoy de acuerdo con la premisa general de esta respuesta, pero cuando uno coincide con los puntajes de propensión no es lo mismo que colocar todas las covariables en el modelo (y, por lo tanto, no es solo una técnica de reducción de dimensiones). No es lo mismo si uno pesa por puntajes de propensión tampoco.
Andy W
1
No estoy de acuerdo con esta respuesta. Los puntajes de propensión estimados son buenos cuando equilibran las covariables en los grupos de tratamiento y control y malos cuando no lo hacen. Igual que para un enfoque de condicionamiento de regresión. Si son 'mejores' depende solo de esa propiedad, que variará de un problema a otro.
conjugateprior
1
No estoy de acuerdo porque, aunque el criterio, el equilibrio, es el mismo, las dos estrategias son diferentes, al igual que sus fortalezas y debilidades. Uno puede o no ser un mejor enfoque, dependiendo del problema. De hecho, me parece que el 'modelo ANCOVA equivalente ' no está bien definido. (¿Cómo equivalente?)
conjugateprior
1
Correcto. Ahora veo lo que significa "equivalente", pero la oración que comienza con "Sin embargo" en su cita introduce la diferencia relevante: en la práctica prop. los puntajes se estiman por separado con precisión para que puedan ser mucho más retorcidos que el modelo de análisis. (Y hay otra diferencia en el siguiente párrafo del artículo, no citado.)
conjugateprior
7

Una referencia obtusa probable, pero si por casualidad tiene acceso a ella, recomendaría leer este capítulo del libro ( Apel y Sweeten, 2010 ). Está dirigido a científicos sociales y, por lo tanto, tal vez no sea tan matemáticamente riguroso como parece querer, pero debe profundizar lo suficiente como para ser más que una respuesta satisfactoria a su pregunta.

Hay algunas maneras diferentes en que las personas tratan los puntajes de propensión que pueden dar lugar a conclusiones diferentes de simplemente incluir covariables en un modelo de regresión. Cuando uno iguala los puntajes, no necesariamente tiene un apoyo común para todas las observaciones (es decir, tiene algunas observaciones que parecen no tener la oportunidad de estar en el grupo de tratamiento, y algunas que siempre están en el grupo de tratamiento). También se pueden ponderar las observaciones de varias maneras que pueden dar lugar a conclusiones diferentes.

Además de las respuestas aquí, también le sugiero que consulte las respuestas a la pregunta citada. Hay más sustancia detrás de los puntajes de propensión que simplemente un truco estadístico para lograr el equilibrio covariable. Si lees y entiendes los artículos altamente citados de Rosenbaum y Rubin, será más claro por qué el enfoque es diferente a simplemente agregar covariables en un modelo de regresión. Creo que una respuesta más satisfactoria a su pregunta no está necesariamente en las matemáticas detrás de los puntajes de propensión sino en su lógica.

Andy W
fuente
@Andy W Vea la cita de Rosenbaum y Rubin sobre la equivalencia de la regresión con covariables y el ajuste del puntaje de propensión en mi publicación actualizada.
Brett
0

Me gusta pensar en PS como una parte del diseño del estudio que se separó completamente del análisis. Es decir, es posible que desee pensar en términos de diseño (PS) y análisis (regresión, etc.). Además, el PS proporciona un medio para apoyar la intercambiabilidad para el tratamiento binario; quizás otros puedan comentar si la inclusión de las covariables en el modelo de resultados puede admitir realmente la intercambiabilidad, o si uno supone la intercambiabilidad antes de incluir las covariables en el modelo de resultados.

Teoría de Galois
fuente
-3

Métodos estadísticos Med Res. 2016 abr 19.

Una evaluación del sesgo en los modelos de regresión no lineal ajustados por puntaje de propensión.

Los métodos de puntaje de propensión se usan comúnmente para ajustar la confusión observada al estimar el efecto del tratamiento condicional en estudios observacionales. Un método popular, el ajuste covariable de la puntuación de propensión en un modelo de regresión, se ha demostrado empíricamente sesgado en modelos no lineales. Sin embargo, no se ha presentado ninguna razón teórica subyacente convincente. Proponemos un nuevo marco para investigar el sesgo y la consistencia de los efectos del tratamiento ajustados por puntaje de propensión en modelos no lineales que utiliza un enfoque geométrico simple para forjar un vínculo entre la consistencia del estimador de puntaje de propensión y la colapsabilidad de los modelos no lineales. Bajo este marco, demostramos que el ajuste de la puntuación de propensión en un modelo de resultado da como resultado la descomposición de las covariables observadas en la puntuación de propensión y un término restante. La omisión de este término restante de un modelo de regresión no plegable conduce a estimaciones sesgadas de la razón de probabilidades condicional y la razón de riesgo condicional, pero no para la razón de tasa condicional. Además, mostramos, a través de estudios de simulación, que el sesgo en estos estimadores ajustados por puntaje de propensión aumenta con un mayor tamaño del efecto del tratamiento, efectos covariables más grandes y una disimilitud creciente entre los coeficientes de las covariables en el modelo de tratamiento versus el modelo de resultado.

dt2016
fuente