Me refiero a este artículo: Hayes JR, Groner JI. "Utilizando puntajes de imputación y propensión múltiples para evaluar el efecto de los asientos de automóvil y el uso del cinturón de seguridad en la gravedad de las lesiones a partir de los datos del registro de traumatismos". J Pediatr Surg. Mayo de 2008; 43 (5): 924-7.
En este estudio, se realizó una imputación múltiple para obtener 15 conjuntos de datos completos. Los puntajes de propensión se calcularon para cada conjunto de datos. Luego, para cada unidad de observación, se eligió un registro al azar de uno de los 15 conjuntos de datos completados (incluida la puntuación de propensión relacionada), creando así un único conjunto de datos final para el que luego se analizó por coincidencia de puntuación de propensión.
Mis preguntas son: ¿Es esta forma válida de realizar una coincidencia de puntaje de propensión después de una imputación múltiple? ¿Hay formas alternativas de hacerlo?
Para el contexto: en mi nuevo proyecto, mi objetivo es comparar los efectos de 2 métodos de tratamiento utilizando la coincidencia de puntaje de propensión. Faltan datos y tengo la intención de usar el MICE
paquete en R para imputar los valores faltantes, luego twang
hacer la coincidencia de puntaje de propensión y luego lme4
analizar los datos coincidentes.
Actualización1:
He encontrado este documento que adopta un enfoque diferente: Mitra, Robin y Reiter, Jerome P. (2011) Coincidencia de puntaje de propensión con covariables faltantes a través de imputación múltiple secuencial iterada [Documento de trabajo]
En este artículo, los autores calculan los puntajes de propensión en todos los conjuntos de datos imputados y luego los agrupan promediando, lo que está en el espíritu de la imputación múltiple usando la regla de Rubin para una estimación puntual, pero ¿es realmente aplicable para un puntaje de propensión?
Sería realmente bueno si alguien en CV pudiera proporcionar una respuesta con comentarios sobre estos 2 enfoques diferentes, y / o cualquier otro ...
fuente
cobalt
paquete titulado "Uso de cobalto con datos complicados". Puede acceder aquí: CRAN.R-project.org/package=cobaltPuede haber un choque de dos paradigmas. La imputación múltiple es una solución bayesiana fuertemente basada en el modelo: el concepto de la imputación adecuada esencialmente establece que necesita muestrear a partir de la distribución posterior bien definida de los datos, de lo contrario está jodido. La coincidencia de puntaje de propensión, por otro lado, es un procedimiento semiparamétrico: una vez que haya calculado su puntaje de propensión (no importa cómo, podría haber utilizado una estimación de densidad del núcleo, no necesariamente un modelo logit), puede hacer el resto simplemente tomando las diferencias entre las observaciones tratadas y no tratadas con el mismo puntaje de propensión, que ahora es un poco no paramétrico, ya que no queda ningún modelo que controle otras covariables. Yo no'Abadie e Imbens (2008) discutieron que hace que sea imposible acertar con los errores estándar en algunas de las situaciones coincidentes). Daría más confianza a los enfoques más suaves como la ponderación por la propensión inversa. Mi referencia favorita sobre esto es "Econometría en su mayoría inofensiva" , subtitulada "Un compañero empirista" y dirigida a economistas, pero creo que este libro debería ser una lectura obligatoria para otros científicos sociales, la mayoría de los bioestadísticos y estadísticos no bio así que saben cómo otras disciplinas abordan el análisis de datos.
En cualquier caso, usar solo una de las 15 líneas de datos completas simuladas por observación es equivalente a una sola imputación. Como resultado, pierde eficiencia en comparación con los 15 conjuntos de datos completados, y no puede estimar los errores estándar correctamente. A mí me parece un procedimiento deficiente, desde cualquier ángulo.
Por supuesto, felizmente barremos bajo la alfombra la suposición de que tanto el modelo de imputación múltiple como el modelo de propensión son correctos en el sentido de tener todas las variables correctas en todas las formas funcionales correctas. Hay poca forma de verificar eso (aunque me alegraría saber lo contrario sobre las medidas de diagnóstico para ambos métodos).
fuente
Realmente no puedo hablar sobre los aspectos teóricos de la pregunta, pero daré mi experiencia usando modelos PS / IPTW e imputación múltiple.
fuente