Diferentes resultados después de la coincidencia de puntaje de propensión en R

8

He llevado a cabo el emparejamiento de puntaje de prospensión (en R usando el paquete R "Matchit"). Utilicé el método de coincidencia "vecino más cercano". Después de la comparación, comparé el tratamiento y el grupo de control en términos de su variable de resultado. Para esta comparación, utilicé la prueba t. Descubrí que después de cada procedimiento de coincidencia, los resultados de la prueba t cambiaron. Para probar mi suposición de que este cambio en los resultados se debió a la selección aleatoria de los puntajes de propensión (que se usan para la coincidencia de vecinos más cercanos) configuré el generador de números aleatorios en una semilla específica y realicé el procedimiento de coincidencia varias veces. Al configurar el RNG, los resultados ya no diferían.

  1. Enfrentado con resultados diferentes después de cada procedimiento de correspondencia: ¿cómo decido qué solución de correspondencia uso para un análisis más detallado? ¿Es un método válido para llevar a cabo el procedimiento de coincidencia varias veces (digamos 10'000) e informar la mediana de los valores p y t de los resultados que obtengo de las diversas pruebas t?
Brisa
fuente
2
No estoy seguro de por qué se vota fuera de tema, ya que parece haber una pregunta estadística aquí que es completamente independiente de qué software se está utilizando.
mdewey
1
Parece que esta pregunta es un duplicado de stats.stackexchange.com/questions/118636/…
Viktor

Respuestas:

1

Esto sucede cuando tiene (al menos) dos personas que tienen el mismo puntaje de propensión. MatchIt selecciona aleatoriamente uno para incluir en el conjunto coincidente. Mi recomendación sería seleccionar un conjunto coincidente y llevar a cabo su análisis con él. Estoy de acuerdo en que probar otros métodos de acondicionamiento como la coincidencia completa y IPW sería una buena idea. Puede informar los resultados de varios análisis en una sección de análisis de sensibilidad.

Editar : Esta es probablemente la respuesta incorrecta. Vea la respuesta de Viktor para lo que probablemente sea la causa real.

Noé
fuente
Gracias Noah por tu respuesta. Tu explicación es muy útil. Decidí hacer una comparación de calibrador de vecino más cercano (orden aleatorio) según lo sugerido por Austin (2014). Como me recomendó, seleccioné un conjunto coincidente y realicé mi análisis con él.
Brisa
Creo que es una explicación incorrecta. Las observaciones con puntajes de propensión coincidentes son muy, muy posteriores. El caso es que MatchIt selecciona aleatoriamente el orden de las observaciones tratadas para la coincidencia. Puede arreglar la coincidencia llamando set.seed()antes de la coincidencia.
Viktor
Estoy de acuerdo contigo @Viktor. Editaré mi respuesta.
Noah
1

Este es un comportamiento estándar del paquete MatchIt. Mezcla las observaciones antes de la coincidencia, es decir, selecciona aleatoriamente el orden de coincidencia para las observaciones tratadas. Puede usar la set.seed()función para corregir los resultados. Por ejemplo, llame set.seed(100)antes de llamar matchit(). Diferentes argumentos de set.seed()corresponderán a diferentes coincidencias.

Viktor
fuente
0

Esta es una pregunta muy interesante. La primera explicación que puedo sugerir es que su estudio es bastante pequeño y, por lo tanto, pocas diferencias coincidentes son impactantes. Más en general, la coincidencia de vecinos más cercanos no es muy precisa. La calibración del calibrador es más confiable, y posiblemente las diferencias que informe disminuyan o desaparezcan al usarlo (como con el uso de la ponderación de tratamiento de probabilidad inversa). Finalmente, no estoy seguro de si usó la prueba t para comparar las diferencias de la línea de base (lo cual es inapropiado, ya que esto debería hacerse calculando las diferencias estandarizadas), o para la prueba de hipótesis (en cuyo caso se debe usar una prueba emparejada). En cualquier caso, el enfoque de informe típico es simplemente informar los resultados de un solo procedimiento de coincidencia, siempre y cuando se realice correctamente (por ejemplo, con la comparación de calibre).

Joe_74
fuente
1
¡Gracias! Los tamaños de muestra basales fueron 1096 (control) y 328 (grupo de tratamiento). Después del emparejamiento, ambos tamaños de grupo se redujeron a 324. Realmente realicé el emparejamiento del vecino más cercano usando un calibrador de .25 std del puntaje de propensión. También comparé la coincidencia de vecinos más cercana con y sin el calibrador, lo que condujo a que se descartaran 4 unidades adicionales en cada grupo. Calculé las diferencias estandarizadas de las medias de las covariables antes vs. después de la correspondencia. Estos valores no cambiaron después de cada coincidencia, pero los valores en la variable de resultado sí lo hicieron.
Brisa
@Breeze ya veo. ¿Has probado la coincidencia 1: 2 o IPTW?
Joe_74
1
Hola Joe_74, gracias por tu respuesta. Intenté la coincidencia exacta dentro de la coincidencia vecina más cercana. Lamentablemente, el tamaño de mi muestra se redujo a 294 unidades en ambos grupos. Si es posible, me gustaría mantener tamaños de muestra superiores a 300. Pero no he encontrado la ponderación de tratamiento de probabilidad inversa. ¿Lo recomendarías?
Brisa
@Breeze definitivamente. IPTW es clave para ajustar las diferencias residuales en PS. Usarlo significa que también puede conservar todos sus casos, no solo los que coinciden.
Joe_74
1
esto suena interesante, gracias. Podría intentarlo después. Si llevo a cabo mi coincidencia como lo describí anteriormente (vecino más cercano con calibrador), ¿me aconsejaría que informe los resultados de un único procedimiento de coincidencia aleatoria? Dado que obtengo resultados diferentes cada vez, elegir solo los resultados de un procedimiento me parece demasiado aleatorio ... ¿cuál es su opinión sobre esto?
Brisa