¿Cuál es el vínculo entre métodos tales como emparejar y controlar estadísticamente las variables?

10

A menudo, en los artículos de investigación que lee, los investigadores han controlado ciertas variables. Esto se puede hacer mediante métodos como la coincidencia, el bloqueo, etc.

Pero siempre pensé que controlar las variables era algo que se hacía estadísticamente midiendo varias variables que podrían ser influyentes y realizando algunos análisis estadísticos sobre ellas, lo que podría hacerse tanto en experimentos reales como cuasi experimentos. Entonces, por ejemplo, tendría una encuesta u otra prueba en la que mediría la variable independiente y algunas variables posiblemente confusas y haría un análisis.

¿Es posible controlar las variables en cuasi experimentos?
¿Cuál es el vínculo entre métodos tales como emparejar y controlar estadísticamente las variables?

experiment-design random-variable controlling-for-a-variable Renée Damstra
fuente

1

¿Le echó un vistazo a esta pregunta: cómo-exactamente-hace-un-control-para-otras-variables ?

gung - Restablece a Monica

6

Al igual que con AdamO, creo que la clave para responder a esta pregunta es la noción de inferencia causal y cómo llegar "hacia" un modelo causal utilizando configuraciones de observación.

En un mundo perfecto, tendríamos algo llamado población contrafactual : la población de estudio, idéntica en todos los aspectos, excepto por lo único que nos interesa. La diferencia entre esas dos poblaciones, basada en esa diferencia, es un verdadero resultado causal.

Obviamente, no podemos tener esto.

Sin embargo, hay formas de acercarse a él:

Aleatorización: esto teóricamente (si la aleatorización se realiza correctamente) debería proporcionarle dos poblaciones idénticas, excepto el tratamiento posterior a la aleatorización.
Estratificación: puede observar una población dentro de los niveles de covariables, donde está haciendo comparaciones "me gusta con me gusta". Esto funciona espléndidamente para un pequeño número de niveles, pero rápidamente se vuelve engorroso.
Emparejamiento: El emparejamiento es un intento de reunir una población de estudio de manera que el Grupo A se parezca al Grupo B, y por lo tanto es susceptible de comparación.
Ajuste estadístico: la inclusión de covariables en un modelo de regresión permite la estimación de un efecto dentro de los niveles de las covariables, de nuevo, comparando like con like, o al menos intentando.

Todos son un intento de acercarse a esa población contrafactual. La mejor manera de lograrlo depende de lo que desea obtener y de cómo se ve su estudio.

Fomite
fuente

Maravillosa explicación. Mucho más conciso y mejor aborda la pregunta original. Permítanme agregar que de estos métodos, solo el ajuste estadístico es impermeable al problema de tener estratos vacíos. En un estudio de casos y controles, si deseamos estratificar la población por edad, el emparejamiento, la estratificación y la aleatorización (bloqueada) por edad requieren un engrosamiento o agrupamiento para comparar un caso de 50 años con un control de 51 años.

AdamO

Sin embargo, en la regresión logística, puede usar información continua para tomar prestada información de manera implícita entre los grupos, como con la edad ajustada por spline lineal o base para hacer esa comparación. Esto hace que el modelado de regresión sea una de las metodologías estadísticas más potentes y útiles disponibles.

AdamO

@AdamO estuvo de acuerdo: en mi respuesta en la pregunta vinculada anteriormente, menciono que se puede usar para suavizar áreas sin información, siempre que esa falta de información se deba al azar y al binning. Pero sí, hay una razón por la que la regresión es asombrosa.

Fomite

2

Creo que el modelado causal es la clave para responder esta pregunta. Uno se enfrenta desde el principio para identificar el efecto de interés ajustado / estratificado / controlado correcto antes de siquiera mirar los datos. Si tuviera que estimar la relación altura / capacidad pulmonar en adultos, me ajustaría al estado de fumar ya que fumar frena el crecimiento e influye en la capacidad pulmonar. Los factores de confusión son variables que están causalmente relacionadas con el predictor de interés y están asociadas con el resultado de interés. Ver Causalidad de Judea Pearl, 2ª ed. Uno debe especificar y potenciar su análisis para las variables de confusión correctas incluso antes de que el proceso de recopilación de datos comience a usar lógica racional y conocimiento previo de estudios exploratorios previos.

$R^2$ para modelos lineales para estas variables de ajuste. Otro proceso común en epidemiología es donde las variables solo se agregan al modelo si cambian la estimación del efecto principal (como un cociente de probabilidades o cociente de riesgos) en al menos un 10%. Si bien esto es "más" correcto que la selección del modelo basado en AIC, sigo pensando que hay grandes advertencias en este enfoque.

Mi recomendación es especificar previamente el análisis deseado como parte de una hipótesis. El riesgo de fumar / cáncer ajustado por edad es un parámetro diferente, y conduce a una inferencia diferente en un estudio controlado que el riesgo bruto de fumar / cáncer. El uso del conocimiento de la materia es la mejor manera de seleccionar predictores para el ajuste en los análisis de regresión, o como variables de estratificación, coincidencia o ponderación en varios otros tipos de análisis "controlados" de diseño experimental y cuasiexperimental.

AdamO
fuente

2

La historia sobre la relación entre emparejamiento y regresión se resume brevemente en una publicación de blog aquí . En breve

"Regrese en D [un indicador de tratamiento] y un conjunto completo de modelos ficticios (es decir, saturados) para X [covariables]. La estimación resultante del efecto de D es igual a la coincidencia en X, y ponderación a través de las células covariables por la varianza de tratamiento condicional a X "

Consulte también la sección 3.3 de Econometría en su mayoría inofensiva o la sección 5.3 de Inferencia contrafactual e causal para una discusión exhaustiva, incluidos los pros y los contras de la ponderación X dada D que la regresión proporciona implícitamente.

@EpiGrad da un buen comienzo en su primera pregunta. Los libros vinculados anteriormente lo tratan casi exclusivamente. Si no tienes experiencia en ciencias de la computación / matemáticas, puedes encontrar a Pearl difícil (¡aunque al final vale la pena!)

conjugadoprior
fuente

¿Cuál es el vínculo entre métodos tales como emparejar y controlar estadísticamente las variables?

Respuestas: