A menudo, en los artículos de investigación que lee, los investigadores han controlado ciertas variables. Esto se puede hacer mediante métodos como la coincidencia, el bloqueo, etc.
Pero siempre pensé que controlar las variables era algo que se hacía estadísticamente midiendo varias variables que podrían ser influyentes y realizando algunos análisis estadísticos sobre ellas, lo que podría hacerse tanto en experimentos reales como cuasi experimentos. Entonces, por ejemplo, tendría una encuesta u otra prueba en la que mediría la variable independiente y algunas variables posiblemente confusas y haría un análisis.
- ¿Es posible controlar las variables en cuasi experimentos?
- ¿Cuál es el vínculo entre métodos tales como emparejar y controlar estadísticamente las variables?
experiment-design
random-variable
controlling-for-a-variable
Renée Damstra
fuente
fuente
Respuestas:
Al igual que con AdamO, creo que la clave para responder a esta pregunta es la noción de inferencia causal y cómo llegar "hacia" un modelo causal utilizando configuraciones de observación.
En un mundo perfecto, tendríamos algo llamado población contrafactual : la población de estudio, idéntica en todos los aspectos, excepto por lo único que nos interesa. La diferencia entre esas dos poblaciones, basada en esa diferencia, es un verdadero resultado causal.
Obviamente, no podemos tener esto.
Sin embargo, hay formas de acercarse a él:
Aleatorización: esto teóricamente (si la aleatorización se realiza correctamente) debería proporcionarle dos poblaciones idénticas, excepto el tratamiento posterior a la aleatorización.
Estratificación: puede observar una población dentro de los niveles de covariables, donde está haciendo comparaciones "me gusta con me gusta". Esto funciona espléndidamente para un pequeño número de niveles, pero rápidamente se vuelve engorroso.
Emparejamiento: El emparejamiento es un intento de reunir una población de estudio de manera que el Grupo A se parezca al Grupo B, y por lo tanto es susceptible de comparación.
Ajuste estadístico: la inclusión de covariables en un modelo de regresión permite la estimación de un efecto dentro de los niveles de las covariables, de nuevo, comparando like con like, o al menos intentando.
Todos son un intento de acercarse a esa población contrafactual. La mejor manera de lograrlo depende de lo que desea obtener y de cómo se ve su estudio.
fuente
Creo que el modelado causal es la clave para responder esta pregunta. Uno se enfrenta desde el principio para identificar el efecto de interés ajustado / estratificado / controlado correcto antes de siquiera mirar los datos. Si tuviera que estimar la relación altura / capacidad pulmonar en adultos, me ajustaría al estado de fumar ya que fumar frena el crecimiento e influye en la capacidad pulmonar. Los factores de confusión son variables que están causalmente relacionadas con el predictor de interés y están asociadas con el resultado de interés. Ver Causalidad de Judea Pearl, 2ª ed. Uno debe especificar y potenciar su análisis para las variables de confusión correctas incluso antes de que el proceso de recopilación de datos comience a usar lógica racional y conocimiento previo de estudios exploratorios previos.
Mi recomendación es especificar previamente el análisis deseado como parte de una hipótesis. El riesgo de fumar / cáncer ajustado por edad es un parámetro diferente, y conduce a una inferencia diferente en un estudio controlado que el riesgo bruto de fumar / cáncer. El uso del conocimiento de la materia es la mejor manera de seleccionar predictores para el ajuste en los análisis de regresión, o como variables de estratificación, coincidencia o ponderación en varios otros tipos de análisis "controlados" de diseño experimental y cuasiexperimental.
fuente
La historia sobre la relación entre emparejamiento y regresión se resume brevemente en una publicación de blog aquí . En breve
Consulte también la sección 3.3 de Econometría en su mayoría inofensiva o la sección 5.3 de Inferencia contrafactual e causal para una discusión exhaustiva, incluidos los pros y los contras de la ponderación X dada D que la regresión proporciona implícitamente.
@EpiGrad da un buen comienzo en su primera pregunta. Los libros vinculados anteriormente lo tratan casi exclusivamente. Si no tienes experiencia en ciencias de la computación / matemáticas, puedes encontrar a Pearl difícil (¡aunque al final vale la pena!)
fuente