Todos estamos familiarizados con los estudios observacionales que intentan establecer un vínculo causal entre un predictor X no aleatorio y un resultado al incluir todos los posibles factores de confusión imaginables en un modelo de regresión múltiple. Al "controlar" todos los factores de confusión, dice el argumento, aislamos el efecto del predictor de interés.
Estoy desarrollando una incomodidad cada vez mayor con esta idea, basada principalmente en comentarios extraños hechos por varios profesores de mis clases de estadística. Se dividen en algunas categorías principales:
1. Solo puede controlar las covariables que piensa y mide.
Esto es obvio, pero me pregunto si en realidad es el más pernicioso e insuperable de todos.
2. El enfoque ha llevado a errores feos en el pasado.
Por ejemplo, Petitti y Freedman (2005) analizan cómo el valor de décadas de estudios observacionales ajustados estadísticamente llegó a conclusiones desastrosamente incorrectas sobre el efecto de la terapia de reemplazo hormonal en el riesgo de enfermedad cardíaca. Los ECA posteriores encontraron efectos casi opuestos.
3. La relación predictor-resultado puede comportarse de manera extraña cuando controlas las covariables.
Yu-Kang Tu, Gunnell y Gilthorpe (2008) analizan algunas manifestaciones diferentes, incluidas la Paradoja de Lord, la Paradoja de Simpson y las variables supresoras.
4. Es difícil para un modelo único (regresión múltiple) ajustar adecuadamente las covariables y modelar simultáneamente la relación predictor-resultado.
He escuchado esto dado como una razón para la superioridad de métodos como los puntajes de propensión y la estratificación en los factores de confusión, pero no estoy seguro de entenderlo realmente.
5. El modelo ANCOVA requiere que la covariable y el predictor de interés sean independientes.
Por supuesto, nos ajustamos a los factores de confusión precisamente PORQUE están correlacionados con el predictor de interés, por lo que parece que el modelo no tendrá éxito en los casos exactos cuando más lo queremos. El argumento dice que el ajuste solo es apropiado para la reducción de ruido en ensayos aleatorios. Miller y Chapman, 2001 dan una gran crítica.
Entonces mis preguntas son:
- ¿Qué tan graves son estos problemas y otros que quizás no conozca?
- ¿Cuánto miedo debería tener cuando veo un estudio que "controla todo"?
(Espero que esta pregunta no se adentre demasiado en el territorio de discusión e invito con gusto cualquier sugerencia para mejorarla).
EDITAR : agregué el punto 5 después de encontrar una nueva referencia.
fuente
Respuestas:
Hay una respuesta cada vez más aceptada, no estadística, tal vez: ¿qué suposiciones hay que hacer para afirmar que uno realmente ha controlado las covariables?
Eso se puede hacer con los gráficos causales de Judea Pearl y hacer cálculos .
Consulte http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf , así como otro material en su sitio web.
Ahora, como estadísticos, sabemos que todos los modelos son falsos, y la verdadera pregunta estadística es si los supuestos identificados probablemente no sean demasiado incorrectos, de modo que nuestra respuesta sea aproximadamente correcta. Pearl es consciente de esto y lo discute en su trabajo, pero tal vez no de manera explícita y con la frecuencia suficiente para evitar frustrar a muchos estadísticos con su afirmación de tener una respuesta (lo que creo que hace con respecto a qué suposiciones hay que hacer ).
(Actualmente, la ASA está ofreciendo un premio por material didáctico para incluir estos métodos en cursos estadísticos, ver aquí )
fuente
Respuesta a la pregunta 1:
Respuesta a la pregunta 2:
Ten mucho miedo. Simplemente para reiterar lo que otros ya han dicho y citar (aproximadamente) del elegante texto introductorio de Richard McElreath sobre el pensamiento crítico en el modelado estadístico :
"... todos los modelos son falsos, pero algunos son útiles ..."
fuente