¿Qué tan problemático es controlar las covariables no independientes en un estudio observacional (es decir, no aleatorio)?

11

Miller y Chapman (2001) sostienen que es absolutamente inapropiado controlar las covariables no independientes que están relacionadas con las variables independientes y dependientes en un estudio observacional (no aleatorio), a pesar de que esto se hace rutinariamente en las ciencias sociales. ¿Qué tan problemático es hacerlo? ¿Cuál es la mejor manera de lidiar con este problema? Si habitualmente controlas las covariables no independientes en un estudio observacional en tu propia investigación, ¿cómo lo justificas? Finalmente, ¿vale la pena elegir esta pelea cuando discuten la metodología con sus colegas (es decir, realmente importa)?

Gracias

Miller, GA y Chapman, JP (2001). Análisis de malentendidos de covarianza. Revista de psicología anormal, 110, 40-48. - http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf

Patricio
fuente
La siguiente pregunta sobre "explicación intuitiva de multicolinealidad" puede ser de alguna ayuda en el contexto anterior.

Respuestas:

4

Es tan problemático como el grado de correlación.

La ironía es que no se molestaría en controlar si no hubiera alguna correlación esperada con una de las variables. Y, si espera que su variable independiente afecte a su dependiente, entonces necesariamente está algo correlacionada con ambas. Sin embargo, si está altamente correlacionado, tal vez no debería controlarlo, ya que equivale a controlar la variable independiente o dependiente real.

John
fuente
Sé que esta es una respuesta antigua, pero ¿tiene algunas referencias que entren en más detalles? su primera línea, especialmente las que discuten esto con referencia explícita a Miller & Chapman?
jona
4

En las ciencias sociales, a menudo llamamos a este tema "sesgo posterior al tratamiento". Si está considerando el efecto de algún tratamiento (su variable independiente), incluidas las variables que surgen después del tratamiento (en un sentido causal), entonces su estimación del efecto del tratamiento puede estar sesgada. Si incluye estas variables, entonces, en cierto sentido, está controlando el impacto del tratamiento. Si el tratamiento T causa el resultado Y y otras variables A y A causan Y, entonces controlar A ignora el impacto que T tiene sobre Y a través de A. Este sesgo puede ser positivo o negativo.

En las ciencias sociales, esto puede ser especialmente difícil porque A puede causar T, que retroalimenta a A, y A y T causan Y. Por ejemplo, un alto PIB puede conducir a altos niveles de democratización (nuestro tratamiento), lo que conduce a Un mayor PIB y un mayor PIB y una mayor democratización conducen a una menor corrupción gubernamental, por ejemplo. Dado que el PIB causa democratización, si no lo controlamos, entonces tenemos un problema de endogeneidad o "sesgo de variables omitidas". Pero si controlamos el PIB, tenemos un sesgo posterior al tratamiento. Aparte de usar ensayos aleatorios cuando podemos, hay poco más que podamos hacer para dirigir nuestra nave entre Scylla y Charybdis. Gary King habla de estos temas como su nominación para la iniciativa de Harvard "Los problemas más difíciles sin resolver en las ciencias sociales" aquí .

Charlie
fuente
3

A mi entender, hay dos problemas básicos con los estudios observacionales que "controlan" una serie de variables independientes. 1) Tiene el problema de que faltan variables explicativas y, por lo tanto, la especificación errónea del modelo. 2) Tiene el problema de múltiples variables independientes correlacionadas, un problema que no existe en experimentos (bien diseñados), y el hecho de que los coeficientes de regresión y las pruebas ANCOVA de covariables se basan en parciales, lo que dificulta su interpretación. El primero es intrínseco a la naturaleza de la investigación observacional y se aborda en el contexto científico y el proceso de elaboración competitiva. Este último es un tema de educación y se basa en una comprensión clara de los modelos de regresión y ANCOVA y exactamente lo que representan esos coeficientes.

Con respecto al primer tema, es bastante fácil demostrar que si todas las influencias en alguna variable dependiente son conocidas e incluidas en un modelo, los métodos estadísticos de control son efectivos y producen buenas predicciones y estimaciones de efectos para variables individuales. El problema en las "ciencias blandas" es que rara vez se incluyen o se conocen todas las influencias relevantes y, por lo tanto, los modelos están poco especificados y son difíciles de interpretar. Sin embargo, existen muchos problemas valiosos en estos dominios. Las respuestas simplemente carecen de certeza. La belleza del proceso científico es que es autocorrectivo y los modelos son cuestionados, elaborados y refinados. La alternativa es sugerir que no podemos investigar estos problemas científicamente cuando no podemos diseñar experimentos.

El segundo problema es técnico en la naturaleza de ANCOVA y los modelos de regresión. Los analistas deben tener claro qué representan estos coeficientes y pruebas. Las correlaciones entre las variables independientes influyen en los coeficientes de regresión y las pruebas ANCOVA. Son pruebas de parciales. Estos modelos sacan la varianza en una variable independiente dada y la variable dependiente que está asociada con todas las otras variables en el modelo y luego examinan la relación en esos residuos. Como resultado, los coeficientes y las pruebas individuales son muy difíciles de interpretar fuera del contexto de una comprensión conceptual clara de todo el conjunto de variables incluidas y sus interrelaciones. Esto, sin embargo, NO produce problemas para la predicción, solo tenga cuidado al interpretar pruebas y coeficientes específicos.

Una nota al margen: El último tema está relacionado con un problema discutido previamente en este foro sobre la inversión de los signos de regresión, por ejemplo, de negativo a positivo, cuando se introducen otros predictores en un modelo. En presencia de predictores correlacionados y sin una comprensión clara de las relaciones múltiples y complejas entre todo el conjunto de predictores, no hay razón para ESPERAR un coeficiente de regresión (por naturaleza parcial) para tener un signo particular. Cuando existe una teoría sólida y una comprensión clara de esas interrelaciones, tales "reversiones" de signos pueden ser esclarecedoras y teóricamente útiles. Sin embargo, dada la complejidad de muchos problemas de ciencias sociales, no sería común una comprensión suficiente, esperaría.

Descargo de responsabilidad: soy un sociólogo y analista de políticas públicas por capacitación.

Brett
fuente
2

Leí la primera página de su artículo y, por lo tanto, podría haber entendido mal su punto, pero me parece que básicamente están discutiendo el problema de incluir variables independientes multicolineales en el análisis. El ejemplo que toman de edad y grado ilustra esta idea al afirmar que:

La edad está tan íntimamente asociada con el grado en la escuela que la eliminación de la variación en la capacidad de baloncesto asociada con la edad eliminaría una variación considerable (quizás casi toda) en la capacidad de baloncesto asociada con el grado

ANCOVA es una regresión lineal con los niveles representados como variables ficticias y las covariables también aparecen como variables independientes en la ecuación de regresión. Por lo tanto, a menos que haya entendido mal su punto (lo cual es bastante posible ya que no he leído su artículo por completo) parece que están diciendo 'no incluir covariables dependientes', lo que es equivalente a decir evitar variables multicolineales.


fuente
Su argumento se refiere a variables no correlacionadas per se, sino a variables que son prácticamente inseparables entre sí. Variables para las que casi se podría decir "esto no tiene sentido sin eso". En lugar del grado de correlación, que puede evaluarse estadísticamente, el problema debe resolverse conceptualmente. ¿Puede el grado aumentar sin un aumento en la edad? Apenas. ¿Se puede intensificar la depresión sin un aumento de la ansiedad? Esa es una más difícil.
rolando2
1

El (mayor) problema es que debido a que las variables de grupo y las covariables están juntas en el lado predictor de la ecuación, las variables de grupo ya no son las variables de grupo, son aquellas variables con la covariable dividida, por lo que ya no son reconocibles o interpretables como las variables de grupo que creías que estabas estudiando. Enorme problema

La línea clave está en la página 45 "ANCOVA elimina la variación significativa del" Grupo ", dejando una variable de Grupo residual vestigal no caracterizada con una relación incierta con la construcción que el Grupo representaba".

Mi solución actual es separar la covariable del DV y luego enviar el residual de DV a un ANOVA regular, como alternativa al uso de ANCOVA.

Todd
fuente
2
¿Pero eso es lo mismo que ancova?
0

Algunas de las herramientas de correspondencia desarrolladas por Gary King y sus colegas parecen prometedoras:

Jeromy Anglim
fuente
El segundo enlace ya no es actual.
rolando2
¿Cuál de las muchas herramientas de software enumeradas allí recomienda?
rolando2