Miller y Chapman (2001) sostienen que es absolutamente inapropiado controlar las covariables no independientes que están relacionadas con las variables independientes y dependientes en un estudio observacional (no aleatorio), a pesar de que esto se hace rutinariamente en las ciencias sociales. ¿Qué tan problemático es hacerlo? ¿Cuál es la mejor manera de lidiar con este problema? Si habitualmente controlas las covariables no independientes en un estudio observacional en tu propia investigación, ¿cómo lo justificas? Finalmente, ¿vale la pena elegir esta pelea cuando discuten la metodología con sus colegas (es decir, realmente importa)?
Gracias
Miller, GA y Chapman, JP (2001). Análisis de malentendidos de covarianza. Revista de psicología anormal, 110, 40-48. - http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf
fuente
Respuestas:
Es tan problemático como el grado de correlación.
La ironía es que no se molestaría en controlar si no hubiera alguna correlación esperada con una de las variables. Y, si espera que su variable independiente afecte a su dependiente, entonces necesariamente está algo correlacionada con ambas. Sin embargo, si está altamente correlacionado, tal vez no debería controlarlo, ya que equivale a controlar la variable independiente o dependiente real.
fuente
En las ciencias sociales, a menudo llamamos a este tema "sesgo posterior al tratamiento". Si está considerando el efecto de algún tratamiento (su variable independiente), incluidas las variables que surgen después del tratamiento (en un sentido causal), entonces su estimación del efecto del tratamiento puede estar sesgada. Si incluye estas variables, entonces, en cierto sentido, está controlando el impacto del tratamiento. Si el tratamiento T causa el resultado Y y otras variables A y A causan Y, entonces controlar A ignora el impacto que T tiene sobre Y a través de A. Este sesgo puede ser positivo o negativo.
En las ciencias sociales, esto puede ser especialmente difícil porque A puede causar T, que retroalimenta a A, y A y T causan Y. Por ejemplo, un alto PIB puede conducir a altos niveles de democratización (nuestro tratamiento), lo que conduce a Un mayor PIB y un mayor PIB y una mayor democratización conducen a una menor corrupción gubernamental, por ejemplo. Dado que el PIB causa democratización, si no lo controlamos, entonces tenemos un problema de endogeneidad o "sesgo de variables omitidas". Pero si controlamos el PIB, tenemos un sesgo posterior al tratamiento. Aparte de usar ensayos aleatorios cuando podemos, hay poco más que podamos hacer para dirigir nuestra nave entre Scylla y Charybdis. Gary King habla de estos temas como su nominación para la iniciativa de Harvard "Los problemas más difíciles sin resolver en las ciencias sociales" aquí .
fuente
A mi entender, hay dos problemas básicos con los estudios observacionales que "controlan" una serie de variables independientes. 1) Tiene el problema de que faltan variables explicativas y, por lo tanto, la especificación errónea del modelo. 2) Tiene el problema de múltiples variables independientes correlacionadas, un problema que no existe en experimentos (bien diseñados), y el hecho de que los coeficientes de regresión y las pruebas ANCOVA de covariables se basan en parciales, lo que dificulta su interpretación. El primero es intrínseco a la naturaleza de la investigación observacional y se aborda en el contexto científico y el proceso de elaboración competitiva. Este último es un tema de educación y se basa en una comprensión clara de los modelos de regresión y ANCOVA y exactamente lo que representan esos coeficientes.
Con respecto al primer tema, es bastante fácil demostrar que si todas las influencias en alguna variable dependiente son conocidas e incluidas en un modelo, los métodos estadísticos de control son efectivos y producen buenas predicciones y estimaciones de efectos para variables individuales. El problema en las "ciencias blandas" es que rara vez se incluyen o se conocen todas las influencias relevantes y, por lo tanto, los modelos están poco especificados y son difíciles de interpretar. Sin embargo, existen muchos problemas valiosos en estos dominios. Las respuestas simplemente carecen de certeza. La belleza del proceso científico es que es autocorrectivo y los modelos son cuestionados, elaborados y refinados. La alternativa es sugerir que no podemos investigar estos problemas científicamente cuando no podemos diseñar experimentos.
El segundo problema es técnico en la naturaleza de ANCOVA y los modelos de regresión. Los analistas deben tener claro qué representan estos coeficientes y pruebas. Las correlaciones entre las variables independientes influyen en los coeficientes de regresión y las pruebas ANCOVA. Son pruebas de parciales. Estos modelos sacan la varianza en una variable independiente dada y la variable dependiente que está asociada con todas las otras variables en el modelo y luego examinan la relación en esos residuos. Como resultado, los coeficientes y las pruebas individuales son muy difíciles de interpretar fuera del contexto de una comprensión conceptual clara de todo el conjunto de variables incluidas y sus interrelaciones. Esto, sin embargo, NO produce problemas para la predicción, solo tenga cuidado al interpretar pruebas y coeficientes específicos.
Una nota al margen: El último tema está relacionado con un problema discutido previamente en este foro sobre la inversión de los signos de regresión, por ejemplo, de negativo a positivo, cuando se introducen otros predictores en un modelo. En presencia de predictores correlacionados y sin una comprensión clara de las relaciones múltiples y complejas entre todo el conjunto de predictores, no hay razón para ESPERAR un coeficiente de regresión (por naturaleza parcial) para tener un signo particular. Cuando existe una teoría sólida y una comprensión clara de esas interrelaciones, tales "reversiones" de signos pueden ser esclarecedoras y teóricamente útiles. Sin embargo, dada la complejidad de muchos problemas de ciencias sociales, no sería común una comprensión suficiente, esperaría.
Descargo de responsabilidad: soy un sociólogo y analista de políticas públicas por capacitación.
fuente
Leí la primera página de su artículo y, por lo tanto, podría haber entendido mal su punto, pero me parece que básicamente están discutiendo el problema de incluir variables independientes multicolineales en el análisis. El ejemplo que toman de edad y grado ilustra esta idea al afirmar que:
ANCOVA es una regresión lineal con los niveles representados como variables ficticias y las covariables también aparecen como variables independientes en la ecuación de regresión. Por lo tanto, a menos que haya entendido mal su punto (lo cual es bastante posible ya que no he leído su artículo por completo) parece que están diciendo 'no incluir covariables dependientes', lo que es equivalente a decir evitar variables multicolineales.
fuente
El (mayor) problema es que debido a que las variables de grupo y las covariables están juntas en el lado predictor de la ecuación, las variables de grupo ya no son las variables de grupo, son aquellas variables con la covariable dividida, por lo que ya no son reconocibles o interpretables como las variables de grupo que creías que estabas estudiando. Enorme problema
La línea clave está en la página 45 "ANCOVA elimina la variación significativa del" Grupo ", dejando una variable de Grupo residual vestigal no caracterizada con una relación incierta con la construcción que el Grupo representaba".
Mi solución actual es separar la covariable del DV y luego enviar el residual de DV a un ANOVA regular, como alternativa al uso de ANCOVA.
fuente
Algunas de las herramientas de correspondencia desarrolladas por Gary King y sus colegas parecen prometedoras:
fuente