No es necesario que una regresión de en sea causal si se omiten variables que influyen tanto en como en . Pero si no fuera por las variables omitidas y el error de medición, ¿es una regresión causal? Es decir, si todas las variables posibles se incluyen en la regresión?
regression
bias
causality
Esha
fuente
fuente
Respuestas:
No, no lo es, te mostraré algunos contraejemplos.
El primero es la causalidad inversa . Considere que el modelo causal esY→X , donde X e Y son variables aleatorias gaussianas estándar. Entonces E[Y|do(x)]=0 , ya que X no causa Y , pero E[Y|x] dependerá de X .
El segundo ejemplo es el control de colisionadores (ver aquí ). Considere el modelo causalX→Z←Y , es decir, X no causa Y y Z es una causa común. Pero tenga en cuenta que, si ejecuta una regresión que incluye Z , el coeficiente de regresión de X no será cero, porque el condicionamiento de la causa común inducirá la asociación entre Y y X (es posible que también desee ver aquí el Análisis de ruta en presencia de un colisionador condicionado ).
En términos más generales, la regresión deY en X será causal si las variables incluidas en la regresión satisfacen el criterio de puerta trasera .
fuente
Además de la importante respuesta de Carlos Cinelli a esta pregunta, hay algunas razones más por las que los coeficientes de regresión podrían no ser causales.
En primer lugar, la especificación errónea del modelo puede hacer que los parámetros sean no causales. El hecho de que tenga todas las variables relevantes en su modelo no significa que las haya ajustado de la manera correcta. Como un ejemplo muy simple, considere una variableX que se distribuye simétricamente alrededor de 0. Suponga que su variable de resultado Y se ve afectada por X de tal manera que E(Y∣X)=X2 . La regresión de Y en X (a diferencia de en X2 ) dará un coeficiente estimado para X de aproximadamente 0, claramente sesgado, a pesar de que teniendo en cuenta todos (el único) variable que afecta a Y .
En segundo lugar, y en relación con el tema de la causalidad inversa, también existe el riesgo de que pueda tener un sesgo de selección , es decir, que su muestra haya sido seleccionada de tal manera que no sea representativa de la población a la que desea hacer su inferencia. Además, los datos faltantes también pueden introducir un sesgo si los datos no faltan completamente al azar.
fuente