¿Es una regresión causal si no hay variables omitidas?

13

No es necesario que una regresión de en sea ​​causal si se omiten variables que influyen tanto en como en . Pero si no fuera por las variables omitidas y el error de medición, ¿es una regresión causal? Es decir, si todas las variables posibles se incluyen en la regresión?yxxy

Esha
fuente
44
No, incluso si incluyera todas las variables del mundo, podría ser causal inversa. Por ejemplo, la proximidad de un planeta a su estrella más cercana podría predecirse con precisión por la temperatura de la superficie del planeta, pero claramente la causalidad es a la inversa
gazza89
@ gazza89: dado que efectivamente responde la pregunta, es posible que desee expandirla en una respuesta.
jbowman
3
¿Qué son las "variables omitidas"? Supongamos que tengo una Y y 4 X en mi conjunto de datos. Me ajusto a un modelo que incluye todas las 4 X. Entonces no tengo variables omitidas?
user158565

Respuestas:

20

No, no lo es, te mostraré algunos contraejemplos.

El primero es la causalidad inversa . Considere que el modelo causal es YX , donde X e Y son variables aleatorias gaussianas estándar. Entonces E[Y|do(x)]=0 , ya que X no causa Y , pero E[Y|x] dependerá de X .

El segundo ejemplo es el control de colisionadores (ver aquí ). Considere el modelo causal XZY , es decir, X no causa Y y Z es una causa común. Pero tenga en cuenta que, si ejecuta una regresión que incluye Z , el coeficiente de regresión de X no será cero, porque el condicionamiento de la causa común inducirá la asociación entre Y y X (es posible que también desee ver aquí el Análisis de ruta en presencia de un colisionador condicionado ).

En términos más generales, la regresión de Y en X será causal si las variables incluidas en la regresión satisfacen el criterio de puerta trasera .

Carlos Cinelli
fuente
3
Recomiendo encarecidamente el Libro de por qué, de Judea Pearl. Explica a fondo a qué se refiere Carlos.
Markos Kashiouris
3
¿Qué significa ? do(x)
nada101
55
@ naught101 significa que en realidad fuerza X = x, en contraste con la observación pasiva de X = x, vea aquí stats.stackexchange.com/questions/211008/dox-operator-meaning/…
Carlos Cinelli
Gracias, pero no estoy claro en la notación. ¿ significa que Z causa X e Y ? ¿Deberían invertirse las flechas? XZYZXY
Esha
@Esha Significa que tanto como y causan zxyz
Carlos Cinelli
6

Además de la importante respuesta de Carlos Cinelli a esta pregunta, hay algunas razones más por las que los coeficientes de regresión podrían no ser causales.

En primer lugar, la especificación errónea del modelo puede hacer que los parámetros sean no causales. El hecho de que tenga todas las variables relevantes en su modelo no significa que las haya ajustado de la manera correcta. Como un ejemplo muy simple, considere una variable X que se distribuye simétricamente alrededor de 0. Suponga que su variable de resultado Y se ve afectada por X de tal manera que E(YX)=X2 . La regresión de Y en X (a diferencia de en X2 ) dará un coeficiente estimado para Xde aproximadamente 0, claramente sesgado, a pesar de que teniendo en cuenta todos (el único) variable que afecta a Y .

En segundo lugar, y en relación con el tema de la causalidad inversa, también existe el riesgo de que pueda tener un sesgo de selección , es decir, que su muestra haya sido seleccionada de tal manera que no sea representativa de la población a la que desea hacer su inferencia. Además, los datos faltantes también pueden introducir un sesgo si los datos no faltan completamente al azar.

Phil
fuente