Definición matemática de causalidad

9

Dejar Y y X ser variables aleatorias E(Y|X) es la media condicional de Y dado X. DecimosY no está causalmente relacionado con X Si E(Y|X) no depende de X, lo que implica que es igual a E(Y). Ahora, sigamos con esta definición de causalidad por un segundo. Por la ley de expectativas iteradas,E(XE(Y|X))=E(E(XY|X))=E(XY). Esto significa que siE(Y|X) no depende de X, si es igual a E(Y), entonces E(X)E(Y)=E(XY).

En otras palabras:

Si X y Y no están causalmente relacionados, entonces X y Yno están correlacionados! - Esto no tiene sentido y sé que esto debe estar mal. ¿He definido la causalidad incorrectamente? ¿Qué he hecho mal?

En econometría generalmente asumimos E(YEl |X)=si0 0+si1X. EntoncesE(Y|X)=E(Y) es equivalente a b1=0. La lógica también se aplica en este escenario específico.

cristiano
fuente
2
Tu dijiste eso E(XE(Y|X))=E(E(XY|X))=E(XY). Creo que esto está mal. E (Y | X) es una constante. Por lo tanto,E(XE(Y|X)) es igual a E(Y|X)E(X). Otro punto,E(Y|X)=b0+b1Xproviene del modelo de regresión lineal simple.
Budhapest
Sea E (Y | X) = b, donde b es una constante. Luego tome las expectativas de ambos lados. Uno encuentra que E (E (Y | X)) = E (b) = b. Por ley de expectativas iteradas, E (E (Y | X)) = E (Y). Por lo tanto, si E (Y | X) es constante, debe ser igual a E (Y).
Christian
Si E (Y / X) = b, eso implica que Y no depende de X, y E (Y) = b, te estás confundiendo a ti mismo.
SAAN
No entiendo por qué "esto no tiene sentido". Estás comenzando con una definición de causalidad que creo que es equivalente a la definición de independencia en las estadísticas. Y las variables independientes tienen cero covarianza, ¿dónde está la historia?
Enero
¡Enero, no, no son lo mismo! X e Y son independientes si los factores de distribución conjunta en el producto de los marginales, y esto definitivamente no es lo mismo. ¿No veo cuál es tu punto? Azeem, además de reafirmar lo que dije anteriormente, ¿tiene algo que aportar? En lugar de decir que estoy equivocado, ¿puedes explicar POR QUÉ estoy equivocado?
Christian

Respuestas:

18

Has definido la causalidad incorrectamente, sí. Probablemente, haya escuchado el dicho "la correlación no es causalidad". Usted esencialmente ha definido la causalidad como correlación. Sin embargo, el problema es peor que eso. La causalidad no es un concepto estadístico o probabilístico en absoluto, al menos como esos temas se enseñan normalmente. No existe una definición estadística o probabilística de causalidad: nada que implique expectativas condicionales o distribuciones condicionales o similares. Sin embargo, es difícil captar este hecho de los cursos de estadística o econometría.

Desafortunadamente, tendemos a hacer un mejor trabajo diciendo qué no es la causalidad que qué es la causalidad. La causalidad siempre y en todas partes proviene de la teoría, del razonamiento a priori, de los supuestos. Usted mencionó la econometría. Si le han enseñado variables instrumentales de manera competente, entonces sabe que los efectos causales solo pueden medirse si tiene una "restricción de exclusión". Y sabes que las restricciones de exclusión siempre provienen de la teoría.

Sin embargo, dijiste que querías matemáticas. El chico que quieres leer es Judea Pearl . No es matemática fácil, y la matemática a veces se desvía hacia la filosofía, pero eso es porque la causalidad es un tema difícil. Aquí hay una página con más enlaces sobre el tema. Aquí hay un libro en línea gratuito que acabo de encontrar. Finalmente, aquí hay una pregunta anterior donde di una respuesta que podría ser útil.

Cuenta
fuente
SInceramente Gracias. Leeré su trabajo y te responderé cuando tenga tiempo.
Christian
44
Excelente respuesta El libro Morgan & Winship es bastante más fácil que Pearl, con un enfoque en los problemas de las ciencias sociales.
Dimitriy V. Masterov
8

Decimos Y no está causalmente relacionado con X Si E(Y|X) no depende de X, lo que implica que es igual a E(Y).

Esto está mal. Las relaciones causales son sobre dependencias funcionales / estructurales, no dependencias estadísticas / asociativas. Deberías echar un vistazo aquí.

¿He definido la causalidad incorrectamente? ¿Qué he hecho mal?

Sí, lo ha definido incorrectamente, puede consultar los libros / referencias de inferencia causal aquí . Más formalmente, en un modelo de ecuación estructural, el efecto causal deX sobre la distribución de Y, que podemos denotar por P(Y|do(X=x)) --- es decir, cómo cambia X afecta la distribución de Y --- se define matemáticamente como la distribución de probabilidad inducida por el modelo de ecuación estructural modificado donde la ecuación para X se sustituye por X=x.

Por ejemplo, suponga que su modelo causal está definido por las siguientes ecuaciones estructurales:

U=ϵuX=f(U,ϵx)Y=g(X,U,ϵy)

Donde las perturbaciones son mutuamente independientes y tienen alguna distribución de probabilidad. Esto corresponde al DAG:

ingrese la descripción de la imagen aquí

Entonces P(Y|do(X=x)) es la distribución de probabilidad de Y inducido por las ecuaciones estructurales modificadas:

U=ϵuX=xY=g(X,U,ϵy)

Que corresponde al DAG mutilado:

ingrese la descripción de la imagen aquí

El efecto causal promedio sería simplemente la expectativa de Y usando el cdf causal P(Y|do(X=x)).

E[Y|do(X=x)]=YdP(Y|do(X=x))

Esta es la definición matemática, si puede identificar el efecto con datos de observación depende de si puede volver a expresar P(Y|do(X=x)) en términos de la distribución observacional sin el do() operador.

Carlos Cinelli
fuente
3

Un contraejemplo

El problema no parece ser esa independencia media (la condición donde E[Y|X]=E[Y]) implica que Y y Xno están correlacionados SiX y Yno están correlacionados, generalmente no es cierto que sean independientes de la media. Entonces, esto no parece problemático hasta ahora.

Sin embargo, suponga que tiene una relación (podemos llamarla causal) definida como Y=WX, dónde X se distribuye con una distribución normal estándar y W se distribuye con una distribución Rademacher para que W=1 o 1, cada uno con probabilidad 1/2( ver este artículo de Wikipedia ). Entonces note queE[Y|X]=E[Y]. Según su definición, esta relación no sería causa aunqueY claramente depende de X.

Un ejemplo de una forma formal de pensar sobre la causalidad

Para darle una forma más clara y matemática de ver la causalidad, tome el siguiente ejemplo. (Tomo prestado este ejemplo del libro "Econometría principalmente inofensiva"). Suponga que desea analizar el efecto de la hospitalización en la salud. DefinirYi como alguna medida de salud del individuo i y Di{0,1}para indicar si ese individuo fue hospitalizado o no. En nuestro primer intento, supongamos que observamos la diferencia promedio en la salud de los dos tipos de individuos:

E[Yi|Di=1]E[Yi|Di=0].
Al observar los datos por primera vez, puede notar, en contra de la intuición, que las personas que han sido hospitalizadas en realidad tienen peor salud que las que no. Sin embargo, ir al hospital ciertamente no enferma a las personas. Más bien, hay un sesgo de selección. Las personas que van al hospital son aquellas que tienen peor salud. Entonces esta primera medida no funciona. ¿Por qué? Porque no estamos interesados ​​solo en lo observado diferencias , sino en las diferencias potenciales (queremos saber qué sucedería en el mundo contrafactual).

Defina el resultado potencial de cualquier individuo de la siguiente manera:

Potential Outcome={Y1,iif Di=1Y0,iif Di=0.
Y0,i es la salud del individuo i si no hubiera ido al hospital, independientemente de si realmente fue o no (queremos pensar en hechos hipotéticos) y de la misma manera, Y1,ies la salud del individuo si se fue. Ahora, escriba el resultado real observado en términos de potenciales,
Yi={Y1,iif Di=1Y0,iif Di=0.
Así, Yi=Y0,i+(Y1,iY0,i)Di. Ahora, podemos definir el efecto causal comoY1,iY0,i. Esto funciona porque es en términos de potenciales. Ahora, supongamos que miramos nuevamente las diferencias observadas en la salud promedio:
E[Yi|Di=1]E[Yi|Di=0]=E[Y1,i|Di=1]E[Y0,i|Di=1]+E[Y0,i|Di=1]E[Y0,i|Di=0].
Tenga en cuenta que el término E[Y1,i|Di=1]E[Y0,i|Di=1] puede interpretarse como el efecto promedio del tratamiento sobre el tratamiento y E[Y0,i|Di=1]E[Y0,i|Di=0]como el sesgo en la selección. Ahora si el tratamientoDi se asigna al azar, entonces tenemos
E[Yi|Di=1]E[Yi|Di=0]=E[Y1,i|Di]E[Y0,i|Di=0]=E[Y1,i|Di]E[Y0,i|Di=1]=E[Y1,iY0,i|Di=1]=E[Y1,iY0,i],
donde vemos eso E[Y1,iY0,i] es el efecto causal promedio que nos interesa. Esta es una forma básica de pensar sobre la causalidad.
jmbejara
fuente
1

Revisé su prueba y creo que es correcta (al menos, verifiqué todos los pasos para una definición discreta de E()) SiE(Y|X)=E(Y), entonces E(XY)=E(X)E(Y). Además, funciona a la inversa.

Sin embargo, no veo dónde está tu problema.

  1. Si X y Yson independientes, entonces tienen cero covarianza. Pero
  2. Si X y Y tienen cero covarianza, entonces no son necesariamente independientes.

Ejemplo: considere la siguiente tabla:

     Y
 X | -1      0      1
 --+---------------------
-1 | 0.25    0     0.25
 1 |   0    0.5      0

Los valores son probabilidades, es decir P(X=1Y=0)=0.5 Las probabilidades marginales para Y son 0.25, 0.5, 0.25, y 0.5 y 0.5 para X.

Es fácil ver eso E(Y)=E(X)=E(XY)=0 y eso E(Y|X=1)=E(Y|X=1)=0 y por lo tanto E(Y|X)=E(X), por lo tanto, según su definición, las variables no están causalmente relacionadas.

La covarianza es cero porque E(XY)=E(X)E(Y).

Sin embargo, las dos variables no son independientes, porque P(X=1Y=0)=0.50.50.5=P(X=1)P(Y=0).

enero
fuente