¿Cuál es la definición matemática de una relación causal entre dos variables aleatorias?
Dada una muestra de la distribución conjunta de dos variables aleatorias e , ¿cuándo diríamos que causa ?
Por contexto, estoy leyendo este artículo sobre descubrimiento causal .
Respuestas:
Matemáticamente, un modelo causal consiste en relaciones funcionales entre variables. Por ejemplo, considere el siguiente sistema de ecuaciones estructurales:
Esto significa quex funcionalmente determina el valor de y (si interviene en x esto cambia los valores de y ) pero no al revés. Gráficamente, esto generalmente se representa por x→y , lo que significa que x entra en la ecuación estructural de y. Como anexo, también puede expresar un modelo causal en términos de distribuciones conjuntas de variables contrafácticas, que es matemáticamente equivalente a los modelos funcionales .
A veces (o la mayoría de las veces) no tienes conocimiento sobre la forma de las ecuaciones estructuralesfx , fy , ni siquiera si x→y o y→x . La única información que tiene es la distribución de probabilidad conjunta p(y,x) (o muestras de esta distribución).
Esto lleva a su pregunta: ¿cuándo puedo recuperar la dirección de causalidad solo de los datos? O, más precisamente, ¿cuándo puedo recuperar six ingresa en la ecuación estructural de y o viceversa, solo a partir de los datos?
Por supuesto, sin ninguna suposición fundamentalmente comprobable sobre el modelo causal, esto es imposible . El problema es que varios modelos causales diferentes pueden implicar la misma distribución de probabilidad conjunta de las variables observadas. El ejemplo más común es un sistema lineal causal con ruido gaussiano.
Pero bajo algunos supuestos causales, esto podría ser posible --- y esto es en lo que trabaja la literatura de descubrimiento causal. Si no tiene una exposición previa a este tema, puede comenzar con Elementos de inferencia causal de Peters, Janzing y Scholkopf, así como el capítulo 2 de Causalidad de Judea Pearl. Tenemos un tema aquí en CV para referencias sobre descubrimiento causal , pero aún no tenemos tantas referencias enumeradas allí.
Por lo tanto, no hay una sola respuesta a su pregunta, ya que depende de los supuestos que uno haga. El artículo que menciona cita algunos ejemplos, como asumir un modelo lineal con ruido no gaussiano . Este caso se conoce como LINGAN (abreviatura de modelo acíclico lineal no gaussiano), aquí hay un ejemplo en
R
:Observe aquí que tenemos un modelo causal lineal con ruido no gaussiano dondex2 causa x1 y lingam recupera correctamente la dirección causal. Sin embargo, tenga en cuenta que esto depende de manera crítica de los supuestos de LINGAM.
Para el caso del artículo que cita, hacen esta suposición específica (vea su "postulado"):
Six→y , la longitud mínima de descripción del mecanismo que asigna X a Y es independiente del valor de X, mientras que la longitud mínima de descripción del mecanismo que asigna Y a X depende del valor de Y.
Tenga en cuenta que esto es una suposición. Esto es lo que llamaríamos su "condición de identificación". Esencialmente, el postulado impone restricciones a la distribución conjuntap(x,y) . Es decir, el postulado dice que si x→y ciertas restricciones se mantienen en los datos, y si y→x otras restricciones se mantienen. Este tipo de restricciones que tienen implicaciones comprobables (imponer restricciones en p(y,x) ) es lo que le permite a uno recuperarse direccionalmente de los datos de observación.
Como observación final, los resultados del descubrimiento causal aún son muy limitados y dependen de suposiciones fuertes, tenga cuidado al aplicarlos en el contexto del mundo real.
fuente
lm
). ¡No podemos evitar las muestras de observación de los conjuntos de datos de Tuebingen para tener una idea del descubrimiento causal! :)Hay una variedad de enfoques para formalizar la causalidad (que está en consonancia con el desacuerdo filosófico sustancial sobre la causalidad que ha existido durante siglos). Una popular es en términos de resultados potenciales. El enfoque de resultados potenciales, llamado modelo causal de Rubin , supone que para cada situación causal, hay una variable aleatoria diferente. Entonces,Y1 podría ser la variable aleatoria de posibles resultados de un ensayo clínico si un sujeto toma el fármaco del estudio, e Y2 podría ser la variable aleatoria si toma el placebo. El efecto causal es la diferencia entre Y1 e Y2 . Si de hecho Y1=Y2 , podríamos decir que el tratamiento no tiene ningún efecto. De lo contrario, podríamos decir que la condición del tratamiento causa el resultado.
Las relaciones causales entre variables también se pueden representar con gráficos acílicos direccionales , que tienen un sabor muy diferente pero que resultan matemáticamente equivalentes al modelo de Rubin (Wasserman, 2004, sección 17.8).
Wasserman, L. (2004). Todas las estadísticas: un curso conciso en inferencia estadística . Nueva York, NY: Springer. ISBN 978-0-387-40272-7.
fuente
An intervention is a surgical change to a variable that does not affect variables it depends on. Interventions have been formalized rigorously in structural equations and causal graphical models, but as far as I know, there is no definition which is independent of a particular model class.
To make this rigorous requires formalizing a model overX and Y , and in particular the semantics which define how it is simulated.
In modern approaches to causation, intervention is taken as the primitive object which defines causal relationships (definition 1). In my opinion, however, intervention is a reflection of, and necessarily consistent with simulation dynamics.
fuente