¿La causalidad implica correlación?

118

La correlación no implica causalidad, ya que podría haber muchas explicaciones para la correlación. ¿Pero la causalidad implica correlación? Intuitivamente, pensaría que la presencia de causalidad significa que necesariamente hay alguna correlación. Pero mi intuición no siempre me ha servido bien en estadística. ¿La causalidad implica correlación?

correlation causality Mateo
fuente

55

El problema es que si buscas "implicar" en un diccionario, verás "sugerir" y "necesitar".

rolando2

66

La correlación no implica causalidad, pero sí mueve las cejas de manera sugestiva y gesticula furtivamente mientras dice "mira hacia allá". xkcd.com/552

jchristie

1

La pregunta en sí no parece estar buscando una respuesta específica y objetiva, como lo indica el uso de la palabra implica. La referencia anterior es como un último tal vez. O más bien probablemente, pero no puedo probarlo.

jchristie

96

Como han dicho muchas de las respuestas anteriores, la causalidad no implica una correlación lineal . Dado que muchos de los conceptos de correlación provienen de campos que dependen en gran medida de estadísticas lineales, por lo general, la correlación se considera igual a la correlación lineal. El artículo de Wikipedia es una buena fuente para esto, realmente me gusta esta imagen:

Mire algunas de las figuras en la fila inferior, por ejemplo, la forma de parábola en el cuarto ejemplo. Esto es lo que sucede en la respuesta @StasK (con un poco de ruido agregado). Y puede ser completamente causado por X, pero si la relación numérica no es lineal y simétrica, aún tendrá una correlación de 0.

La palabra que está buscando es información mutua : esta es una especie de versión general no lineal de correlación. En ese caso, su afirmación sería verdadera: la causalidad implica una alta información mutua .

Artem Kaznatcheev
fuente

3

Por lo general, pero no siempre es cierto, la alta información mutua acompaña a la causalidad. Vea la respuesta de @gung donde "si la causa está perfectamente correlacionada con otra variable causal con exactamente el efecto contrario".

Neil G

55

El argumento de dos causas con efectos opuestos que siempre se cancelan entre sí no tiene mucho sentido para mí como causa . Siempre puedo suponer que hay unicornios que causan algo y que los gremlins cancelan sus esfuerzos perfectamente; Evito esto ya que es una tontería. Pero tal vez estoy malinterpretando tu punto.

Artem Kaznatcheev

11

Su ejemplo es más extremo de lo que debe ser. Es posible que tenga variables booleanas y manera que y sean causas de y (mod 2). Entonces, a falta de conocimiento de , y no tienen información mutua. es un factor de confusión no descubierto: lo que usted llama "gremlins" a pesar de que es algo muy común.

A, B

$A, B$

C

$C$

A

$A$

B

$B$

C

$C$

C = A + B

$C = A + B$

B

$B$

A

$A$

C

$C$

B

$B$

Neil G

2

@NielG Estoy de acuerdo con tu primera oración, pero no con la segunda. Solo porque A y B causen C, no significa que A cause C y B cause C. No veo por qué la causa tiene que ser distributiva sobre &.

Artem Kaznatcheev

44

Sin embargo, la razón por la cual A es una causa de C es porque el cambio de A seguirá cambiando C. Entonces, C depende de A incluso cuando no observamos a B.

Neil G

41

La respuesta estricta es "no, la causalidad no necesariamente implica correlación".

Considere e . La causalidad no hay nada más fuerte: determina . Sin embargo, la correlación entre e es 0. Prueba: Los momentos (conjuntos) de estas variables son: ; ; usando La propiedad de la distribución normal estándar de que sus momentos impares son todos iguales a cero (por ejemplo, puede derivarse fácilmente de su función generadora de momentos). Por lo tanto, la correlación es igual a cero. $X\sim N(0,1)$ $Y=X^2\sim\chi^2_1$ $X$ $Y$ $X$ $Y$ $E[X]=0$ $E[Y]=E[X^2]=1$

C o v [X, Y] = E [(X - 0) (Y - 1)] = E [X Y] - E [X] 1 = E [X^{3}] - E [X] = 0

${\rm Cov}[X,Y]=E[ (X-0)(Y-1) ] = E[XY]-E[X]1 = E[X^3]-E[X]=0$

Para abordar algunos de los comentarios: la única razón por la que este argumento funciona es porque la distribución de está centrada en cero y es simétrica alrededor de 0. De hecho, cualquier otra distribución con estas propiedades que tendría un número suficiente de momentos habría funcionado en lugar de , por ejemplo, uniforme en o Laplace . Un argumento demasiado simplificado es que para cada valor positivo de , hay un valor negativo igualmente probable de de la misma magnitud, por lo que cuando cuadras la , no puedes decir que valores mayores de están asociados con valores mayores o menores. de $X$ $N(0,1)$ $(-10,10)$ $\sim \exp(-|x|)$ $X$ $X$ $X$ $X$ $Y$ $X\sim N(3,1)$ $E[X]=3$ $E[Y]=E[X^2]=10$ $E[X^3]=36$ ${\rm Cov}[X,Y]=E[XY]-E[X]E[Y]=36-30=6\neq0$ $X$ $-X$ $X$ $Y$ $\chi^2$

StasK
fuente

2

@DQdlM: La variable aleatoria estándar tiene momentos centrales impares que desaparecen , debido a la uniformidad de la densidad. Matthew: La respuesta es no, como ha demostrado StasK, porque la correlación no es el único tipo de dependencia.

Emre

3

X \sim N (3, 1)

$X\sim N(3,1)$

3

PD: Estoy tan contento de que hayas publicado esta respuesta. Era difícil de creer que la pregunta pasó tanto tiempo sin esta respuesta. Este fue el ejemplo exacto que se me ocurrió cuando vi esta pregunta, pero no tuve tiempo de escribirla. Me alegro de que qué toma el tiempo. Salud.

cardenal

3

@cardinal: sí, creo que todos aprendimos este tipo de contraejemplos simples en la escuela de posgrado ... y sí, a partir de la derivación de la covarianza, solo necesitas que el primer y el tercer momento sean cero. Si tiene un ejemplo no trivial de una distribución asimétrica que tiene un tercer momento cero (las masas de probabilidad finamente ajustadas de más de cinco o seis puntos no cuentan), sin embargo, sería muy curioso verlo.

StasK

3

X

$X$

Y

$Y$

f

$f$

Y = f (X)

$Y=f(X)$

31

Básicamente sí.

La correlación no implica causalidad porque podría haber otras explicaciones para una correlación más allá de la causa. Pero para que A sea una causa de B , deben estar asociados de alguna manera . Lo que significa que existe una correlación entre ellos, aunque esa correlación no necesariamente tiene que ser lineal.

Como algunos de los comentaristas han sugerido, es probable que sea más apropiado usar un término como 'dependencia' o 'asociación' en lugar de correlación. Aunque, como he mencionado en los comentarios, he visto que "correlación no significa causalidad" en respuesta al análisis mucho más allá de la simple correlación lineal, y por lo tanto, a los efectos del dicho, esencialmente he extendido la "correlación" a cualquier asociación entre A y B.

Fomite
fuente

16

Tiendo a reservar la palabra correlación para correlación lineal , y uso la dependencia para relaciones no lineales que pueden tener o no una correlación lineal.

Memming

44

@Memming Yo también lo haría, salvo por el hecho de que la gente dice "La correlación no implica causalidad" re: asociación no lineal bastante compleja.

Fomite

Memming tiene razón. Debe definir la correlación si no se refiere a la correlación de Pearson.

Neil G

1

@NeilG O para el caso, uno puede ser capaz de obtener una correlación lineal de Pearson transformando una variable u otra. El problema es que el dicho en sí está demasiado simplificado.

Fomite

1

@EpiGrad: Ambos buenos puntos. En el lenguaje común, la correlación es solo que A coincide con más B. Creo que su respuesta se beneficiaría si deja en claro su uso de una definición amplia de correlación.

Neil G

23

Agregando a la respuesta de @EpiGrad. Creo que, para mucha gente, "correlación" implicará "correlación lineal". Y el concepto de correlación no lineal podría no ser intuitivo.

Entonces, yo diría "no, no tienen que estar correlacionados, pero sí tienen que estar relacionados ". Estamos de acuerdo con la sustancia, pero no estamos de acuerdo con la mejor manera de transmitirla.

Un ejemplo de tal causalidad (al menos la gente piensa que es causal) es la probabilidad de contestar su teléfono e ingresos. Se sabe que las personas en ambos extremos del espectro de ingresos tienen menos probabilidades de responder sus teléfonos que las personas en el medio. Se cree que el patrón causal es diferente para los pobres (por ejemplo, evitar los cobradores de facturas) y los ricos (por ejemplo, evitar que las personas soliciten donaciones).

Peter Flom
fuente

21

$X$ $Y$

Considere el siguiente modelo causal:

X \to Y \leftarrow U

$X \rightarrow Y \leftarrow U$

$X$ $U$ $Y$

Ahora deja:

X \sim b e r n o u l l i (0.5) U \sim b e r n o u l l i (0.5) Y = 1 - X - U + 2 X U

$X \sim bernoulli(0.5)\\ U \sim bernoulli(0.5) \\ Y = 1- X - U + 2XU$

$U$ $P(Y|X) = P(Y)$ $X$ $Y$ $Y$ $X$

$X$ $U$ $Y$ $X$ $U$ $X\perp Y$ $U\perp Y$ $\{X, U\} \perp Y$ $X$ $Y$ $X$ $Y$ $X$ $Y$ $X$ $Y$ $U$

En resumen, diría que: (i) la causalidad sugiere dependencia; pero, (ii) la dependencia es funcional / estructural y puede o no traducirse en la dependencia estadística específica en la que está pensando.

Carlos Cinelli
fuente

Carlos, es correcto decir que si conocemos el conjunto completo de variables involucradas en el modelo causal, ¿este problema (invisibilidad estadística) desaparecerá?

markowitz

@markowitz necesitaría observar todo al nivel determinista, por lo tanto, no es un escenario muy realista.

Carlos Cinelli

Interpreto su respuesta como "sí". Tienes razón, la situación que supuse no es realista; Estoy enterado de eso. Sin embargo, la pregunta se relacionaba solo con la lógica que usted describió y la finalidad era comprenderla. Mi convicción fue algo así como "causalidad implica asociación estadística" y otras respuestas en esta página suenan así. Después de todo, también su ejemplo es poco realista, pero no por esta razón no es interesante. Me parece que, también en general, la causalidad sin asociación estadística es poco realista pero teóricamente interesante.

markowitz

1

@markowitz la "invisibilidad estadística" ocurre cuando el modelo no es fiel al gráfico. Para una cancelación exacta, esto depende de una elección específica de parametrización, por lo que algunas personas argumentan que es realmente poco probable. Sin embargo, la cancelación cercana puede ser plausible ya que depende de una vecindad de parámetros, por lo que todo depende del contexto. El punto aquí es solo que necesita hacer explícitas sus suposiciones causales porque, lógicamente, la causalidad no implica asociación en sí misma; necesita suposiciones adicionales.

Carlos Cinelli

13

La causa y el efecto estarán correlacionados a menos que no haya variación en absoluto en la incidencia y magnitud de la causa y no haya variación en absoluto en su fuerza causal. La única otra posibilidad sería si la causa está perfectamente correlacionada con otra variable causal con exactamente el efecto contrario. Básicamente, estas son condiciones de experimento mental. En el mundo real, la causalidad implicará dependencia de alguna forma (aunque podría no ser una correlación lineal ).

gung
fuente

3

@NeilG, consentí mi adicción a la cursiva .

gung

1

Algunas teorías realmente implican esto, por ejemplo, muchos modelos de teoría de juegos. Algunas situaciones empíricas en las que no se puede discernir una diferencia (aunque en realidad habría una 'en gung-cursiva' por así decirlo :-) incluyen escenarios de cambio genético 'neutro' cuando la presión de selección evolutiva en dos niveles apunta en direcciones diferentes.

conjugateprior

1

Me gusta la primera excepción, pero no la segunda excepción. Me gusta pensar que al encender el interruptor se enciende la luz, pero si sucede que solo lo hago durante un apagón, no pasa nada. Quizás no hubo realmente una relación causal.

emory

1

@ naught101, plantea un buen punto, que se ha discutido en otra parte de esta página. He editado mi respuesta. Sin embargo, cuando he trabajado con personas, no creo que tengan una fuerte concepción de la correlación como necesariamente lineal, aunque les digo eso. Aunque no lo expresarían en estos términos, creo que la mayoría de la gente entiende la "correlación" como más cercana a la "función de". No obstante, debería ser más claro en mi uso de los términos, y debería haber sido desde el principio.

Gung

2

@emory: la causa de la luz que se enciende es en realidad el cierre del circuito eléctrico (que es causado por el movimiento del interruptor, con las condiciones ambientales que incluyen una red que funciona). Durante un apagón, presionar el interruptor no cierra el circuito, porque está roto en otra parte. Entonces, en cierto sentido, el apagón es el efecto "opuesto" del que hablaba Gung (es decir, la luz está encendida, el apagón lo apaga). También podría considerarse como un efecto de anulación.

naught101

2

Hay excelentes respuestas aquí. Artem Kaznatcheev , Fomite y Peter Flom señalan que la causalidad generalmente implicaría dependencia en lugar de correlación lineal. Carlos Cinelli da un ejemplo donde no hay dependencia, debido a cómo se configura la función generadora.

Quiero agregar un punto sobre cómo esta dependencia puede desaparecer en la práctica, en los tipos de conjuntos de datos con los que bien podría trabajar. Situaciones como el ejemplo de Carlos no se limitan a meras "condiciones de experimento mental".

Las dependencias desaparecen en los procesos de autorregulación . La homeostasis, por ejemplo, asegura que la temperatura interna de su cuerpo permanezca independiente de la temperatura ambiente. El calor externo influye directamente en la temperatura de su cuerpo, pero también influye en los sistemas de enfriamiento del cuerpo (por ejemplo, sudoración) que mantienen estable la temperatura corporal. Si tomamos muestras de temperatura en intervalos extremadamente rápidos y utilizamos mediciones extremadamente precisas, tenemos la posibilidad de observar las dependencias causales, pero a tasas de muestreo normales, la temperatura corporal y la temperatura externa parecen independientes.

Los procesos autorreguladores son comunes en los sistemas biológicos; son producidos por la evolución. Los mamíferos que no logran regular su temperatura corporal son eliminados por selección natural. Los investigadores que trabajan con datos biológicos deben ser conscientes de que las dependencias causales pueden desaparecer en sus conjuntos de datos.

Plata lizzie
fuente

-3

¿No sería una causa sin ninguna correlación un rng?

A menos que, como implica la respuesta aceptada, esté utilizando una interpretación increíblemente limitada de la palabra 'correlación', es una pregunta tonta: si una cosa 'causa' a otra, por definición se ve afectada de alguna manera, ya sea aumento de la población, o solo intensidad.

¿derecho?

Por otra parte, podría estar discutiendo algo más parecido, la visibilidad de algo afectado por otra cosa, lo que supongo que parecería causalidad, pero realmente no está midiendo lo que cree que está midiendo ...

Entonces sí, supongo que la respuesta corta sería: "Sí, siempre y cuando no puedas crear entropía".

usuario3363155
fuente

¿La causalidad implica correlación?

Respuestas: