Relaciones entre correlación y causalidad.

19

De la página de Wikipedia titulada correlación no implica causalidad ,

Para dos eventos correlacionados, A y B, las diferentes relaciones posibles incluyen:

  1. A causa B (causalidad directa);
  2. B causa A (causalidad inversa);
  3. A y B son consecuencias de una causa común, pero no se causan mutuamente;
  4. A y B causan C, que está (explícita o implícitamente) condicionada .;
  5. A causa B y B causa A (causalidad bidireccional o cíclica);
  6. A causa C que causa B (causalidad indirecta);
  7. No hay conexión entre A y B; La correlación es una coincidencia.

¿Qué significa el cuarto punto? A y B causan C, que está (explícita o implícitamente) condicionada. Si A y B causan C, ¿por qué A y B tienen que estar correlacionados?

mate
fuente
8
Obligatorio relacionado xkcd: xkcd.com/552
Todd Wilcox
2
A pesar de la que dice que sería de esperar que exista una alta correlación entre correlación y causalidad ...
Mehrdad
Posiblemente vea también la discusión en ¿No correlación no implica causalidad?
ctwardy

Respuestas:

18

"Condicionamiento" es una palabra de la teoría de la probabilidad: https://en.wikipedia.org/wiki/Conditional_probability

Condicionar en C significa que solo estamos viendo casos en los que C es cierto. "Implícitamente" significa que puede que no estemos haciendo explícita esta restricción, a veces ni siquiera conscientes de hacerlo.

El punto significa que, cuando A y B causan C, observar una correlación entre A y B en los casos en que C es cierto, no significa que haya una relación real entre A y B. Es solo condicionamiento en C (tal vez involuntariamente) que crea una correlación artificial

Pongamos un ejemplo.

En un país existen exactamente dos tipos de enfermedades, perfectamente independientes. Llamada A: "la persona tiene la primera enfermedad", B: "la persona tiene la segunda enfermedad". Suponga que , P ( B ) = 0.1 .P(A)=0.1P(B)=0.1

Ahora, cualquier persona que tenga una de estas enfermedades va al médico y solo entonces. Llamada C: "la persona va a ver al médico". Tenemos .C=A or B

Ahora calculemos algunas probabilidades:

  • P(C)=0.19
  • P(A|C)=P(B|C)=0.10.190,53
  • P(A and B|C)=0.010.190.053
  • P(A|C)P(B|C)0.28

Claramente, cuando está condicionado por C, y B están muy lejos de ser independientes. En realidad, se acondicionó en C, n o t Un parece "causa" B .ABnotAB

Si utiliza la lista de personas que cuando hayan sido registrados por su médico (s) como fuente de datos para un análisis, a continuación, parece que hay una fuerte correlación entre las enfermedades y B . Es posible que no se dé cuenta del hecho de que su fuente de datos es realmente un condicionamiento. Esto también se llama "sesgo de selección".AB

Benoit Sanchez
fuente
13

El cuarto punto es un ejemplo de la paradoja de Berkson , también conocida como condicionamiento en un colisionador , también conocido como fenómeno explicativo .

AttractiveAcceptCharming
AttractiveCharmingAccept, which takes on values of 0 or 1 if the woman rejects or accepts the date proposal, respectively.

We supposed above that Attractive and Charming are independent in the population of date-proposing men. But are they still independent if we consider only the men whose proposals the woman accepted? In other words, we condition on Accept=1. Now suppose I tell you about a man who the woman agreed to date, and I tell you that he is (in the woman's opinion) not attractive at all. Well, we know that the woman agreed to date him anyway, so we would reasonably infer that he must be quite charming indeed. Conversely, if we learn about a man whose date proposal was accepted and who is not charming, we would reasonably infer that he must be quite attractive.

Do you see what's happened here? By conditioning on Accept=1, we've induced a negative correlation between Attractive and Charming, even though these two traits are (by assumption) marginally independent. From the perspective of the woman, the attractive men she dates tend to be less charming, and the charming men she dates tend to be less attractive. But this is because, by thinking only of the men she has dated, she is implicitly conditioning on Accept. If she would instead consider all the men who have proposed dates, regardless of whether she accepted the proposal, she would see that there is no statistical association between the two traits.

Jake Westfall
fuente
5

Simpson's paradox and Berkson's paradox can each give examples of "A and B both cause C, which is (explicitly or implicitly) conditioned on"

As an example suppose I have 1000 stamps in my collection of which 100 are rare (10%) and 200 are pretty (20%). If there is no intrinsic relationship between rarity and prettiness, it might turn out 20 of my stamps are both pretty and rare.

If I now display my 280 interesting stamps, i.e. those which are rare or pretty or both, there will be an apparent negative correlation between rarity and prettiness (20% of displayed rare stamps are pretty while 100% of displayed common stamps are pretty) due entirely to conditioning on being interesting.

Henry
fuente
This is an example Berkson's paradox, not Simpson's paradox (see my answer).
Jake Westfall
@JakeWestfall You are probably right - I knew I had written the stamps example before somewhere but forgotten where and it turns out to be the Wikipedia page for Berkson's paradox
Henry
4

The paragraph starts with "For any two correlated events, A and B,...", so my guess is that correlation is assumed at the beginning. In other words, they need not be correlated to simultaneously cause C, but if they were correlated and they did both cause C, it does not imply that there exists a causal relationship between them.

Roux
fuente