Ejemplos para la enseñanza: correlación no significa causalidad

74

Hay un viejo dicho: "Correlación no significa causalidad". Cuando enseño, tiendo a usar los siguientes ejemplos estándar para ilustrar este punto:

  1. número de cigüeñas y tasa de natalidad en Dinamarca;
  2. número de sacerdotes en América y alcoholismo;
  3. a principios del siglo XX se observó que había una fuerte correlación entre 'Número de radios' y 'Número de personas en los asilos insanos'
  4. y mi favorito: los piratas causan el calentamiento global .

Sin embargo, no tengo referencias para estos ejemplos y, aunque son divertidos, obviamente son falsos.

¿Alguien tiene algún otro buen ejemplo?

csgillespie
fuente
2
Hojee Freakonomics para ver algunos excelentes ejemplos. Su bibliografía está repleta de referencias.
Stephen Turner
17
xkcd.com/552
Ami
55
Esa tabla de piratas / calentamiento global está claramente elaborada por los teóricos de la conspiración: cualquiera puede ver que han planeado deliberadamente incluso el espaciamiento durante períodos de tiempo desiguales para evitar mostrar el reciente aumento brusco de la temperatura a medida que los piratas son eliminados casi por completo. Todos sabemos que a medida que aumenta la temperatura, el ron se evapora y los piratas no pueden sobrevivir a esas condiciones. ;-)
AdamV
44
¿WTF está arriba con el eje x en ese gráfico pirata?
naught101
1
O casi todo lo que pones en Google Correlate , ven a eso.
conjugateprior

Respuestas:

39

Puede ser útil explicar que "causas" es una relación asimétrica (X hace que Y sea diferente de Y causa X), mientras que "está correlacionado con" es una relación simétrica.

Por ejemplo, la población sin hogar y la tasa de criminalidad podrían estar correlacionadas, ya que ambas tienden a ser altas o bajas en los mismos lugares. Es igualmente válido decir que la población de personas sin hogar está correlacionada con la tasa de criminalidad, o la tasa de delincuencia está correlacionada con la población de personas sin hogar. Decir que el crimen causa falta de vivienda, o que las poblaciones sin hogar causan delincuencia son declaraciones diferentes. Y la correlación no implica que tampoco sea cierto. Por ejemplo, la causa subyacente podría ser una tercera variable, como el abuso de drogas o el desempleo.

La matemática de la estadística no es buena para identificar las causas subyacentes, lo que requiere alguna otra forma de juicio.

Pablo
fuente
3
Juicio es una buena palabra, ya que todo lo que podemos observar es la correlación. Todo lo que pueden hacer los experimentos y / o las estadísticas inteligentes es permitirnos excluir algunas explicaciones alternativas de lo que podría haber causado un efecto.
Jonas
Muy buen comentario sobre las relaciones simétricas / asimétricas. También se podría afirmar que el calentamiento global hace que aumente la piratería.
Andre Holzner
27

Mis favoritos:

1) Cuantos más bomberos son enviados a un incendio, más daño se hace.

2) Los niños que reciben tutoría obtienen peores calificaciones que los niños que no reciben tutoría

y (este es mi mejor)

3) En los primeros años de la escuela primaria, el signo astrológico se correlaciona con el coeficiente intelectual, pero esta correlación se debilita con la edad y desaparece en la edad adulta.

Peter Flom - Restablece a Monica
fuente
2
(@xmjx Suministrado el primer ejemplo el año pasado.) Me encanta el ejemplo de astrología.
whuber
¿Puedes explicar la muestra con signo astrológico por favor?
Eugene D. Gubenkov
2
No importa, lo tengo. Eso tiene que ver con la diferencia de edad entre los nacidos al comienzo del año y los nacidos al final. Agradable.
Eugene D. Gubenkov
24

Siempre me ha gustado este:

limones vs muertes

fuente: http://pubs.acs.org/doi/abs/10.1021/ci700332k

chrisamiller
fuente
1
Agradable, pero no puedo ver a nadie tratando de sacar una conclusión de causalidad allí. ¿O son los conductores mexicanos de camiones de limón notoriamente peligrosos una vez que cruzan la frontera?
AdamV
2
Obviamente, un efecto secundario imprevisto de la profusión de las leyes del limón en los Estados Unidos. Por ejemplo, ver: en.wikipedia.org/wiki/Lemon_law
Thylacoleo
11
Un colega mío observó los datos de este en el periodo posterior a 2000, y se encontró que la relación mantuvo bastante bien 'fuera de la muestra', que es aún más preocupante ...
shabbychef
Una racionalización simple sería que ambos están disminuyendo con el tiempo. ¿Los datos posteriores a 2000 respaldan eso? PS, Box Hunter y Hunter (ver más abajo) explican el ejemplo de las cigüeñas de la misma manera: ambas aumentaron con el tiempo durante el período en cuestión.
Emil Friedman
23
  1. A veces la correlación es suficiente. Por ejemplo, en el seguro de automóviles, los conductores masculinos están correlacionados con más accidentes, por lo que las compañías de seguros les cobran más. No hay forma de que pueda probar esto para determinar la causalidad. No puede cambiar los géneros de los controladores experimentalmente. Google ha ganado cientos de miles de millones de dólares sin preocuparse por la causalidad.

  2. Para encontrar la causalidad, generalmente necesita datos experimentales, no datos de observación. Sin embargo, en economía, a menudo usan "choques" observados en el sistema para probar la causalidad, como si un CEO muere repentinamente y el precio de las acciones sube, puede suponer la causalidad.

  3. La correlación es una condición necesaria pero no suficiente para la causalidad. Mostrar causalidad requiere un contrafactual.

Neil McGuigan
fuente
1
Me gusta el primer ejemplo que das. Eso ciertamente hará que los estudiantes hablen;)
csgillespie
1
Hay una discusión interesante de Steve Steinberg en su blog aquí: blog.steinberg.org/?p=11 sobre algunas de las implicaciones de 1 y hacia dónde podría conducir en términos de IA débil.
Amós
¿Podría alguien ampliar un poco la última oración?
naught101
44
X(1,1)Y(0,1)Y=1X2XsXY
18

Tengo algunos ejemplos que me gusta usar.

  1. Al investigar la causa del delito en la ciudad de Nueva York en los años 80, cuando intentaban limpiar la ciudad, un académico encontró una fuerte correlación entre la cantidad de delitos graves cometidos y la cantidad de helados vendidos por vendedores ambulantes. (¿Cuál es la causa y cuál es el efecto?) Obviamente, había una variable no observada que causaba ambas. Los veranos son cuando el crimen es el mayor y cuando se vende la mayor cantidad de helados.

  2. El tamaño de tu palma está negativamente correlacionado con el tiempo que vivirás (¡de verdad!). De hecho, las mujeres tienden a tener palmas más pequeñas y vivir más tiempo.

  3. [Mi favorito] Me enteré de un estudio hace unos años que descubrió que la cantidad de refrescos que una persona bebe está correlacionada positivamente con la probabilidad de obesidad.(Me dije a mí mismo, eso tiene sentido ya que debe ser debido a que las personas beben el refresco azucarado y obtienen todas esas calorías vacías). Unos días más tarde salieron más detalles. Casi toda la correlación se debió a un mayor consumo de refrescos dietéticos. (¡Eso arruinó mi teoría!) Entonces, ¿de qué manera es la causalidad? ¿Los refrescos de dieta hacen que uno aumente de peso, o un aumento de peso provoca un mayor consumo de refrescos de dieta? (Antes de concluir que es lo último, vea el estudio donde un experimento controlado con ratas mostró que el grupo que se alimentó con un yogur con edulcorante artificial ganó más peso que el grupo que se alimentó con el yogur normal). Dos referencias: Beber más refrescos de dieta , Ganar más peso? ; Refrescos dietéticos relacionados con la obesidad.. Creo que todavía están tratando de resolver esto.

whuber
fuente
44
El último es un poco más complicado de lo que presenta, pero estoy de acuerdo en que muchas de las asociaciones de observación encontradas entre el refresco / refresco de dieta y la obesidad deben considerarse con un ojo crítico. Teóricamente, algunos han postulado que los sustitutos falsos de azúcar / grasa tienen otros efectos fisiológicos más allá de la simple ingesta de calorías. Vea, por ejemplo, este experimento con ratas y grasas sintéticas (tomado del blog Freakonomics).
Andy W
18

El número de premios Nobel ganados por un país (ajustándose a la población) se correlaciona bien con el consumo de chocolate per cápita. ( New England Journal of Medicine )

ingrese la descripción de la imagen aquí

Harvey Motulsky
fuente
2
+1 Estaba muy decepcionado con NEJM cuando publicaron esto
MattBagg
55
Parece que también se correlaciona bastante bien con la proximidad a Suecia ..
naught101
2
El consumo de chocolate (per cápita) también se correlaciona significativamente con el número per cápita de asesinos en serie. replicatedtypo.com/…
Harvey Motulsky
2
Le pregunté a tres ganadores del Premio Nobel que (vagamente) conozco, y los tres dijeron que habían comido mucho más chocolate que la mayoría de sus colegas. ¡Por supuesto, estas respuestas llegaron después de que leyeron el periódico NEJM!
Harvey Motulsky
44
@MattBagg Esto fue publicado como "Notas ocasionales" y obviamente no debe ser tomado en serio.
Pascal
9

Hay dos aspectos de este problema post hoc ergo propter hoc que me gusta cubrir: (i) causalidad inversa y (ii) endogeneidad

Un ejemplo de causalidad inversa "posible": consumo social y ganancias: los bebedores ganan más dinero de acuerdo con Bethany L. Peters y Edward Stringham (2006. "Sin alcohol? Puede perder: ¿Por qué los bebedores ganan más dinero que los no bebedores", Journal of Labor Research, Transaction Publishers, vol. 27 (3), páginas 411-421, junio). ¿O las personas que ganan más dinero beben más porque tienen un mayor ingreso disponible o por estrés? Este es un gran artículo para discutir por todo tipo de razones, incluyendo error de medición, sesgo de respuesta, causalidad, etc.

Un ejemplo de endogeneidad "posible": la ecuación de Mincer explica los ingresos de registro por educación, experiencia y experiencia al cuadrado. Hay una larga literatura sobre este tema. Los economistas laborales quieren estimar la relación causal de la educación sobre los ingresos, pero tal vez la educación es endógena porque la "capacidad" podría aumentar la cantidad de educación que tiene un individuo (al reducir el costo de obtenerla) y podría conducir a un aumento de los ingresos, independientemente de El nivel de educación. Una posible solución a esto podría ser una variable instrumental. El libro de Angrist y Pischke, Econometría en su mayoría inofensivo, cubre esto y relaciona temas con gran detalle y claridad.

Otros ejemplos tontos para los que no tengo soporte incluyen: - Número de televisores per cápita y los números de la tasa de mortalidad. Entonces, enviemos televisores a los países en desarrollo. Obviamente, ambos son endógenos a algo como el PIB. - Número de ataques de tiburones y venta de helados. ¿Ambos son endógenos a la temperatura quizás?

También me gusta contar el chiste terrible sobre el loco y la araña. Un loco está vagando por los pasillos de un manicomio con una araña que lleva en la palma de su mano. Él ve al médico y le dice: "Mire Doc, puedo hablar con las arañas. Mire esto." ¡Araña, vaya a la izquierda! "La araña se mueve debidamente a la izquierda. Continúa:" Araña, vaya a la derecha ". a la derecha de la palma de la mano. El médico responde: "Interesante, tal vez deberíamos hablar de esto en la próxima sesión grupal". El lunático responde: "Eso no es nada Doc. Mire esto. "Él saca cada una de las patas de la araña una por una y luego grita:" ¡Araña, vaya a la izquierda! "La araña yace inmóvil en su palma y el lunático se vuelve hacia el médico y concluye:" Si saca una araña las piernas se quedarán sordas ".

Graham Cookson
fuente
8

El mejor que me han enseñado ha sido la cantidad de ahogamientos y la venta de helados puede estar altamente correlacionada, pero eso no implica que uno cause el otro. Los ahogamientos y las ventas de helados son obviamente mayores en los meses de verano cuando hace buen tiempo. La tercera variable, también conocida como buen clima, las causa.

TJM
fuente
6

Como una generalización de 'los piratas causan el calentamiento global': Elija dos cantidades que estén (monotónicamente) aumentando o disminuyendo con el tiempo y debería ver alguna correlación.

Andre Holzner
fuente
6

Puede pasar unos minutos en Google Correlate y encontrar todo tipo de correlaciones espurias.

Zach
fuente
1
Si bien este enlace puede responder la pregunta, es mejor incluir aquí las partes esenciales de la respuesta y proporcionar el enlace como referencia. Las respuestas de solo enlace pueden volverse inválidas si la página vinculada cambia.
gung - Restablece a Monica
1
@gung ¿hablas en serio? El enlace es a una aplicación, no a una página simple que describe una respuesta. La respuesta sería inválida si la página vinculada cambia de todos modos, ya que la herramienta dejaría de estar disponible (en el formulario actual).
Jerome Baum
6

Trabajo con estudiantes en la enseñanza de correlación vs causalidad en mis clases de Álgebra One. Examinamos muchos ejemplos posibles. Encontré que el artículo Bundled-Up Babies and Dangerous Ice Cream: Correlation Puzzlers del Profesor de Matemáticas de febrero de 2013 es útil. Me gusta la idea de hablar sobre "variables al acecho". También esta caricatura es un lindo iniciador de conversación:

ingrese la descripción de la imagen aquí

Identificamos la variable independiente y dependiente en la caricatura y hablamos sobre si este es un ejemplo de causalidad, si no, por qué no.

gung
fuente
4

Leí (hace mucho tiempo) de un ejemplo interesante sobre una disminución en las tasas de natalidad (o tasas de fertilidad si prefiere esa medida) especialmente en los EE. UU., Comenzando a principios de la década de 1960, ya que las pruebas de armas nucleares estaban en su punto más alto (en 1961 la bomba nuclear más grande que detonó fue probada en la URSS). Las tasas continuaron delineándose hasta finales del siglo XX, cuando la mayoría de los países finalmente dejaron de hacerlo.

No puedo encontrar una referencia que combine estas cifras ahora, pero este artículo de Wikipedia tiene cifras sobre los números de prueba de armas nucleares por país.

Por supuesto, podría tener más sentido observar la correlación de la tasa de natalidad con la introducción y legalización de la píldora anticonceptiva 'casualmente' a partir de principios de la década de 1960. (Primero, solo en algunos estados, luego todos los estados solo para mujeres casadas, luego algunas para solteras, y en general), pero incluso eso solo podría ser parte de la causa; Muchos otros aspectos de la igualdad, los cambios económicos y otros factores juegan un papel importante.

AdamV
fuente
Ejemplo interesante, porque parece, a primera vista, como una probable relación de causa y efecto, a diferencia de muchos de los ejemplos más tontos.
Bossykena
1
Lo que me gusta es que puede provocar mucha discusión sobre si el "efecto" fue realmente afectar la fertilidad (en un sentido médico de la capacidad de concebir) o si fue social ("No quiero traer a un niño a esta situación tan mala"). mundo"). Luego suelta la bomba sobre la píldora si nadie más la ha mencionado. Y luego señale que incluso esto solo puede ser un factor posible y discuta algunos de los otros.
AdamV
4

Una correlación por sí sola nunca puede establecer un vínculo causal. David Hume (1771-1776) argumentó con bastante eficacia que no podemos obtener cierto conocimiento de la cauasalidad por medios puramente empíricos. Kant intentó abordar esto, la página de Wikipedia para Kant parece resumirlo muy bien:

Kant creía estar creando un compromiso entre los empiristas y los racionalistas. Los empiristas creían que el conocimiento se adquiere solo a través de la experiencia, pero los racionalistas sostenían que dicho conocimiento está abierto a la duda cartesiana y que solo la razón nos proporciona conocimiento. Sin embargo, Kant argumenta que usar la razón sin aplicarla a la experiencia solo conducirá a ilusiones, mientras que la experiencia será puramente subjetiva sin primero ser subsumida por la razón pura.

En otras palabras, Hume nos dice que nunca podemos saber que existe una relación causal simplemente observando una correlación, pero Kant sugiere que podemos usar nuestra razón para distinguir entre correlaciones que implican un vínculo causal de aquellos que no lo hacen. No creo que Hume hubiera estado en desacuerdo, siempre y cuando Kant estuviera escribiendo en términos de plausibilidad en lugar de cierto conocimiento.

En resumen, una correlación proporciona evidencia circunstancial que implica un vínculo causal, pero el peso de la evidencia depende en gran medida de las circunstancias particulares involucradas, y nunca podemos estar absolutamente seguros. La capacidad de predecir los efectos de las intervenciones es una forma de ganar confianza (no podemos probar nada, pero podemos refutarlo mediante evidencia observacional, por lo que al menos hemos intentado falsificar la teoría de un vínculo causal). Tener un modelo simple que explique por qué deberíamos observar una correlación que también explica otras formas de evidencia es otra forma de aplicar nuestro razonamiento como sugiere Kant.

Advertencia: es completamente posible que haya entendido mal la filosofía, sin embargo, sigue siendo el caso de que una correlación nunca puede proporcionar pruebas de un vínculo causal.

Dikran Marsupial
fuente
2
Por lo que vale, en la terminología actual creo que uno debería leer a Kant como afirmando, por ejemplo, en la Segunda Analogía, que cualesquiera que sean las correlaciones que observe, hay algún gráfico causal que las genera. Hasta donde sé, no tenía un método particular para identificar la estructura, pero sí asumía que debía estar completamente conectada (porque "cada evento tiene una causa"). En este sentido, es contemporáneo: la inferencia causal requiere una mezcla de supuestos causales, por ejemplo, expresados ​​a través de un gráfico, y regularidades observadas en los datos. Y, por lo general, no puede evitar la primera parte ni inducirla a partir de los datos
conjugateprior
+1 bien explicado! Tal vez soy demasiado bayesiano, pero no me preocupa demasiado la idea de que no podamos tener un conocimiento seguro de ninguna relación causal.
Dikran Marsupial
3

El conteo de esperma en los machos en las aldeas eslovenas y el número de osos (también en Eslovenia) muestran una correlación negativa. Algunas personas encuentran esto muy preocupante. Trataré de obtener el estudio que hizo esto.

Roman Luštrik
fuente
3

Recientemente estuve en una conferencia y uno de los oradores dio este ejemplo muy interesante (aunque el punto era ilustrar algo más):

  • Los estadounidenses y los ingleses comen mucha grasa. Hay una alta tasa de enfermedades cardiovasculares en los Estados Unidos y el Reino Unido.

  • Los franceses comen muchos alimentos grasos, pero tienen una tasa baja (er) de enfermedades cardiovasculares.

  • Los estadounidenses y los ingleses beben mucho alcohol. Hay una alta tasa de enfermedades cardiovasculares en los Estados Unidos y el Reino Unido.

  • Los italianos beben mucho alcohol pero, nuevamente, tienen una tasa baja (er) de enfermedades cardiovasculares.

¿La conclusión? Come y bebe lo que quieras. ¡Y tiene más posibilidades de sufrir un ataque cardíaco si habla inglés!

nico
fuente
3
También es un buen ejemplo de la falacia ecológica (es decir, hacer inferencias sobre el nivel individual a partir de datos a nivel de grupo).
Jeromy Anglim
3

ingrese la descripción de la imagen aquí

Esta caricatura rom XKCD también se publica en otro lugar en CrossValidated.

Harvey Motulsky
fuente
3

Otro ejemplo de correlación que he usado es el gran aumento en el número de personas que comen alimentos orgánicos y el aumento en el número de niños diagnosticados con autismo en los EE. UU. Hay un gráfico de parodia en la web: gráfico de parodia de alimentos orgánicos autismo

usuario61177
fuente
3

http://tylervigen.com/

Esto muestra un montón de correlaciones que obviamente no tienen nada que ver con la causalidad, o ¿tiene alguna buena idea de cuál es la causa de la correlación de Age of Miss America se correlaciona con asesinatos por vapor, vapores calientes y objetos calientes?

??

xyz
fuente
2

Enseñar "Correlación no significa causalidad" realmente no ayuda a nadie porque al final del día todos los argumentos deductivos se basan en parte en la correlación.

Los humanos son muy malos para aprender a no hacer algo.

El objetivo debería ser más bien constructivo: siempre piense en alternativas a sus supuestos iniciales que podrían producir los mismos datos.

cristiano
fuente
1
Esto no responde a la pregunta: quizás debería entenderse como un comentario.
whuber
2

Bueno, mi profesor los usó en la clase de probabilidad introductoria:

1) El tamaño del zapato se correlaciona con la capacidad de lectura

2) El ataque de tiburones se correlaciona con la venta de helados.

Shrey
fuente
2

Cuantos más camiones de bomberos se envíen a un incendio, mayor será el daño.

xmjx
fuente
1
El único problema con esto como ejemplo es que existe una clara causalidad inversa.
naught101
1

Creo que un mejor paradigma podría ser la causalidad que requiere una correlación asociada con un mecanismo creíble y preferiblemente probado. Creo que la palabra implicar debería usarse con moderación en este contexto, ya que tiene varios significados, incluido el de sugerencia.

Robert Jones
fuente
1

El ejemplo de las cigüeñas se encuentra en la página 8 de la primera edición (1978) del libro de Box, Hunter & Hunter titulado "Estadísticas para experimentadores ..." (Wiley). No sé si está en la 2da edición. Identifican la ciudad como Oldenburg y el período de tiempo como 1930-1936.

Hacen referencia a Ornithologische Monatsberichte , 44 , No 2, Jahrgang, 1936, Berlín, y 48 , No 1, Jahrgang, 1940, Berlín, y Statistiches Jahrbuch Deutscher Gemeinden , 27-33, 1932-1938, Gustav Fischer, Jena.

Emil Friedman
fuente
0

Vi una divertida en un artículo.

La producción de mantequilla en Bangladesh tiene una de las correlaciones más altas con el S&P 500 en un período de diez años.

http://www.forbes.com/sites/davidleinweber/2012/07/24/stupid-data-miner-tricks-quants-fooling-theelves-the-economic-indicator-in-your-pants/

Esta
fuente
2
¿Eh? El gráfico muestra el S&P a lo largo del tiempo. El título habla sobre la producción de mantequilla y queso, que no son visibles en el gráfico. ???
Harvey Motulsky
3
OK, ahora ya veo. El gráfico muestra la predicción de un modelo de regresión múltiple, y muestra que incluir tres variables tontas hace un trabajo bastante bueno al hacer que el modelo prediga cambios en el SP500 a lo largo del tiempo. Este es un buen ejemplo de sobreajuste en regresión múltiple, e indirectamente muestra que la correlación (o la bondad de ajuste mejorada de un modelo elegante) no implica causalidad.
Harvey Motulsky
0

Aquí hay uno perfecto. Y desafortunadamente, puede usarse como un gran punto de enseñanza porque ni el personal del Washington Post ni los Centros para el Control y la Prevención de Enfermedades demuestran ninguna idea de que el artículo debería ser una sátira en The Onion.

https://www.washingtonpost.com/health/trumps-presidency-may-be-making-latinos-sick/2019/07/19/4e89b9f0-a97f-11e9-9214-246e594de5d5_story.html?utm_term=.9dd329c2e837

Mark C.
fuente
3
Resuma lo que se dice detrás del enlace, no solo que juzgue que está equivocado.
cbeleites
Lo siento. Pero pensé que este se explicaba por sí mismo.
Mark C.
2
El enlace está bien como referencia a la fuente, pero no debe suponer que todos pueden leerlo (o no sin mucha molestia). Tenga en cuenta: dichos enlaces están muy sujetos a la descomposición de los enlaces, y no todos los periódicos sirven a todas las regiones geográficas (por ejemplo, hay periódicos de EE. UU. Que decidieron que no vale la pena molestarse en cumplir con el RGPD de la UE y que, en consecuencia, bloquearán a los lectores con IP de la UE habla a).
Cbeleites
-2

Alguien dijo que la correlación puede no significar causalidad, pero seguramente puede ser una buena pista :)

Ok dejando de lado la parte divertida, ¿qué es exactamente la causalidad? ¿Estamos realmente seguros de que los piratas no causan el calentamiento global?

Contraintuitivo, pero lo que se toma como causa y qué como efecto (en un estudio de correlación no está tan claro). Por supuesto, muchas veces ambos pueden ser efectos de causa común (y por lo tanto correlacionados)

Todo se reduce al método de determinar la causalidad.

Esta es la causa (juego de palabras) del dicho:

Hay pequeñas mentiras. Hay grandes mentiras y hay estadísticas.

Nikos M.
fuente