Hay un viejo dicho: "Correlación no significa causalidad". Cuando enseño, tiendo a usar los siguientes ejemplos estándar para ilustrar este punto:
- número de cigüeñas y tasa de natalidad en Dinamarca;
- número de sacerdotes en América y alcoholismo;
- a principios del siglo XX se observó que había una fuerte correlación entre 'Número de radios' y 'Número de personas en los asilos insanos'
- y mi favorito: los piratas causan el calentamiento global .
Sin embargo, no tengo referencias para estos ejemplos y, aunque son divertidos, obviamente son falsos.
¿Alguien tiene algún otro buen ejemplo?
correlation
teaching
csgillespie
fuente
fuente
Respuestas:
Puede ser útil explicar que "causas" es una relación asimétrica (X hace que Y sea diferente de Y causa X), mientras que "está correlacionado con" es una relación simétrica.
Por ejemplo, la población sin hogar y la tasa de criminalidad podrían estar correlacionadas, ya que ambas tienden a ser altas o bajas en los mismos lugares. Es igualmente válido decir que la población de personas sin hogar está correlacionada con la tasa de criminalidad, o la tasa de delincuencia está correlacionada con la población de personas sin hogar. Decir que el crimen causa falta de vivienda, o que las poblaciones sin hogar causan delincuencia son declaraciones diferentes. Y la correlación no implica que tampoco sea cierto. Por ejemplo, la causa subyacente podría ser una tercera variable, como el abuso de drogas o el desempleo.
La matemática de la estadística no es buena para identificar las causas subyacentes, lo que requiere alguna otra forma de juicio.
fuente
Mis favoritos:
1) Cuantos más bomberos son enviados a un incendio, más daño se hace.
2) Los niños que reciben tutoría obtienen peores calificaciones que los niños que no reciben tutoría
y (este es mi mejor)
3) En los primeros años de la escuela primaria, el signo astrológico se correlaciona con el coeficiente intelectual, pero esta correlación se debilita con la edad y desaparece en la edad adulta.
fuente
Siempre me ha gustado este:
fuente: http://pubs.acs.org/doi/abs/10.1021/ci700332k
fuente
A veces la correlación es suficiente. Por ejemplo, en el seguro de automóviles, los conductores masculinos están correlacionados con más accidentes, por lo que las compañías de seguros les cobran más. No hay forma de que pueda probar esto para determinar la causalidad. No puede cambiar los géneros de los controladores experimentalmente. Google ha ganado cientos de miles de millones de dólares sin preocuparse por la causalidad.
Para encontrar la causalidad, generalmente necesita datos experimentales, no datos de observación. Sin embargo, en economía, a menudo usan "choques" observados en el sistema para probar la causalidad, como si un CEO muere repentinamente y el precio de las acciones sube, puede suponer la causalidad.
La correlación es una condición necesaria pero no suficiente para la causalidad. Mostrar causalidad requiere un contrafactual.
fuente
Tengo algunos ejemplos que me gusta usar.
Al investigar la causa del delito en la ciudad de Nueva York en los años 80, cuando intentaban limpiar la ciudad, un académico encontró una fuerte correlación entre la cantidad de delitos graves cometidos y la cantidad de helados vendidos por vendedores ambulantes. (¿Cuál es la causa y cuál es el efecto?) Obviamente, había una variable no observada que causaba ambas. Los veranos son cuando el crimen es el mayor y cuando se vende la mayor cantidad de helados.
El tamaño de tu palma está negativamente correlacionado con el tiempo que vivirás (¡de verdad!). De hecho, las mujeres tienden a tener palmas más pequeñas y vivir más tiempo.
[Mi favorito] Me enteré de un estudio hace unos años que descubrió que la cantidad de refrescos que una persona bebe está correlacionada positivamente con la probabilidad de obesidad.(Me dije a mí mismo, eso tiene sentido ya que debe ser debido a que las personas beben el refresco azucarado y obtienen todas esas calorías vacías). Unos días más tarde salieron más detalles. Casi toda la correlación se debió a un mayor consumo de refrescos dietéticos. (¡Eso arruinó mi teoría!) Entonces, ¿de qué manera es la causalidad? ¿Los refrescos de dieta hacen que uno aumente de peso, o un aumento de peso provoca un mayor consumo de refrescos de dieta? (Antes de concluir que es lo último, vea el estudio donde un experimento controlado con ratas mostró que el grupo que se alimentó con un yogur con edulcorante artificial ganó más peso que el grupo que se alimentó con el yogur normal). Dos referencias: Beber más refrescos de dieta , Ganar más peso? ; Refrescos dietéticos relacionados con la obesidad.. Creo que todavía están tratando de resolver esto.
fuente
El número de premios Nobel ganados por un país (ajustándose a la población) se correlaciona bien con el consumo de chocolate per cápita. ( New England Journal of Medicine )
fuente
Aunque es más una ilustración del problema de las comparaciones múltiples, también es un buen ejemplo de causalidad mal atribuida:
Rugby (la religión de Gales) y su influencia en la iglesia católica: ¿debería estar preocupado el Papa Benedicto XVI?
fuente
Hay dos aspectos de este problema post hoc ergo propter hoc que me gusta cubrir: (i) causalidad inversa y (ii) endogeneidad
Un ejemplo de causalidad inversa "posible": consumo social y ganancias: los bebedores ganan más dinero de acuerdo con Bethany L. Peters y Edward Stringham (2006. "Sin alcohol? Puede perder: ¿Por qué los bebedores ganan más dinero que los no bebedores", Journal of Labor Research, Transaction Publishers, vol. 27 (3), páginas 411-421, junio). ¿O las personas que ganan más dinero beben más porque tienen un mayor ingreso disponible o por estrés? Este es un gran artículo para discutir por todo tipo de razones, incluyendo error de medición, sesgo de respuesta, causalidad, etc.
Un ejemplo de endogeneidad "posible": la ecuación de Mincer explica los ingresos de registro por educación, experiencia y experiencia al cuadrado. Hay una larga literatura sobre este tema. Los economistas laborales quieren estimar la relación causal de la educación sobre los ingresos, pero tal vez la educación es endógena porque la "capacidad" podría aumentar la cantidad de educación que tiene un individuo (al reducir el costo de obtenerla) y podría conducir a un aumento de los ingresos, independientemente de El nivel de educación. Una posible solución a esto podría ser una variable instrumental. El libro de Angrist y Pischke, Econometría en su mayoría inofensivo, cubre esto y relaciona temas con gran detalle y claridad.
Otros ejemplos tontos para los que no tengo soporte incluyen: - Número de televisores per cápita y los números de la tasa de mortalidad. Entonces, enviemos televisores a los países en desarrollo. Obviamente, ambos son endógenos a algo como el PIB. - Número de ataques de tiburones y venta de helados. ¿Ambos son endógenos a la temperatura quizás?
También me gusta contar el chiste terrible sobre el loco y la araña. Un loco está vagando por los pasillos de un manicomio con una araña que lleva en la palma de su mano. Él ve al médico y le dice: "Mire Doc, puedo hablar con las arañas. Mire esto." ¡Araña, vaya a la izquierda! "La araña se mueve debidamente a la izquierda. Continúa:" Araña, vaya a la derecha ". a la derecha de la palma de la mano. El médico responde: "Interesante, tal vez deberíamos hablar de esto en la próxima sesión grupal". El lunático responde: "Eso no es nada Doc. Mire esto. "Él saca cada una de las patas de la araña una por una y luego grita:" ¡Araña, vaya a la izquierda! "La araña yace inmóvil en su palma y el lunático se vuelve hacia el médico y concluye:" Si saca una araña las piernas se quedarán sordas ".
fuente
El mejor que me han enseñado ha sido la cantidad de ahogamientos y la venta de helados puede estar altamente correlacionada, pero eso no implica que uno cause el otro. Los ahogamientos y las ventas de helados son obviamente mayores en los meses de verano cuando hace buen tiempo. La tercera variable, también conocida como buen clima, las causa.
fuente
Como una generalización de 'los piratas causan el calentamiento global': Elija dos cantidades que estén (monotónicamente) aumentando o disminuyendo con el tiempo y debería ver alguna correlación.
fuente
Puede pasar unos minutos en Google Correlate y encontrar todo tipo de correlaciones espurias.
fuente
Trabajo con estudiantes en la enseñanza de correlación vs causalidad en mis clases de Álgebra One. Examinamos muchos ejemplos posibles. Encontré que el artículo Bundled-Up Babies and Dangerous Ice Cream: Correlation Puzzlers del Profesor de Matemáticas de febrero de 2013 es útil. Me gusta la idea de hablar sobre "variables al acecho". También esta caricatura es un lindo iniciador de conversación:
Identificamos la variable independiente y dependiente en la caricatura y hablamos sobre si este es un ejemplo de causalidad, si no, por qué no.
fuente
Leí (hace mucho tiempo) de un ejemplo interesante sobre una disminución en las tasas de natalidad (o tasas de fertilidad si prefiere esa medida) especialmente en los EE. UU., Comenzando a principios de la década de 1960, ya que las pruebas de armas nucleares estaban en su punto más alto (en 1961 la bomba nuclear más grande que detonó fue probada en la URSS). Las tasas continuaron delineándose hasta finales del siglo XX, cuando la mayoría de los países finalmente dejaron de hacerlo.
No puedo encontrar una referencia que combine estas cifras ahora, pero este artículo de Wikipedia tiene cifras sobre los números de prueba de armas nucleares por país.
Por supuesto, podría tener más sentido observar la correlación de la tasa de natalidad con la introducción y legalización de la píldora anticonceptiva 'casualmente' a partir de principios de la década de 1960. (Primero, solo en algunos estados, luego todos los estados solo para mujeres casadas, luego algunas para solteras, y en general), pero incluso eso solo podría ser parte de la causa; Muchos otros aspectos de la igualdad, los cambios económicos y otros factores juegan un papel importante.
fuente
Una correlación por sí sola nunca puede establecer un vínculo causal. David Hume (1771-1776) argumentó con bastante eficacia que no podemos obtener cierto conocimiento de la cauasalidad por medios puramente empíricos. Kant intentó abordar esto, la página de Wikipedia para Kant parece resumirlo muy bien:
En otras palabras, Hume nos dice que nunca podemos saber que existe una relación causal simplemente observando una correlación, pero Kant sugiere que podemos usar nuestra razón para distinguir entre correlaciones que implican un vínculo causal de aquellos que no lo hacen. No creo que Hume hubiera estado en desacuerdo, siempre y cuando Kant estuviera escribiendo en términos de plausibilidad en lugar de cierto conocimiento.
En resumen, una correlación proporciona evidencia circunstancial que implica un vínculo causal, pero el peso de la evidencia depende en gran medida de las circunstancias particulares involucradas, y nunca podemos estar absolutamente seguros. La capacidad de predecir los efectos de las intervenciones es una forma de ganar confianza (no podemos probar nada, pero podemos refutarlo mediante evidencia observacional, por lo que al menos hemos intentado falsificar la teoría de un vínculo causal). Tener un modelo simple que explique por qué deberíamos observar una correlación que también explica otras formas de evidencia es otra forma de aplicar nuestro razonamiento como sugiere Kant.
Advertencia: es completamente posible que haya entendido mal la filosofía, sin embargo, sigue siendo el caso de que una correlación nunca puede proporcionar pruebas de un vínculo causal.
fuente
fuente
La cita estándar que señala la correlación entre el número de recién nacidos y las parejas de cigüeñas en Alemania Occidental es un nuevo parámetro para la educación sexual , Nature 332, 495 (07 de abril de 1988); doi: 10.1038 / 332495a0
fuente
El conteo de esperma en los machos en las aldeas eslovenas y el número de osos (también en Eslovenia) muestran una correlación negativa. Algunas personas encuentran esto muy preocupante. Trataré de obtener el estudio que hizo esto.
fuente
Recientemente estuve en una conferencia y uno de los oradores dio este ejemplo muy interesante (aunque el punto era ilustrar algo más):
Los estadounidenses y los ingleses comen mucha grasa. Hay una alta tasa de enfermedades cardiovasculares en los Estados Unidos y el Reino Unido.
Los franceses comen muchos alimentos grasos, pero tienen una tasa baja (er) de enfermedades cardiovasculares.
Los estadounidenses y los ingleses beben mucho alcohol. Hay una alta tasa de enfermedades cardiovasculares en los Estados Unidos y el Reino Unido.
Los italianos beben mucho alcohol pero, nuevamente, tienen una tasa baja (er) de enfermedades cardiovasculares.
¿La conclusión? Come y bebe lo que quieras. ¡Y tiene más posibilidades de sufrir un ataque cardíaco si habla inglés!
fuente
Esta caricatura rom XKCD también se publica en otro lugar en CrossValidated.
fuente
Otro ejemplo de correlación que he usado es el gran aumento en el número de personas que comen alimentos orgánicos y el aumento en el número de niños diagnosticados con autismo en los EE. UU. Hay un gráfico de parodia en la web:
fuente
http://tylervigen.com/
Esto muestra un montón de correlaciones que obviamente no tienen nada que ver con la causalidad, o ¿tiene alguna buena idea de cuál es la causa de la correlación de Age of Miss America se correlaciona con asesinatos por vapor, vapores calientes y objetos calientes?
??
fuente
Enseñar "Correlación no significa causalidad" realmente no ayuda a nadie porque al final del día todos los argumentos deductivos se basan en parte en la correlación.
Los humanos son muy malos para aprender a no hacer algo.
El objetivo debería ser más bien constructivo: siempre piense en alternativas a sus supuestos iniciales que podrían producir los mismos datos.
fuente
Bueno, mi profesor los usó en la clase de probabilidad introductoria:
1) El tamaño del zapato se correlaciona con la capacidad de lectura
2) El ataque de tiburones se correlaciona con la venta de helados.
fuente
Cuantos más camiones de bomberos se envíen a un incendio, mayor será el daño.
fuente
Creo que un mejor paradigma podría ser la causalidad que requiere una correlación asociada con un mecanismo creíble y preferiblemente probado. Creo que la palabra implicar debería usarse con moderación en este contexto, ya que tiene varios significados, incluido el de sugerencia.
fuente
El ejemplo de las cigüeñas se encuentra en la página 8 de la primera edición (1978) del libro de Box, Hunter & Hunter titulado "Estadísticas para experimentadores ..." (Wiley). No sé si está en la 2da edición. Identifican la ciudad como Oldenburg y el período de tiempo como 1930-1936.
Hacen referencia a Ornithologische Monatsberichte , 44 , No 2, Jahrgang, 1936, Berlín, y 48 , No 1, Jahrgang, 1940, Berlín, y Statistiches Jahrbuch Deutscher Gemeinden , 27-33, 1932-1938, Gustav Fischer, Jena.
fuente
Vi una divertida en un artículo.
La producción de mantequilla en Bangladesh tiene una de las correlaciones más altas con el S&P 500 en un período de diez años.
fuente
Aquí hay uno perfecto. Y desafortunadamente, puede usarse como un gran punto de enseñanza porque ni el personal del Washington Post ni los Centros para el Control y la Prevención de Enfermedades demuestran ninguna idea de que el artículo debería ser una sátira en The Onion.
https://www.washingtonpost.com/health/trumps-presidency-may-be-making-latinos-sick/2019/07/19/4e89b9f0-a97f-11e9-9214-246e594de5d5_story.html?utm_term=.9dd329c2e837
fuente
Alguien dijo que la correlación puede no significar causalidad, pero seguramente puede ser una buena pista :)
Ok dejando de lado la parte divertida, ¿qué es exactamente la causalidad? ¿Estamos realmente seguros de que los piratas no causan el calentamiento global?
Contraintuitivo, pero lo que se toma como causa y qué como efecto (en un estudio de correlación no está tan claro). Por supuesto, muchas veces ambos pueden ser efectos de causa común (y por lo tanto correlacionados)
Todo se reduce al método de determinar la causalidad.
Esta es la causa (juego de palabras) del dicho:
Hay pequeñas mentiras. Hay grandes mentiras y hay estadísticas.
fuente