¿Cuándo puede ser útil la correlación sin causalidad?

27

Un dicho favorito de muchos estadísticos es "La correlación no implica causalidad". Esto es ciertamente cierto, pero una cosa que parece implicada aquí es que la correlación tiene poco o ningún valor. ¿Es esto cierto? ¿Es inútil saber que dos variables están correlacionadas?

No puedo imaginar que ese sea el caso. No estoy terriblemente familiarizado con el análisis predictivo, pero parece que si Xes un predictor de Y, sería útil para predecir valores futuros Ybasados en X, independientemente de la causalidad.

¿Soy incorrecto al ver el valor en la correlación? Y si no, ¿en qué situaciones podría un estadístico o científico de datos utilizar la correlación sin causalidad?

correlation predictive-models causality Indigenidad
fuente

55

En mi opinión, la frase "la causalidad no implica correlación" a menudo se usa incorrectamente para implicar que no siempre se debe confiar en las estadísticas (es cierto, pero no siempre debido a la falta de causalidad). Me enojo mucho cuando veo que la gente deja caer esta frase en referencia a por qué un análisis predictivo está mal. Por ejemplo, facebook.com/notes/mike-develin/debunking-princeton/… es un gran ejemplo de un análisis terrible Y de una desacreditación terrible de un análisis terrible.

Cliff AB

10

Por ejemplo, suponga que encuentra que vivir en cierta ciudad está correlacionado con la muerte prematura. No se puede concluir que vivir en esa ciudad causa la muerte prematura, ni que lograr que las personas se muden de esa ciudad les ayudaría a vivir más tiempo. (Tal vez la ciudad sea atractiva para las personas enfermas, por alguna razón). Pero si usted es un actuario, estaría perfectamente justificado querer cobrar primas de seguro de vida más altas a los miembros de esa ciudad; conocer esta correlación podría ser muy valioso para tú.

Nate Eldredge

2

Más personas mueren en el sur de Inglaterra, @NateEldredge. Eso es porque la gente se retira allí.

TRiG

1

La ausencia de correlación tiene más significado, posiblemente.

Raphael

Referencia obligatoria de xkcd: xkcd.com/552

vsz

32

La correlación (o cualquier otra medida de asociación) es útil para la predicción, independientemente de la causalidad. Suponga que mide una asociación clara y estable entre dos variables. Lo que esto significa es que conocer el nivel de una variable también le proporciona información sobre otra variable de interés, que puede usar para ayudar a predecir una variable en función de la otra y, lo más importante, tomar medidas basadas en esa predicción . Tomar medidas implica cambiar una o más variables, como al hacer una recomendación automatizada o emplear alguna intervención médica. Por supuesto, podría hacer mejores predicciones y actuar de manera más efectiva si tuviera más información sobre las relaciones directas o indirectas entre dos variables. Esta visión puede involucrar otras variables, incluidas las espaciales y temporales.

Equilibrio impetuoso
fuente

44

Las correlaciones no siempre son útiles para la predicción. En casos de causalidad inversa, hay aspectos temporales importantes que no siempre se pueden controlar. Nos encontramos con esto todo el tiempo con la enfermedad de Alzheimer. Estamos constantemente golpeando nuestra cabeza contra la pared tratando de discernir: ¿los biomarcadores que encontramos en los cerebros afectados por AD causan la enfermedad o son causados por la enfermedad?

AdamO

1

@AdamO Creo que mi respuesta cubre esa base en la última oración o dos, así que no estoy en desacuerdo con usted.

Brash Equilibrium

1

El problema con la causalidad en realidad surge solo si está tratando de interpretar su modelo predictivo. (Por supuesto, esto es lo que a menudo nos interesa en la ciencia). Cuando vemos que el biomarcador Aes un buen predictor, es muy tentador afirmar que esta también es la causa de la enfermedad. Y como se menciona en los comentarios, es muy fácil llegar a conclusiones erróneas. Si solo queremos hacer predicciones, por ejemplo, decir si un paciente tiene la enfermedad o no, no hay problemas con las correlaciones.

cel

1

Esto no es cierto y aquí hay solo un ejemplo de por qué. Si actuar de acuerdo con sus predicciones implica cambiar una variable y esperar que el objetivo también cambie, pero de hecho no existe un vínculo directo o la relación causal va en sentido contrario, entonces tomará la acción incorrecta. Y antes de decir, "pero en ese ejemplo estás interpretando el modelo", digo, "¿en qué escenario NO sacarías inferencia incluso de un modelo destinado a la predicción?" Respuesta: cuando no confías mucho en las relaciones causales que implica tu modelo.

Brash Equilibrium

1

@BrashEquilibrium: hay muchas formas de actuar en una predicción que no implican alterar las variables utilizadas para obtener la predicción de ninguna manera. ¿Le interesa saber si su tienda debe abastecerse de guantes de lana? Saber cuánto helado has estado vendiendo últimamente podría (en ausencia hipotética de fuentes de datos más directas, por supuesto) ser un buen predictor.

Ilmari Karonen

17

Ya hay muchos puntos buenos aquí. Permítanme desempaquetar su afirmación de que "parece que si Xes un predictor de Y, sería útil para predecir valores futuros Ybasados en X, independientemente de la causalidad" un poco. Tiene razón: si todo lo que quiere es poder predecir un Yvalor desconocido a partir de un Xvalor conocido y una relación estable conocida, el estado causal de esa relación es irrelevante. Considere eso:

Puedes predecir un efecto a partir de una causa. Esto es intuitivo y no controvertido.
También puede predecir una causa a partir del conocimiento de un efecto. Algunas, pero muy pocas, personas que contraen cáncer de pulmón nunca fumaron. Como resultado, si sabe que alguien tiene cáncer de pulmón, puede predecir con buena confianza que es / fue fumador, a pesar de que fumar es causal y el cáncer es el efecto. Si la hierba en el patio está mojada y el aspersor no ha estado funcionando, puede predecir que ha llovido, aunque la lluvia sea la causa y la hierba mojada sea solo el efecto. Etc.
También puede predecir un efecto desconocido a partir de un efecto conocido de la misma causa. Por ejemplo, si Billy y Bobby son gemelos idénticos y nunca he conocido a Billy, pero sé que Bobby mide 5 '10' (178 cm), puedo predecir que Billy también mide 178 cm con buena confianza, a pesar de que ni la altura de Billy causa la altura de Bobby ni la altura de Bobby causa la altura de Billy.

gung - Restablece a Monica
fuente

77

Solo para dar nombres a sus categorías: sus tres tipos de predicción se denominan (en orden) deducción , abducción e inducción .

Neil G

12

No están haciendo popó sobre la importancia de la correlación. Es solo que la tendencia es interpretar la correlación como causalidad.

Tome la lactancia materna como el ejemplo perfecto. Las madres casi siempre interpretan los hallazgos (de los estudios observacionales) sobre la lactancia materna como una sugerencia de si realmente deberían o no amamantar. Es cierto que, en promedio, los bebés que son amamantados tienden a ser adultos más saludables en orden de edad, incluso después de controlar la edad materna y paterna longitudinal, el estado socioeconómico, etc. Esto no implica que la lactancia materna sola sea responsable de la diferencia, aunque puede desempeñan parcialmente un papel en el desarrollo temprano de la regulación del apetito. La relación es muy compleja y se puede especular fácilmente sobre una gran cantidad de factores mediadores que podrían ser la base de las diferencias observadas.

Muchos estudios buscan asociaciones para garantizar una comprensión más profunda de lo que está sucediendo. La correlación no es inútil, solo hay varios pasos por debajo de la causalidad y uno debe tener en cuenta cómo informar los hallazgos para evitar la mala interpretación de los no expertos.

AdamO
fuente

9

Tienes razón en que la correlación es útil. La razón por la que los modelos causales son mejores que los modelos asociativos es que, como dice Pearl, son oráculos para las intervenciones. En otras palabras, te permiten razonar hipotéticamente. Un modelo causal responde la pregunta "si yo hiciera que X sucediera, ¿qué pasaría con Y?"

Pero no siempre necesitas razonar hipotéticamente. Si su modelo solo se usará para responder preguntas como "si observo X, ¿qué sé sobre Y?", Entonces todo lo que necesita es un modelo asociativo .

Neil G
fuente

3

Oracles For Interventions sería un buen nombre para una banda.

Malvolio

@Malvolio: lol, es una forma sucinta e inolvidable de describir modelos causales. Me gusta mucho esa frase.

Neil G

4

Tienes razón en que la correlación es útil para la predicción. También es útil para comprender mejor el sistema en estudio.

Un caso en el que es necesario conocer el mecanismo causal es si la distribución objetivo ha sido manipulada (por ejemplo, algunas variables han sido "forzadas" a tomar ciertos valores). Un modelo basado en correlaciones solo funcionará mal, mientras que un modelo que utiliza información causal debería funcionar mucho mejor.

Jorge
fuente

2

La correlación es una herramienta útil si tiene un modelo subyacente que explica la causalidad.

Por ejemplo, si sabe que aplicar una fuerza a un objeto influye en su movimiento, puede medir la correlación entre la fuerza y la velocidad y la fuerza y la aceleración. La correlación más fuerte (con la aceleración) será explicativa por sí misma.

En estudios observacionales, la correlación puede revelar ciertos patrones comunes (como la lactancia materna y la salud posterior) que podrían ser motivo para una mayor exploración científica a través de un diseño experimental adecuado que pueda confirmar o rechazar la causalidad (por ejemplo, tal vez en lugar de la lactancia materna sea la causa de que sea la consecuencia para cierto marco cultural).

Entonces, la correlación puede ser útil, pero rara vez puede ser concluyente.

Alexander Radev
fuente

2

Como dijiste, la correlación por sí sola tiene mucha utilidad, principalmente predicción.

$A$ $B$ $A$ $B$

Por ejemplo, todos estos estudios que muestran que el consumo excesivo de café en las personas mayores se correlaciona con sistemas cardiovasculares más saludables, en mi opinión, están indudablemente motivados por personas que desean justificar sus hábitos pesados de café. Sin embargo, decir que beber café solo se correlaciona con corazones más saludables, en lugar de causales, no responde a nuestra verdadera pregunta de interés: ¿vamos a ser más saludables si bebemos más café o reducimos el consumo? Puede ser muy frustrante encontrar resultados muy interesantes (¡el café está vinculado a corazones más saludables!), Pero no poder usar esa información para tomar decisiones (todavía no sé si debe tomar café para estar más saludable), por lo que casi siempre hay una tentación de interpretar la correlación como causalidad.

A menos que tal vez lo único que le interese sea el juego (es decir, que desee predecir pero no influir).

Acantilado
fuente

2

Hay valor en la correlación, pero uno debería buscar más evidencia para concluir la causalidad.

Hace años, hubo un estudio que resultó en "el café causa cáncer". Tan pronto como escuché esto en las noticias, le dije a mi esposa "falsa correlación". Resultó que estaba en lo correcto. La población de café de 2-3 tazas por día tenía una tasa más alta de tabaquismo que los que no tomaban café. Una vez que los recolectores de datos descubrieron esto, retractaron sus resultados.

Otro estudio interesante antes del auge y caída de la vivienda mostró racismo a la hora de procesar hipotecas. La afirmación era que los solicitantes negros estaban siendo rechazados a una tasa más alta que los blancos. Pero otro estudio analizó las tasas de incumplimiento. Los propietarios negros estaban incumpliendo a la misma tasa que los blancos. Si la aplicación negra se mantuviera en un estándar más alto, su tasa predeterminada sería realmente mucho más baja. Nota: esta anécdota fue compartida por el autor Thomas Sowell en su libro The Housing Boom and Bust

La minería de datos puede producir fácilmente dos conjuntos de datos que muestran una alta correlación, pero para eventos que posiblemente no podrían estar relacionados. Al final, es mejor mirar los estudios que se envían con un ojo muy crítico. Encontrar correlaciones falsas no siempre es fácil, es un talento adquirido.

JTP - Disculpate con Monica
fuente

Disfruté leyendo esta respuesta. Sin embargo, parece abordar la inversa de la pregunta: "¿Es inútil tener conocimiento de que dos variables están correlacionadas? ... ¿En qué situaciones podría un estadístico o científico de datos usar la correlación sin causalidad?"

whuber

1

"Los propietarios negros estaban incumpliendo a la misma tasa que los blancos. Si la solicitud negra se mantuviera a un nivel más alto, su tasa predeterminada sería realmente mucho más baja". está saltando a conclusiones. Es exactamente este problema; Los solicitantes negros serán estadísticamente diferentes de los solicitantes blancos, y si hay más negros en un grupo que es más probable que hayan aceptado el incumplimiento de las hipotecas, los solicitantes negros que tengan la misma tasa de incumplimiento indicarían discriminación en contra. Separar los efectos de confusión es difícil.

prosfilaes

Como dije, la anécdota vino de un conocido erudito negro. Y tomó mucho más que un párrafo para discutir en el libro al que hice referencia.

JTP

1

La correlación es un fenómeno observable. Puedes medirlo. Puedes actuar sobre esas medidas. Por sí solo, puede ser útil.

Sin embargo, si todo lo que tiene es una correlación, no tiene ninguna garantía de que un cambio que realice realmente tenga un efecto (vea los famosos gráficos que vinculan el aumento de iPhones a la esclavitud en el extranjero y demás). Simplemente muestra que hay una correlación allí, y si modifica el entorno (actuando), esa correlación aún puede estar allí.

Sin embargo, este es un enfoque muy sutil. En muchos escenarios queremos tener una herramienta menos sutil: la causalidad. La causalidad es una correlación combinada con una afirmación de que si modifica su entorno actuando de una manera u otra, uno debería esperar que la correlación aún esté allí. Esto permite una planificación a más largo plazo, como el encadenamiento de 20 o 50 eventos causales seguidos para identificar un resultado útil. Hacerlo con 20 o 50 correlaciones a menudo deja un resultado muy difuso y turbio.

Como ejemplo de cómo han sido útiles en el pasado, considere la ciencia occidental vs. la medicina tradicional china (MTC). La ciencia occidental se centra principalmente en "Desarrollar una teoría, aislar una prueba que pueda demostrar la teoría, ejecutar la prueba y documentar los resultados". Esto comienza con "desarrollar una teoría", que está muy ligada a la causalidad. TCM lo hizo girar, comenzando con "idear una prueba que pueda proporcionar resultados útiles, ejecutar la prueba, identificar correlaciones en la respuesta". La atención se centra más en las correlaciones.

Hoy en día, los occidentales tienden a preferir pensar casi por completo en términos de causalidad, por lo que el valor de estudiar la correlación es más difícil de espiar. Sin embargo, lo encontramos al acecho en cada rincón de nuestra vida. ¡Y nunca olvide que incluso en la ciencia occidental, las correlaciones son una herramienta importante para identificar qué teorías vale la pena explorar!

Cort Ammon - Restablece a Monica
fuente

¿Cuándo puede ser útil la correlación sin causalidad?

Respuestas: