Un dicho favorito de muchos estadísticos es "La correlación no implica causalidad". Esto es ciertamente cierto, pero una cosa que parece implicada aquí es que la correlación tiene poco o ningún valor. ¿Es esto cierto? ¿Es inútil saber que dos variables están correlacionadas?
No puedo imaginar que ese sea el caso. No estoy terriblemente familiarizado con el análisis predictivo, pero parece que si X
es un predictor de Y
, sería útil para predecir valores futuros Y
basados en X
, independientemente de la causalidad.
¿Soy incorrecto al ver el valor en la correlación? Y si no, ¿en qué situaciones podría un estadístico o científico de datos utilizar la correlación sin causalidad?
correlation
predictive-models
causality
Indigenidad
fuente
fuente
Respuestas:
La correlación (o cualquier otra medida de asociación) es útil para la predicción, independientemente de la causalidad. Suponga que mide una asociación clara y estable entre dos variables. Lo que esto significa es que conocer el nivel de una variable también le proporciona información sobre otra variable de interés, que puede usar para ayudar a predecir una variable en función de la otra y, lo más importante, tomar medidas basadas en esa predicción . Tomar medidas implica cambiar una o más variables, como al hacer una recomendación automatizada o emplear alguna intervención médica. Por supuesto, podría hacer mejores predicciones y actuar de manera más efectiva si tuviera más información sobre las relaciones directas o indirectas entre dos variables. Esta visión puede involucrar otras variables, incluidas las espaciales y temporales.
fuente
A
es un buen predictor, es muy tentador afirmar que esta también es la causa de la enfermedad. Y como se menciona en los comentarios, es muy fácil llegar a conclusiones erróneas. Si solo queremos hacer predicciones, por ejemplo, decir si un paciente tiene la enfermedad o no, no hay problemas con las correlaciones.Ya hay muchos puntos buenos aquí. Permítanme desempaquetar su afirmación de que "parece que si
X
es un predictor deY
, sería útil para predecir valores futurosY
basados enX
, independientemente de la causalidad" un poco. Tiene razón: si todo lo que quiere es poder predecir unY
valor desconocido a partir de unX
valor conocido y una relación estable conocida, el estado causal de esa relación es irrelevante. Considere eso:fuente
No están haciendo popó sobre la importancia de la correlación. Es solo que la tendencia es interpretar la correlación como causalidad.
Tome la lactancia materna como el ejemplo perfecto. Las madres casi siempre interpretan los hallazgos (de los estudios observacionales) sobre la lactancia materna como una sugerencia de si realmente deberían o no amamantar. Es cierto que, en promedio, los bebés que son amamantados tienden a ser adultos más saludables en orden de edad, incluso después de controlar la edad materna y paterna longitudinal, el estado socioeconómico, etc. Esto no implica que la lactancia materna sola sea responsable de la diferencia, aunque puede desempeñan parcialmente un papel en el desarrollo temprano de la regulación del apetito. La relación es muy compleja y se puede especular fácilmente sobre una gran cantidad de factores mediadores que podrían ser la base de las diferencias observadas.
Muchos estudios buscan asociaciones para garantizar una comprensión más profunda de lo que está sucediendo. La correlación no es inútil, solo hay varios pasos por debajo de la causalidad y uno debe tener en cuenta cómo informar los hallazgos para evitar la mala interpretación de los no expertos.
fuente
Tienes razón en que la correlación es útil. La razón por la que los modelos causales son mejores que los modelos asociativos es que, como dice Pearl, son oráculos para las intervenciones. En otras palabras, te permiten razonar hipotéticamente. Un modelo causal responde la pregunta "si yo hiciera que X sucediera, ¿qué pasaría con Y?"
Pero no siempre necesitas razonar hipotéticamente. Si su modelo solo se usará para responder preguntas como "si observo X, ¿qué sé sobre Y?", Entonces todo lo que necesita es un modelo asociativo .
fuente
Tienes razón en que la correlación es útil para la predicción. También es útil para comprender mejor el sistema en estudio.
Un caso en el que es necesario conocer el mecanismo causal es si la distribución objetivo ha sido manipulada (por ejemplo, algunas variables han sido "forzadas" a tomar ciertos valores). Un modelo basado en correlaciones solo funcionará mal, mientras que un modelo que utiliza información causal debería funcionar mucho mejor.
fuente
La correlación es una herramienta útil si tiene un modelo subyacente que explica la causalidad.
Por ejemplo, si sabe que aplicar una fuerza a un objeto influye en su movimiento, puede medir la correlación entre la fuerza y la velocidad y la fuerza y la aceleración. La correlación más fuerte (con la aceleración) será explicativa por sí misma.
En estudios observacionales, la correlación puede revelar ciertos patrones comunes (como la lactancia materna y la salud posterior) que podrían ser motivo para una mayor exploración científica a través de un diseño experimental adecuado que pueda confirmar o rechazar la causalidad (por ejemplo, tal vez en lugar de la lactancia materna sea la causa de que sea la consecuencia para cierto marco cultural).
Entonces, la correlación puede ser útil, pero rara vez puede ser concluyente.
fuente
Como dijiste, la correlación por sí sola tiene mucha utilidad, principalmente predicción.
Por ejemplo, todos estos estudios que muestran que el consumo excesivo de café en las personas mayores se correlaciona con sistemas cardiovasculares más saludables, en mi opinión, están indudablemente motivados por personas que desean justificar sus hábitos pesados de café. Sin embargo, decir que beber café solo se correlaciona con corazones más saludables, en lugar de causales, no responde a nuestra verdadera pregunta de interés: ¿vamos a ser más saludables si bebemos más café o reducimos el consumo? Puede ser muy frustrante encontrar resultados muy interesantes (¡el café está vinculado a corazones más saludables!), Pero no poder usar esa información para tomar decisiones (todavía no sé si debe tomar café para estar más saludable), por lo que casi siempre hay una tentación de interpretar la correlación como causalidad.
A menos que tal vez lo único que le interese sea el juego (es decir, que desee predecir pero no influir).
fuente
Hay valor en la correlación, pero uno debería buscar más evidencia para concluir la causalidad.
Hace años, hubo un estudio que resultó en "el café causa cáncer". Tan pronto como escuché esto en las noticias, le dije a mi esposa "falsa correlación". Resultó que estaba en lo correcto. La población de café de 2-3 tazas por día tenía una tasa más alta de tabaquismo que los que no tomaban café. Una vez que los recolectores de datos descubrieron esto, retractaron sus resultados.
Otro estudio interesante antes del auge y caída de la vivienda mostró racismo a la hora de procesar hipotecas. La afirmación era que los solicitantes negros estaban siendo rechazados a una tasa más alta que los blancos. Pero otro estudio analizó las tasas de incumplimiento. Los propietarios negros estaban incumpliendo a la misma tasa que los blancos. Si la aplicación negra se mantuviera en un estándar más alto, su tasa predeterminada sería realmente mucho más baja. Nota: esta anécdota fue compartida por el autor Thomas Sowell en su libro The Housing Boom and Bust
La minería de datos puede producir fácilmente dos conjuntos de datos que muestran una alta correlación, pero para eventos que posiblemente no podrían estar relacionados. Al final, es mejor mirar los estudios que se envían con un ojo muy crítico. Encontrar correlaciones falsas no siempre es fácil, es un talento adquirido.
fuente
La correlación es un fenómeno observable. Puedes medirlo. Puedes actuar sobre esas medidas. Por sí solo, puede ser útil.
Sin embargo, si todo lo que tiene es una correlación, no tiene ninguna garantía de que un cambio que realice realmente tenga un efecto (vea los famosos gráficos que vinculan el aumento de iPhones a la esclavitud en el extranjero y demás). Simplemente muestra que hay una correlación allí, y si modifica el entorno (actuando), esa correlación aún puede estar allí.
Sin embargo, este es un enfoque muy sutil. En muchos escenarios queremos tener una herramienta menos sutil: la causalidad. La causalidad es una correlación combinada con una afirmación de que si modifica su entorno actuando de una manera u otra, uno debería esperar que la correlación aún esté allí. Esto permite una planificación a más largo plazo, como el encadenamiento de 20 o 50 eventos causales seguidos para identificar un resultado útil. Hacerlo con 20 o 50 correlaciones a menudo deja un resultado muy difuso y turbio.
Como ejemplo de cómo han sido útiles en el pasado, considere la ciencia occidental vs. la medicina tradicional china (MTC). La ciencia occidental se centra principalmente en "Desarrollar una teoría, aislar una prueba que pueda demostrar la teoría, ejecutar la prueba y documentar los resultados". Esto comienza con "desarrollar una teoría", que está muy ligada a la causalidad. TCM lo hizo girar, comenzando con "idear una prueba que pueda proporcionar resultados útiles, ejecutar la prueba, identificar correlaciones en la respuesta". La atención se centra más en las correlaciones.
Hoy en día, los occidentales tienden a preferir pensar casi por completo en términos de causalidad, por lo que el valor de estudiar la correlación es más difícil de espiar. Sin embargo, lo encontramos al acecho en cada rincón de nuestra vida. ¡Y nunca olvide que incluso en la ciencia occidental, las correlaciones son una herramienta importante para identificar qué teorías vale la pena explorar!
fuente