Entiendo que la correlación no es causalidad . Supongamos que obtenemos una alta correlación entre dos variables. ¿Cómo se verifica si esta correlación se debe realmente a la causalidad? O, ¿bajo qué condiciones, exactamente, podemos usar datos experimentales para deducir una relación causal entre dos o más variables?
correlation
mathematical-statistics
causality
Manish Barnwal
fuente
fuente
X
yY
seleccione uno como la causa del otro, lo que minimizará el sentimiento de responsabilidad y maximizará el sentimiento del destino.Respuestas:
Una razón muy probable para la correlación de 2 variables es que sus cambios están vinculados a una tercera variable. Otras razones probables son el azar (si prueba suficientes variables no correlacionadas para la correlación, algunas mostrarán correlación) o mecanismos muy complejos que involucran múltiples pasos.
Ver http://tylervigen.com/ para ejemplos como este:
Para establecer con confianza la causalidad de A -> B, necesita un experimento en el que pueda controlar la variable A y no influir en las otras variables. Luego, mide si la correlación de A y B todavía existe si cambia su variable.
Para casi todas las aplicaciones prácticas, es casi imposible no influir también en otras variables (a menudo desconocidas), por lo tanto, lo mejor que podemos hacer es demostrar la ausencia de causalidad.
Para poder establecer una relación causal, comienza con la hipótesis de que 2 variables tienen una relación causal, utiliza un experimento para refutar la hipótesis y si fallas, puedes afirmar con cierto grado de certeza que la hipótesis es verdadera. Cuán alto debe ser su grado de certeza depende de su campo de investigación.
En muchos campos es común o necesario ejecutar 2 partes de su experimento en paralelo, una donde la variable A cambia y un grupo de control donde la variable A no cambia, pero el experimento es exactamente el mismo, por ejemplo, en caso de En la medicina, todavía clava a los sujetos con una aguja o hace que traguen pastillas. Si el experimento muestra correlación entre A y B, pero no entre A y B '(B del grupo de control), puede asumir la causalidad.
También hay otras formas de concluir la causalidad, si un experimento no es posible o no es aconsejable por varias razones (moral, ética, relaciones públicas, costo, tiempo). Una forma común es usar la deducción. Tomando un ejemplo de un comentario: para probar que fumar causa cáncer en humanos, podemos usar un experimento para probar que fumar causa cáncer en ratones, luego demostrar que existe una correlación entre fumar y cáncer en humanos, y deducir que, por lo tanto, es extremadamente Es probable que el tabaquismo cause cáncer en los seres humanos: esta prueba se puede fortalecer si también refutamos que el cáncer causa el tabaquismo. Otra forma de concluir la causalidad es la exclusión de otras causas de la correlación, dejando la causalidad como la mejor explicación restante de la correlación: este método no siempre es aplicable, porque a veces es imposible eliminar todas las causas posibles de la correlación (llamadas "rutas de acceso" en otra respuesta). En el ejemplo de fumar / cáncer, probablemente podríamos usar este enfoque para demostrar que fumar es responsable del alquitrán en los pulmones, porque no hay muchas fuentes posibles para eso.
Estas otras formas de "probar" la causalidad no siempre son ideales desde un punto de vista científico, porque no son tan concluyentes como un experimento más simple. El debate sobre el calentamiento global es un gran ejemplo para mostrar cómo es mucho más fácil descartar la causalidad que aún no se ha demostrado de manera concluyente con un experimento repetible.
Para el alivio cómico, aquí hay un ejemplo de un experimento que es técnicamente plausible, pero no aconsejable debido a razones no científicas (moral, ética, relaciones públicas, costo):
fuente
Independientemente de si el diseño es experimental u observacional, una asociación entre una variable A y un resultado Y refleja una relación causal entre A e Y si no hay caminos de puerta trasera abiertos entre A e Y.
En un diseño experimental, esto se logra más fácilmente mediante la aleatorización de la exposición o la asignación del tratamiento. Salvo la aleatorización ideal, el efecto del tratamiento asociativo es una estimación imparcial del efecto del tratamiento causal bajo los supuestos de intercambiabilidad (la asignación del tratamiento es independiente de los resultados contrafactuales), positividad, etc.
Referencias
Hernan, Robins. Inferencia causal
Perla. Inferencia causal en estadística: una visión general
PD: puede buscar en Google Causal Inference y los siguientes nombres (para empezar) para obtener más información sobre el tema: Judea Pearl, Donald Rubin, Miguil Hernan.
fuente
Considere un aumento en la tasa de divorcios, correlacionado con un aumento en los ingresos de los abogados.
Intuitivamente parece obvio que estas métricas deberían estar correlacionadas. Más parejas (demanda) solicitan más divorcios, por lo que más abogados (oferta) aumentan sus precios.
Parece que un aumento en la tasa de divorcios provoca un aumento en los ingresos de los abogados, porque la demanda adicional de las parejas hizo que los abogados elevaran sus precios.
¿O es al revés? ¿Qué pasa si los abogados aumentaron sus precios de manera intencional e independiente y luego gastaron sus nuevos ingresos en anuncios de divorcio? Eso también parece una explicación plausible.
Este escenario ilustra el número arbitrario de terceras variables explicativas que un análisis estadístico puede exhibir. Considera lo siguiente:
Tienes un enigma. No puede medir cada punto de datos, si desea justificar ignorar los puntos de datos no explicativos, debe medirlos. (Usted puede eliminar algunos puntos de datos sin medirlos, pero es necesario que al menos las justifiquen.)
Ninguna prueba de causalidad puede ser correcta en un sistema ilimitado.
fuente
Si A y B están correlacionados, y después de excluir la coincidencia, lo más probable es que A cause B, o B cause A, o alguna causa posiblemente desconocida X cause ambos, A y B.
El primer paso sería examinar un posible mecanismo. ¿Podría pensar en cómo A podría ser el caso B, o viceversa, o qué otro tipo de causa X podría causar ambos? (Esto supone que este examen es más barato que realizar un experimento tratando de probar una causa). Con suerte, terminarás en una posición en la que un experimento para mostrar la causalidad parece valioso. Usted puede proceder si no se puede pensar en un mecanismo (A causa B, pero no tenemos idea de por qué es una posibilidad).
En ese experimento, debe poder manipular la causa sospechada a voluntad (por ejemplo, si la causa es "tomar la píldora A", entonces algunas personas recibirán la píldora, otras no). Luego, tome las precauciones habituales, eligiendo a las personas que reciben o no la píldora al azar, sin que ni usted ni los analizados sepan quién tomó la píldora y quién no. También intenta mantener el resto del experimento igual (dar la píldora A a las personas en una habitación cálida y agradable con la luz del sol entrando por la ventana, mientras que el otro grupo recibe una píldora falsa en una habitación sucia e incómoda que podría afectar sus datos). Entonces, si llegó a la conclusión de que la única diferencia es esa píldora, y la causa de obtener o no la píldora fue una decisión aleatoria que no afectó a nada más,
fuente
Los datos intervencionistas (experimentales) descritos por gnasher y Peter son la forma más directa de hacer un buen caso para una relación causal. Sin embargo, solo la respuesta de Ash menciona la posibilidad de deducir una relación causal a través de datos de observación. Además del método de puerta trasera que menciona, el método de puerta de entrada es otra forma de establecer la causalidad basada en datos de observación y algunos supuestos causales. Estos fueron descubiertos por Judea Pearl. Traté de resumir y proporcionar una referencia a estos aquí .
fuente
Para hacer una declaración causal, debe tener tanto muestreo aleatorio como asignación aleatoria
Por lo tanto, al seleccionar un tratamiento y un grupo de control del grupo de la muestra anterior, un número igual de personas con un rasgo similar debe estar tanto en el grupo de tratamiento como en el de control.
El grupo de tratamiento es el grupo en el que se administra el medicamento a las personas. El grupo de control es el grupo en el que no se administra el medicamento. También puede definir un grupo de placebo donde los sujetos no reciben un medicamento pero se les dice que se les está dando.
Finalmente, si los efectos son visibles en el grupo de tratamiento pero no en el grupo de control, entonces podemos establecer la causalidad.
fuente