Si 'correlación no implica causalidad', entonces, si encuentro una correlación estadísticamente significativa, ¿cómo puedo probar la causalidad?

30

Entiendo que la correlación no es causalidad . Supongamos que obtenemos una alta correlación entre dos variables. ¿Cómo se verifica si esta correlación se debe realmente a la causalidad? O, ¿bajo qué condiciones, exactamente, podemos usar datos experimentales para deducir una relación causal entre dos o más variables?

Manish Barnwal
fuente
2
Requerirá datos experimentales. Describa el diseño experimental al que se refiere.
Frank Harrell
1
Señor, no tengo ningún dato experimental. ¿Quería entender qué tipo de experimentos controlados se deben realizar para deducir la causalidad?
Manish Barnwal
44
Hay muchos diseños posibles. En resumen, intenta controlar físicamente todas las demás variables y varía el factor de interés, o aleatoriza la aplicación de la manipulación experimental, que "promedia" los efectos de todas las demás explicaciones posibles.
Frank Harrell
2
En resumen, necesita una variación exógena de algún tipo.
abaumann
1
Entre correlacionado Xy Yseleccione uno como la causa del otro, lo que minimizará el sentimiento de responsabilidad y maximizará el sentimiento del destino.
ttnphns

Respuestas:

16

Una razón muy probable para la correlación de 2 variables es que sus cambios están vinculados a una tercera variable. Otras razones probables son el azar (si prueba suficientes variables no correlacionadas para la correlación, algunas mostrarán correlación) o mecanismos muy complejos que involucran múltiples pasos.

Ver http://tylervigen.com/ para ejemplos como este:

ingrese la descripción de la imagen aquí

Para establecer con confianza la causalidad de A -> B, necesita un experimento en el que pueda controlar la variable A y no influir en las otras variables. Luego, mide si la correlación de A y B todavía existe si cambia su variable.

Para casi todas las aplicaciones prácticas, es casi imposible no influir también en otras variables (a menudo desconocidas), por lo tanto, lo mejor que podemos hacer es demostrar la ausencia de causalidad.

Para poder establecer una relación causal, comienza con la hipótesis de que 2 variables tienen una relación causal, utiliza un experimento para refutar la hipótesis y si fallas, puedes afirmar con cierto grado de certeza que la hipótesis es verdadera. Cuán alto debe ser su grado de certeza depende de su campo de investigación.

En muchos campos es común o necesario ejecutar 2 partes de su experimento en paralelo, una donde la variable A cambia y un grupo de control donde la variable A no cambia, pero el experimento es exactamente el mismo, por ejemplo, en caso de En la medicina, todavía clava a los sujetos con una aguja o hace que traguen pastillas. Si el experimento muestra correlación entre A y B, pero no entre A y B '(B del grupo de control), puede asumir la causalidad.

También hay otras formas de concluir la causalidad, si un experimento no es posible o no es aconsejable por varias razones (moral, ética, relaciones públicas, costo, tiempo). Una forma común es usar la deducción. Tomando un ejemplo de un comentario: para probar que fumar causa cáncer en humanos, podemos usar un experimento para probar que fumar causa cáncer en ratones, luego demostrar que existe una correlación entre fumar y cáncer en humanos, y deducir que, por lo tanto, es extremadamente Es probable que el tabaquismo cause cáncer en los seres humanos: esta prueba se puede fortalecer si también refutamos que el cáncer causa el tabaquismo. Otra forma de concluir la causalidad es la exclusión de otras causas de la correlación, dejando la causalidad como la mejor explicación restante de la correlación: este método no siempre es aplicable, porque a veces es imposible eliminar todas las causas posibles de la correlación (llamadas "rutas de acceso" en otra respuesta). En el ejemplo de fumar / cáncer, probablemente podríamos usar este enfoque para demostrar que fumar es responsable del alquitrán en los pulmones, porque no hay muchas fuentes posibles para eso.

Estas otras formas de "probar" la causalidad no siempre son ideales desde un punto de vista científico, porque no son tan concluyentes como un experimento más simple. El debate sobre el calentamiento global es un gran ejemplo para mostrar cómo es mucho más fácil descartar la causalidad que aún no se ha demostrado de manera concluyente con un experimento repetible.

Para el alivio cómico, aquí hay un ejemplo de un experimento que es técnicamente plausible, pero no aconsejable debido a razones no científicas (moral, ética, relaciones públicas, costo):

Imagen tomada de phroyd.tumblr.com

Peter
fuente
3
Esta es una condición demasiado fuerte. En epidemiología, los requisitos son menos estrictos porque controlar un experimento es, en el mejor de los casos, poco práctico y, en el peor de los casos, no ético: "fumar cigarrillos causa cáncer"
usuario 295691
2
El ejemplo que Pearl da para demostrar que fumar causa cáncer en humanos es el método de la puerta de entrada por el cual el alquitrán se ve como una variable intermedia entre fumar y el cáncer. No sé qué quieres decir con "no ideal". ¡Definitivamente es más ideal que obligar a las personas a fumar y ver si tienen cáncer!
Neil G
1
@Neil "Definitivamente es más ideal que obligar a las personas a fumar y ver si tienen cáncer". Si el objetivo es demostrar una relación causal, estoy totalmente en desacuerdo. Por otro lado, si el objetivo es evitar un problema ético, fondos reducidos o una mafia de linchamiento, entonces es más ideal, sí.
Peter
10

Independientemente de si el diseño es experimental u observacional, una asociación entre una variable A y un resultado Y refleja una relación causal entre A e Y si no hay caminos de puerta trasera abiertos entre A e Y.

En un diseño experimental, esto se logra más fácilmente mediante la aleatorización de la exposición o la asignación del tratamiento. Salvo la aleatorización ideal, el efecto del tratamiento asociativo es una estimación imparcial del efecto del tratamiento causal bajo los supuestos de intercambiabilidad (la asignación del tratamiento es independiente de los resultados contrafactuales), positividad, etc.

Referencias

Hernan, Robins. Inferencia causal
Perla. Inferencia causal en estadística: una visión general

PD: puede buscar en Google Causal Inference y los siguientes nombres (para empezar) para obtener más información sobre el tema: Judea Pearl, Donald Rubin, Miguil Hernan.

Ceniza
fuente
Eche un vistazo aquí: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Contradigo la afirmación de Ash: Independientemente de si el diseño es experimental u observacional, una asociación entre una variable A y un resultado Y refleja una relación causal entre A e Y si hay no hay caminos de puerta trasera abiertos entre A e Y. Por ejemplo, A ventas de helados, Y muertes en piscinas; están correlacionados, pero la causa de que aumenten o disminuyan es la temperatura. Quizás Ash quiere decir con caminos de puerta trasera abiertos, ambos dependiendo de una tercera variable, pero su formulación es muy poco clara.
Karl
El camino de la puerta de atrás en su ejemplo es la temporada. Una ruta de puerta trasera significa una tercera variable.
Neil G
Para aquellos que no están familiarizados con las contribuciones de Judea Pearl al estudio de la causalidad, podría ser útil leer su biografía del sitio web de la Asociación de Maquinaria de Computación, que le otorgó el Premio Turing 2011. Pearl discute la necesidad de incluir más discusión sobre la inferencia causal en los currículos de educación estadística en una entrevista con Amstat News .
jthetzel
Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .
gung - Restablecer Monica
3

Considere un aumento en la tasa de divorcios, correlacionado con un aumento en los ingresos de los abogados.

Intuitivamente parece obvio que estas métricas deberían estar correlacionadas. Más parejas (demanda) solicitan más divorcios, por lo que más abogados (oferta) aumentan sus precios.

Parece que un aumento en la tasa de divorcios provoca un aumento en los ingresos de los abogados, porque la demanda adicional de las parejas hizo que los abogados elevaran sus precios.

¿O es al revés? ¿Qué pasa si los abogados aumentaron sus precios de manera intencional e independiente y luego gastaron sus nuevos ingresos en anuncios de divorcio? Eso también parece una explicación plausible.

Este escenario ilustra el número arbitrario de terceras variables explicativas que un análisis estadístico puede exhibir. Considera lo siguiente:

  1. No puede medir cada punto de datos,
  2. Desea eliminar todos los puntos de datos no explicativos,
  3. Solo puede justificar por qué eliminar un punto de datos si lo mide.

Tienes un enigma. No puede medir cada punto de datos, si desea justificar ignorar los puntos de datos no explicativos, debe medirlos. (Usted puede eliminar algunos puntos de datos sin medirlos, pero es necesario que al menos las justifiquen.)

Ninguna prueba de causalidad puede ser correcta en un sistema ilimitado.

Miles Richardson
fuente
2

Si A y B están correlacionados, y después de excluir la coincidencia, lo más probable es que A cause B, o B cause A, o alguna causa posiblemente desconocida X cause ambos, A y B.

El primer paso sería examinar un posible mecanismo. ¿Podría pensar en cómo A podría ser el caso B, o viceversa, o qué otro tipo de causa X podría causar ambos? (Esto supone que este examen es más barato que realizar un experimento tratando de probar una causa). Con suerte, terminarás en una posición en la que un experimento para mostrar la causalidad parece valioso. Usted puede proceder si no se puede pensar en un mecanismo (A causa B, pero no tenemos idea de por qué es una posibilidad).

En ese experimento, debe poder manipular la causa sospechada a voluntad (por ejemplo, si la causa es "tomar la píldora A", entonces algunas personas recibirán la píldora, otras no). Luego, tome las precauciones habituales, eligiendo a las personas que reciben o no la píldora al azar, sin que ni usted ni los analizados sepan quién tomó la píldora y quién no. También intenta mantener el resto del experimento igual (dar la píldora A a las personas en una habitación cálida y agradable con la luz del sol entrando por la ventana, mientras que el otro grupo recibe una píldora falsa en una habitación sucia e incómoda que podría afectar sus datos). Entonces, si llegó a la conclusión de que la única diferencia es esa píldora, y la causa de obtener o no la píldora fue una decisión aleatoria que no afectó a nada más,

gnasher729
fuente
2

Los datos intervencionistas (experimentales) descritos por gnasher y Peter son la forma más directa de hacer un buen caso para una relación causal. Sin embargo, solo la respuesta de Ash menciona la posibilidad de deducir una relación causal a través de datos de observación. Además del método de puerta trasera que menciona, el método de puerta de entrada es otra forma de establecer la causalidad basada en datos de observación y algunos supuestos causales. Estos fueron descubiertos por Judea Pearl. Traté de resumir y proporcionar una referencia a estos aquí .

Neil G
fuente
0

Para hacer una declaración causal, debe tener tanto muestreo aleatorio como asignación aleatoria

  • Muestreo aleatorio: cada individuo tiene la misma probabilidad de ser seleccionado para el estudio
  • Asignación aleatoria: cada individuo en el experimento muestra un rasgo diferente.

Por lo tanto, al seleccionar un tratamiento y un grupo de control del grupo de la muestra anterior, un número igual de personas con un rasgo similar debe estar tanto en el grupo de tratamiento como en el de control.

El grupo de tratamiento es el grupo en el que se administra el medicamento a las personas. El grupo de control es el grupo en el que no se administra el medicamento. También puede definir un grupo de placebo donde los sujetos no reciben un medicamento pero se les dice que se les está dando.

Finalmente, si los efectos son visibles en el grupo de tratamiento pero no en el grupo de control, entonces podemos establecer la causalidad.

show_stopper
fuente
En mi opinión, el grupo placebo es absolutamente obligatorio. Además, las personas responsables de manejar los sujetos de prueba no deben saber quién está en qué grupo ("doble ciego"). Cualquier cosa menos consideraría definitivamente poco confiable. La prueba no es fácil.
mafu
Los ensayos aleatorizados de placebo controlado son más auténticos que los ensayos aleatorizados controlados, sin embargo, se pueden hacer declaraciones causales utilizando ensayos controlados aleatorios
show_stopper
2
"Para hacer una declaración causal necesita tener tanto muestreo aleatorio como asignación aleatoria", esto no es cierto. Vea los métodos de puerta delantera y puerta trasera.
Neil G