¿En qué condiciones la correlación implica causalidad?

85

Todos sabemos que el mantra "la correlación no implica causalidad" se incluye en todos los estudiantes de estadística de primer año. Hay algunos ejemplos agradables aquí para ilustrar la idea.

Pero a veces correlación hace implica causalidad. El siguiente ejemplo está tomando de esta página de Wikipedia

Por ejemplo, uno podría realizar un experimento con gemelos idénticos que se sabía que obtenían constantemente las mismas calificaciones en sus pruebas. Un gemelo es enviado a estudiar durante seis horas mientras que el otro es enviado al parque de diversiones. Si sus puntajes en los exámenes de repente divergieran en gran medida, esto sería una fuerte evidencia de que estudiar (o ir al parque de atracciones) tuvo un efecto causal en los puntajes de los exámenes. En este caso, la correlación entre el estudio y los puntajes de las pruebas casi con certeza implicaría causalidad.

¿Hay otras situaciones donde la correlación implica causalidad?

Rob Hyndman
fuente
16
La correlación y una fuerte razón subyacente para un enlace sugieren la causalidad hasta que se demuestre lo contrario, es probablemente lo mejor que puede obtener.
James
8
¿No es Karl Popper quien dijo que el hombre no puede establecer la causalidad: las teorías científicas son de naturaleza abstracta? Pueden ser falsificables y el hecho de que encontremos dificultades para falsificar algo nos hace pensar en la causalidad ...
robin girard
3
Interesante contraejemplo de Jaynes: tenemos la relación deductiva "sin nubes" implica "sin lluvia"; sin embargo, ¿quién creería que "sin nubes" es la causa física de "sin lluvia"?
probabilidadislogica
44
Usemos un término diferente a 'implicar' ya que en el diccionario sus significados incluyen 1. Sugerir y 2. Necesitar (!)
rolando2
¿Gemelo ese ejemplo incluso tiene sentido? Quiero decir que la causalidad implicada es que las diferencias entre los métodos / regímenes de estudio causan diferencias en los puntajes de las pruebas de gemelos. Pero es una muestra de uno, e incluso con una muestra grande, todo lo que se necesita es un par de gemelos para tener la reacción opuesta para romper la hipótesis, estilo cisne negro ... @probabilityislogic: ¿tiene el concepto "sin nubes" algo físico? ¿sentido? Si es así, entonces no veo por qué la segunda parte no es creíble.
naught101

Respuestas:

33

La correlación no es suficiente para la causalidad. Uno puede sortear el ejemplo de Wikipedia al imaginar que esos gemelos siempre engañan en sus pruebas al tener un dispositivo que les da las respuestas. El gemelo que va al parque de atracciones pierde el dispositivo, de ahí el bajo grado.

Una buena manera de aclarar esto es pensar en la estructura de la red bayesiana que puede estar generando las cantidades medidas, como lo hizo Pearl en su libro Causality . Su punto básico es buscar variables ocultas. Si hay una variable oculta que no varía en la muestra medida, entonces la correlación no implicaría causalidad. Expone todas las variables ocultas y tienes causalidad.

Hbar
fuente
Tengo algunos problemas para entender por qué las direcciones de las flechas en una red bayesiana correspondiente tienen alguna relación con la causalidad. Por ejemplo, A-> B y B-> A representan diferentes direcciones para la causalidad, pero las redes bayesianas para esas dos estructuras son equivalentes
Yaroslav Bulatov el
66
No son equivalentes frente a las intervenciones.
Neil G
Esas redes bayesianas son equivalentes en el sentido de que, dada la muestra de datos de una de ellas, no se puede saber cuál era
Yaroslav Bulatov
44
Er ... No estoy familiarizado con las estadísticas reales de lejos ... ¿pero no es "exponer todas las variables ocultas" por definición imposible? ¿Cómo sabes cuándo no hay más variables "ocultas"?
Craig Walker
44
@ Craig Ese es el punto; no es posible.
Justin L.
35

Solo agregaré algunos comentarios adicionales sobre la causalidad desde una perspectiva epidemiológica . La mayoría de estos argumentos están tomados de Practical Psychiatric Epidemiology , de Prince et al. (2003)

La causalidad o la interpretación de la causalidad son, con mucho, los aspectos más difíciles de la investigación epidemiológica. Los estudios de cohorte y de corte transversal pueden conducir a efectos de confusión, por ejemplo. Citando a S. Menard ( Longitudinal Research , Sage University Paper 76, 1991), HB Asher en Causal Modeling (Sage, 1976) inicialmente propuso cumplir el siguiente conjunto de criterios:

  • Los fenómenos o variables en cuestión deben covariar, como lo indican, por ejemplo, las diferencias entre los grupos experimentales y de control o la correlación distinta de cero entre las dos variables.
  • La relación no debe ser atribuible a ninguna otra variable o conjunto de variables, es decir, no debe ser espuria, sino que debe persistir incluso cuando se controlan otras variables, como se indica, por ejemplo, mediante una aleatorización exitosa en un diseño experimental (no hay diferencia entre experimental y grupos de control antes del tratamiento) o mediante una correlación parcial distinta de cero entre dos variables con otra variable mantenida constante.
  • La supuesta causa debe preceder o ser simultánea con el supuesto efecto en el tiempo, como lo indica el cambio en la causa que ocurre a más tardar el cambio asociado en el efecto.

Si bien los dos primeros criterios se pueden verificar fácilmente mediante un estudio transversal o ordenado por tiempo, este último solo se puede evaluar con datos longitudinales, excepto por las características biológicas o genéticas para las cuales se puede asumir el orden temporal sin datos longitudinales. Por supuesto, la situación se vuelve más compleja en caso de una relación causal no recursiva.

También me gusta la siguiente ilustración (Capítulo 13, en la referencia mencionada anteriormente) que resume el enfoque promulgado por Hill (1965) que incluye 9 criterios diferentes relacionados con el efecto de causalidad, como también lo citó @James. El artículo original se tituló "El medio ambiente y la enfermedad: ¿asociación o causalidad?" ( Versión PDF ).

Hill1965

Finalmente, el Capítulo 2 del libro más famoso de Rothman, Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2ª edición), ofrece una discusión muy completa sobre la causalidad y la inferencia causal, tanto desde una perspectiva estadística como filosófica.

Me gustaría agregar las siguientes referencias (tomadas aproximadamente de un curso en línea en epidemiología) también son muy interesantes:

Finalmente, esta revisión ofrece una perspectiva más amplia sobre el modelo causal, inferencia causal en las estadísticas: una visión general (J Pearl, SS 2009 (3)).

chl
fuente
18

En el centro de su pregunta está la pregunta "¿cuándo es causal una relación?" No solo tiene que ser correlación que implique (o no) causalidad.

Un buen libro sobre este tema se llama Econometría en su mayoría inofensiva por Johua Angrist y Jorn-Steffen Pischke. Comienzan desde el ideal experimental donde podemos aleatorizar el "tratamiento" en estudio de alguna manera y luego pasan a métodos alternativos para generar esta aleatorización con el fin de generar influencias causales. Esto comienza con el estudio de los llamados experimentos naturales.

Uno de los primeros ejemplos de un experimento natural que se utiliza para identificar relaciones causales es el artículo de Angrist de 1989 sobre "Lifetime Earnings and the Vietnam Era Draft Lottery". Este documento intenta estimar el efecto del servicio militar en las ganancias de por vida. Un problema clave con la estimación de cualquier efecto causal es que ciertos tipos de personas pueden tener más probabilidades de alistarse, lo que puede sesgar cualquier medida de la relación. Angrist usa el experimento natural creado por el sorteo de lotería de Vietnam para "asignar aleatoriamente" el tratamiento del "servicio militar" a un grupo de hombres.

Entonces, ¿cuándo tenemos una causalidad? En condiciones experimentales. ¿Cuándo nos acercamos? Bajo experimentos naturales. También hay otras técnicas que nos acercan a la "causalidad", es decir, son mucho mejores que simplemente usar el control estadístico. Incluyen discontinuidad de regresión, diferencia en diferencias, etc.

Graham Cookson
fuente
15

También hay un problema con el caso opuesto, cuando la falta de correlación se usa como prueba de la falta de causalidad. Este problema es la no linealidad; Cuando se observa la correlación, la gente suele comprobar Pearson, que es solo la punta de un iceberg.


fuente
14

Su ejemplo es el de un experimento controlado . El único otro contexto que sé de dónde una correlación puede implicar causalidad es el de un experimento natural .

Básicamente, un experimento natural aprovecha la asignación de algunos encuestados a un tratamiento que ocurre naturalmente en el mundo real. Dado que el experimentador no controla la asignación de los encuestados a los grupos de tratamiento y control, la medida en que la correlación implicaría la causalidad es quizás más débil en cierta medida.

Vea los enlaces de wiki para más información controlada / experimentos naturales.


fuente
12

En mi opinión, el grupo de trabajo estadístico de la APA lo resumió bastante bien

'' Inferir causalidad de diseños no aleatorios es una empresa arriesgada. Los investigadores que usan diseños no aleatorizados tienen una obligación adicional de explicar la lógica detrás de las covariables incluidas en sus diseños y alertar al lector de posibles hipótesis rivales que podrían explicar sus resultados. Incluso en experimentos aleatorios, la atribución de efectos causales a cualquier aspecto de la condición del tratamiento requiere el apoyo de una experimentación adicional '' - APA Task Force

Jeromy Anglim
fuente
11

El discurso del presidente de Sir Austin Bradford Hill ante la Royal Society of Medicine ( The Environment and Disease: Association or Causation? ) Explica nueve criterios que ayudan a juzgar si existe una relación causal entre dos variables correlacionadas o asociadas.

Son:

  1. Fuerza de la asociación
  2. Consistencia: "¿ha sido observado repetidamente por diferentes personas, en diferentes lugares, circunstancias y tiempos?"
  3. Especificidad
  4. Temporalidad: "¿Cuál es el carro y cuál es el caballo?" - la causa debe preceder al efecto
  5. Gradiente biológico (curva dosis-respuesta): ¿de qué manera la magnitud del efecto depende de la magnitud de la variable causal (sospechada)?
  6. Plausibilidad: ¿hay alguna explicación probable para la causalidad?
  7. Coherencia: ¿la causalidad contradiría otros hechos establecidos?
  8. Experimento: ¿la manipulación experimental de la variable causal (sospechada) afecta a la variable dependiente (sospechosa)
  9. Analogía: ¿hemos encontrado relaciones causales similares en el pasado?
James Scott-Brown
fuente
9

En el ejemplo de los gemelos, no es solo la correlación lo que sugiere la causalidad, sino también la información asociada o el conocimiento previo.

Supongamos que agrego otra información adicional. Suponga que el gemelo diligente pasó 6 horas estudiando para un examen de estadísticas, pero debido a un desafortunado error, el examen estaba en la historia. ¿Seguiríamos concluyendo que el estudio fue la causa del rendimiento superior?

Determinar la causalidad es tanto una cuestión filosófica como científica, de ahí la tendencia a invocar a filósofos como David Hume y Karl Popper cuando se discute la causalidad.

No es sorprendente que la medicina haya hecho contribuciones significativas para establecer la causalidad a través de la heurística, como los postulados de Koch para establecer la relación causal entre microbios y enfermedades. Estos se han extendido a los "postulados moleculares de Koch" necesarios para mostrar que un gen en un patógeno codifica un producto que contribuye a la enfermedad causada por el patógeno.

Lamentablemente, no puedo publicar un hipervínculo porque supuestamente soy un usuario nuevo (no es cierto) y no tengo suficientes "puntos de reputación". La verdadera razón es que nadie lo adivina.

Tilacoleo
fuente
9

La correlación sola nunca implica causalidad. Es así de simple.

Pero es muy raro tener solo una correlación entre dos variables. A menudo también sabes algo acerca de cuáles son esas variables y una teoría o teorías que sugieren por qué podría haber una relación causal entre las variables. Si no, ¿nos molestamos en buscar una correlación? (Sin embargo, las personas que extraen matrices de correlación masivas para obtener resultados significativos a menudo no tienen una teoría informal; de lo contrario, ¿por qué molestarse en la minería?

Una respuesta a la crítica común "Sí, pero eso es solo una correlación: no implica causalidad":

  1. Para una relación casual, la correlación es necesaria. Una falla repetida en encontrar una correlación sería una mala noticia.
  2. No solo te di una correlación.
  3. Luego continúe explicando los posibles mecanismos causales que explican la correlación ...
AndyF
fuente
2
Un contraejemplo a su punto # 1: en un sistema caótico, podría tener causalidad sin correlación obvia.
mkt - Restablece a Mónica el
8

Una condición suficiente y útil para algunas definiciones de causalidad:

Se puede afirmar la causalidad cuando se puede controlar una de las variables correlacionadas (podemos establecer directamente su valor) y la correlación todavía está presente.

Łukasz Lew
fuente
2
También podría usar la palabra de Pearl para "establecer directamente el valor [de una variable]": una intervención.
Neil G
8
  1. Casi siempre en ensayos aleatorios
  2. Casi siempre en un estudio observacional cuando alguien mide todos los factores de confusión (casi nunca)
  3. A veces, cuando alguien mide algunos fundadores (algoritmo IC * del descubrimiento de DAG en el libro Causality de Pearl)
  4. En modelos lineales no gaussianos con dos o más variables pero sin utilizar la correlación como medida de relación ( LiNGAM )

La mayoría de los algoritmos de descubrimiento se implementan en Tetrad IV

Wojtek
fuente
6

Una pregunta relacionada podría ser: ¿bajo qué condiciones puede extraer de manera confiable las relaciones causales de los datos?

Un taller de NIPS de 2008 intenta abordar esa cuestión empíricamente. Una de las tareas era inferir la dirección de la causalidad a partir de observaciones de pares de variables donde se sabía que una variable causaba otra, y el mejor método fue capaz de extraer correctamente la dirección causal el 80% del tiempo.

Yaroslav Bulatov
fuente
3

Casi seguro en un experimento bien diseñado. (Diseñado, por supuesto, para provocar tal conexión ).

ars
fuente
3

Supongamos que pensamos que el factor A es la causa del fenómeno B. Luego, tratamos de variarlo para ver si B cambia. Si B no cambia y podemos suponer que todo lo demás no ha cambiado, hay una fuerte evidencia de que A no es la causa de B. Si B cambia, no podemos concluir que A es la causa porque el cambio de A podría haber causado un cambio en la causalidad real C, que hizo que B cambiara.


fuente
¿Se puede hacer variar A?
RockScience
2

Noté que aquí se usaba 'prueba' cuando se discutía el paradigma empírico. No existe tal cosa. Primero viene la hipótesis, donde se avanza la idea; luego viene la prueba, en "condiciones controladas" [nota a] y si se encuentra una falta "suficiente" de prueba , avanza a la etapa de hipótesis...período. No hay pruebas, a menos que se pueda 1) lograr estar en cada ocurrencia de dicho evento [nota b] y, por supuesto, 2) establecer la causalidad. 1) es improbable en un universo infinito [nota que el infinito por naturaleza no puede ser probado]. No hay té; ningún experimento se lleva a cabo bajo condiciones totalmente controladas y cuanto más controladas sean las condiciones, menor será la semejanza con el universo exterior con líneas de causalidad aparentemente infinitas. Nota b; Eso sí, tienes que haber descrito dicho 'evento' perfectamente, lo que presumiblemente significa un lenguaje perfectamente correcto = presumiblemente no un lenguaje humano. Para una nota final, toda causalidad presumiblemente se remonta al Primer Evento. Ahora ve a hablar con todos con una teoría. Sí, he estudiado formal e informalmente. Al final; no, la proximidad no implica causalidad ni siquiera otra cosa que no sea correlación temporal.

Glenn Charles
fuente
1

XY

Y=bX+u

bXYE(b)=BXuE(u|X)=0u YXY

Ser imparcial es una propiedad deseable de un estimador, pero también querrá que su estimador sea eficiente (baja varianza) y consistente (tiende a la probabilidad de un valor verdadero). Ver los supuestos de Gauss-Markov.

usuario172578
fuente