Todos sabemos que el mantra "la correlación no implica causalidad" se incluye en todos los estudiantes de estadística de primer año. Hay algunos ejemplos agradables aquí para ilustrar la idea.
Pero a veces correlación hace implica causalidad. El siguiente ejemplo está tomando de esta página de Wikipedia
Por ejemplo, uno podría realizar un experimento con gemelos idénticos que se sabía que obtenían constantemente las mismas calificaciones en sus pruebas. Un gemelo es enviado a estudiar durante seis horas mientras que el otro es enviado al parque de diversiones. Si sus puntajes en los exámenes de repente divergieran en gran medida, esto sería una fuerte evidencia de que estudiar (o ir al parque de atracciones) tuvo un efecto causal en los puntajes de los exámenes. En este caso, la correlación entre el estudio y los puntajes de las pruebas casi con certeza implicaría causalidad.
¿Hay otras situaciones donde la correlación implica causalidad?
fuente
Respuestas:
La correlación no es suficiente para la causalidad. Uno puede sortear el ejemplo de Wikipedia al imaginar que esos gemelos siempre engañan en sus pruebas al tener un dispositivo que les da las respuestas. El gemelo que va al parque de atracciones pierde el dispositivo, de ahí el bajo grado.
Una buena manera de aclarar esto es pensar en la estructura de la red bayesiana que puede estar generando las cantidades medidas, como lo hizo Pearl en su libro Causality . Su punto básico es buscar variables ocultas. Si hay una variable oculta que no varía en la muestra medida, entonces la correlación no implicaría causalidad. Expone todas las variables ocultas y tienes causalidad.
fuente
Solo agregaré algunos comentarios adicionales sobre la causalidad desde una perspectiva epidemiológica . La mayoría de estos argumentos están tomados de Practical Psychiatric Epidemiology , de Prince et al. (2003)
La causalidad o la interpretación de la causalidad son, con mucho, los aspectos más difíciles de la investigación epidemiológica. Los estudios de cohorte y de corte transversal pueden conducir a efectos de confusión, por ejemplo. Citando a S. Menard ( Longitudinal Research , Sage University Paper 76, 1991), HB Asher en Causal Modeling (Sage, 1976) inicialmente propuso cumplir el siguiente conjunto de criterios:
Si bien los dos primeros criterios se pueden verificar fácilmente mediante un estudio transversal o ordenado por tiempo, este último solo se puede evaluar con datos longitudinales, excepto por las características biológicas o genéticas para las cuales se puede asumir el orden temporal sin datos longitudinales. Por supuesto, la situación se vuelve más compleja en caso de una relación causal no recursiva.
También me gusta la siguiente ilustración (Capítulo 13, en la referencia mencionada anteriormente) que resume el enfoque promulgado por Hill (1965) que incluye 9 criterios diferentes relacionados con el efecto de causalidad, como también lo citó @James. El artículo original se tituló "El medio ambiente y la enfermedad: ¿asociación o causalidad?" ( Versión PDF ).
Finalmente, el Capítulo 2 del libro más famoso de Rothman, Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2ª edición), ofrece una discusión muy completa sobre la causalidad y la inferencia causal, tanto desde una perspectiva estadística como filosófica.
Me gustaría agregar las siguientes referencias (tomadas aproximadamente de un curso en línea en epidemiología) también son muy interesantes:
Finalmente, esta revisión ofrece una perspectiva más amplia sobre el modelo causal, inferencia causal en las estadísticas: una visión general (J Pearl, SS 2009 (3)).
fuente
En el centro de su pregunta está la pregunta "¿cuándo es causal una relación?" No solo tiene que ser correlación que implique (o no) causalidad.
Un buen libro sobre este tema se llama Econometría en su mayoría inofensiva por Johua Angrist y Jorn-Steffen Pischke. Comienzan desde el ideal experimental donde podemos aleatorizar el "tratamiento" en estudio de alguna manera y luego pasan a métodos alternativos para generar esta aleatorización con el fin de generar influencias causales. Esto comienza con el estudio de los llamados experimentos naturales.
Uno de los primeros ejemplos de un experimento natural que se utiliza para identificar relaciones causales es el artículo de Angrist de 1989 sobre "Lifetime Earnings and the Vietnam Era Draft Lottery". Este documento intenta estimar el efecto del servicio militar en las ganancias de por vida. Un problema clave con la estimación de cualquier efecto causal es que ciertos tipos de personas pueden tener más probabilidades de alistarse, lo que puede sesgar cualquier medida de la relación. Angrist usa el experimento natural creado por el sorteo de lotería de Vietnam para "asignar aleatoriamente" el tratamiento del "servicio militar" a un grupo de hombres.
Entonces, ¿cuándo tenemos una causalidad? En condiciones experimentales. ¿Cuándo nos acercamos? Bajo experimentos naturales. También hay otras técnicas que nos acercan a la "causalidad", es decir, son mucho mejores que simplemente usar el control estadístico. Incluyen discontinuidad de regresión, diferencia en diferencias, etc.
fuente
También hay un problema con el caso opuesto, cuando la falta de correlación se usa como prueba de la falta de causalidad. Este problema es la no linealidad; Cuando se observa la correlación, la gente suele comprobar Pearson, que es solo la punta de un iceberg.
fuente
Su ejemplo es el de un experimento controlado . El único otro contexto que sé de dónde una correlación puede implicar causalidad es el de un experimento natural .
Básicamente, un experimento natural aprovecha la asignación de algunos encuestados a un tratamiento que ocurre naturalmente en el mundo real. Dado que el experimentador no controla la asignación de los encuestados a los grupos de tratamiento y control, la medida en que la correlación implicaría la causalidad es quizás más débil en cierta medida.
Vea los enlaces de wiki para más información controlada / experimentos naturales.
fuente
En mi opinión, el grupo de trabajo estadístico de la APA lo resumió bastante bien
fuente
El discurso del presidente de Sir Austin Bradford Hill ante la Royal Society of Medicine ( The Environment and Disease: Association or Causation? ) Explica nueve criterios que ayudan a juzgar si existe una relación causal entre dos variables correlacionadas o asociadas.
Son:
fuente
En el ejemplo de los gemelos, no es solo la correlación lo que sugiere la causalidad, sino también la información asociada o el conocimiento previo.
Supongamos que agrego otra información adicional. Suponga que el gemelo diligente pasó 6 horas estudiando para un examen de estadísticas, pero debido a un desafortunado error, el examen estaba en la historia. ¿Seguiríamos concluyendo que el estudio fue la causa del rendimiento superior?
Determinar la causalidad es tanto una cuestión filosófica como científica, de ahí la tendencia a invocar a filósofos como David Hume y Karl Popper cuando se discute la causalidad.
No es sorprendente que la medicina haya hecho contribuciones significativas para establecer la causalidad a través de la heurística, como los postulados de Koch para establecer la relación causal entre microbios y enfermedades. Estos se han extendido a los "postulados moleculares de Koch" necesarios para mostrar que un gen en un patógeno codifica un producto que contribuye a la enfermedad causada por el patógeno.
Lamentablemente, no puedo publicar un hipervínculo porque supuestamente soy un usuario nuevo (no es cierto) y no tengo suficientes "puntos de reputación". La verdadera razón es que nadie lo adivina.
fuente
La correlación sola nunca implica causalidad. Es así de simple.
Pero es muy raro tener solo una correlación entre dos variables. A menudo también sabes algo acerca de cuáles son esas variables y una teoría o teorías que sugieren por qué podría haber una relación causal entre las variables. Si no, ¿nos molestamos en buscar una correlación? (Sin embargo, las personas que extraen matrices de correlación masivas para obtener resultados significativos a menudo no tienen una teoría informal; de lo contrario, ¿por qué molestarse en la minería?
Una respuesta a la crítica común "Sí, pero eso es solo una correlación: no implica causalidad":
fuente
Una condición suficiente y útil para algunas definiciones de causalidad:
Se puede afirmar la causalidad cuando se puede controlar una de las variables correlacionadas (podemos establecer directamente su valor) y la correlación todavía está presente.
fuente
La mayoría de los algoritmos de descubrimiento se implementan en Tetrad IV
fuente
Una pregunta relacionada podría ser: ¿bajo qué condiciones puede extraer de manera confiable las relaciones causales de los datos?
Un taller de NIPS de 2008 intenta abordar esa cuestión empíricamente. Una de las tareas era inferir la dirección de la causalidad a partir de observaciones de pares de variables donde se sabía que una variable causaba otra, y el mejor método fue capaz de extraer correctamente la dirección causal el 80% del tiempo.
fuente
Casi seguro en un experimento bien diseñado. (Diseñado, por supuesto, para provocar tal conexión ).
fuente
Supongamos que pensamos que el factor A es la causa del fenómeno B. Luego, tratamos de variarlo para ver si B cambia. Si B no cambia y podemos suponer que todo lo demás no ha cambiado, hay una fuerte evidencia de que A no es la causa de B. Si B cambia, no podemos concluir que A es la causa porque el cambio de A podría haber causado un cambio en la causalidad real C, que hizo que B cambiara.
fuente
Noté que aquí se usaba 'prueba' cuando se discutía el paradigma empírico. No existe tal cosa. Primero viene la hipótesis, donde se avanza la idea; luego viene la prueba, en "condiciones controladas" [nota a] y si se encuentra una falta "suficiente" de prueba , avanza a la etapa de hipótesis...período. No hay pruebas, a menos que se pueda 1) lograr estar en cada ocurrencia de dicho evento [nota b] y, por supuesto, 2) establecer la causalidad. 1) es improbable en un universo infinito [nota que el infinito por naturaleza no puede ser probado]. No hay té; ningún experimento se lleva a cabo bajo condiciones totalmente controladas y cuanto más controladas sean las condiciones, menor será la semejanza con el universo exterior con líneas de causalidad aparentemente infinitas. Nota b; Eso sí, tienes que haber descrito dicho 'evento' perfectamente, lo que presumiblemente significa un lenguaje perfectamente correcto = presumiblemente no un lenguaje humano. Para una nota final, toda causalidad presumiblemente se remonta al Primer Evento. Ahora ve a hablar con todos con una teoría. Sí, he estudiado formal e informalmente. Al final; no, la proximidad no implica causalidad ni siquiera otra cosa que no sea correlación temporal.
fuente
Ser imparcial es una propiedad deseable de un estimador, pero también querrá que su estimador sea eficiente (baja varianza) y consistente (tiende a la probabilidad de un valor verdadero). Ver los supuestos de Gauss-Markov.
fuente