¿Cómo se verifica la causalidad?

9

Después de haber demostrado que dos cantidades están correlacionadas, ¿cómo inferimos que la relación es causal? ¿Y además cuál causa qué? Ahora, en teoría, se puede usar una "asignación aleatoria" (cualquiera que sea la palabra correcta), para romper cualquier vínculo accidental que pueda existir entre dos variables. Pero en algunos casos esto no es posible hacer. Por ejemplo, considere con qué frecuencia fuma una persona, medida en cigarrillos por semana, frente a la esperanza de vida, medida en años. Podemos elegir al azar dos grupos de personas. Haga que un grupo fume y el otro no lo haga. Como la asignación es aleatoria, esto debería romper cualquier otra relación entre ellos. Pero esto, por supuesto, no es posible hacerlo por muchas razones diferentes. ¿Cuáles son algunas de las técnicas que se pueden usar?

correlation causality Nicolas Bourbaki
fuente

1

A través de experimentos cuidadosamente planificados. ;-)

EstadísticasEstudiante

@StatsStudent ¿Qué experimentos? Tomemos, por ejemplo, cigarrillos vs esperanza de vida. ¿Realmente quieres hacer ese experimento, bajo algún tipo de condición de control, si crees que disminuyen la esperanza de vida? Con los experimentos es fácil verificar la causalidad. Pero, ¿cómo se hace desde un diagrama de correlación?

Nicolas Bourbaki

@NicolasBourbaki su pregunta comienza asumiendo que las cantidades están correlacionadas. ¿Esto implica que también estamos asumiendo que las variables están relacionadas de manera lineal, como Y = A * X + B?

cantorhead

@NicolasBourbaki Uno podría definir y muchos piensan de como "causando" . Por otro lado, e no están correlacionados.

Y (t + 1) = \cos (X (t)) - 1 + n o i s e

$Y(t+1)=\cos(X(t))-1+ noise$

X

$X$

Y

$Y$

X (t)

$X(t)$

Y (t + 1)

$Y(t+1)$

cantorhead

@NicolasBourbaki He proporcionado una respuesta asumiendo linealidad a continuación y me gustaría proporcionar una respuesta más general, pero estaría fuera de tema si solo le interesan las relaciones lineales.

cantorhead

5

Creo que esta es una muy buena pregunta. Me encuentro con este problema a menudo y reflexiono mucho sobre él. Investigo en ciencias médicas y la noción en medicina es que nada se ha probado que sea causal, nunca, nunca, nunca, hasta que un ensayo clínico aleatorizado controlado, preferiblemente con una píldora (o cualquier otra exposición que pueda ser triple ciego), haya demostrado Un efecto sobre la respuesta de interés. Esto es bastante triste, ya que todos los demás estudios se consideran estudios de asociación, que tienden a reducir su impacto.

Hill y Richard Doll pensaron en esto. El primero formuló los criterios de causalidad de Hill:

Los criterios de Bradford Hill, también conocidos como criterios de causalidad de Hill, son un grupo de condiciones mínimas necesarias para proporcionar evidencia adecuada de una relación causal entre una incidencia y una consecuencia, establecida por el epidemiólogo inglés Sir Austin Bradford Hill (1897–1991) en 1965.

Fuerza : una asociación pequeña no significa que no haya un efecto causal, aunque cuanto mayor sea la asociación, más probable es que sea causal. Consistencia : los hallazgos constantes observados por diferentes personas en diferentes lugares con diferentes muestras fortalecen la probabilidad de un efecto. Especificidad : la causa es probable si una población muy específica en un sitio específico y una enfermedad sin otra explicación probable. Cuanto más específica es una asociación entre un factor y un efecto, mayor es la probabilidad de una relación causal. Temporalidad : el efecto tiene que ocurrir después de la causa (y si hay un retraso esperado entre la causa y el efecto esperado, entonces el efecto debe ocurrir después de ese retraso). Gradiente biológico : una mayor exposición generalmente debería conducir a una mayor incidencia del efecto. Sin embargo, en algunos casos, la mera presencia del factor puede desencadenar el efecto. En otros casos, se observa una proporción inversa: una mayor exposición conduce a una menor incidencia. Plausibilidad : un mecanismo plausible entre causa y efecto es útil (pero Hill señaló que el conocimiento del mecanismo está limitado por el conocimiento actual). Coherencia : la coherencia entre los hallazgos epidemiológicos y de laboratorio aumenta la probabilidad de un efecto. Sin embargo, Hill señaló que "... la falta de tales pruebas [de laboratorio] no puede anular el efecto epidemiológico en las asociaciones". Experimento : "De vez en cuando es posible recurrir a la evidencia experimental". Analogía : se puede considerar el efecto de factores similares.

Esto se formuló hace unos 50 años, antes del advenimiento de ensayos aleatorios (que podrían no ser de interés para su campo particular), pero es notable que los experimentos no tuvieron un papel crucial en los criterios de Hill.

Me gustaría pensar que los datos de observación, si se analizan con métodos estadísticos adecuados, permiten inferencias de causalidad. (Por supuesto, esto depende de muchos factores). Pero en mi campo, cuando se trata de cambiar el manejo de los pacientes, es raro ver pautas conformadas por algo más que ensayos aleatorios y el preludio de las pautas a menudo subraya que cierta causalidad solo puede ser obtenido en ensayos aleatorios.

Ahora sé que muchos de ustedes no estarán de acuerdo conmigo. No estoy de acuerdo conmigo tampoco. Pero podría agregarse a una discusión.

Adam Robinsson
fuente

"(que podría no ser de interés para su campo particular)" Mi interés es la geometría algebraica y la aritmética. Que está tan lejos de las estadísticas como uno pueda imaginar. Solo lo pido como curiosidad.

Nicolas Bourbaki

2

Estadísticas proporciona herramientas para detectar y modelar regularidades en los datos. El proceso de modelado generalmente se guía por el conocimiento de la materia. Cuando el modelo representa el mecanismo de la materia, las propiedades estadísticas del modelo estimado indican si los datos están en desacuerdo con el mecanismo modelado. Luego se infiere la causalidad (o falta de ella), y esto se hace en el dominio de la materia .

Un ejemplo: suponga que tiene una muestra aleatoria de dos variables $x$ y $y$ . La correlación entre ellos es grande y estadísticamente significativa.

Hasta ahora, ¿puedes decir si $x$ causas $y$ ? No lo creo.

Ahora agregue conocimiento de la materia a los datos.
Caso A: las variables observadas son la longitud de los pies y el tamaño de zapato favorito
$\rightarrow$ A la gente le gusta comprar zapatos que se ajusten al tamaño de sus pies, por lo que el tamaño de los pies provoca la elección del tamaño del zapato (pero no al revés).
Caso B: las variables observadas son la estatura y el peso de las personas
$\rightarrow$ los adultos tienden a ser más altos y pesados que los niños, pero ¿eso significa que el peso causa altura o la altura causa peso? La genética, la nutrición, la edad y otros factores causan ambos.

Richard Hardy
fuente

0

La pregunta actualmente supone que las cantidades están correlacionadas, lo que implica que la persona que determina la correlación debe tener buenas razones para creer que las variables comparten una relación lineal.

La causalidad de Granger podría ser la mejor herramienta para determinar las relaciones causales lineales. Granger era un economista que compartió un premio nobel por su trabajo en causalidad lineal.

Granger sugiere que para un conjunto de variables $\{X_t^{(i)}\}_{i=1}^k$ ser considerado una causa de efecto $Y_t$ , dos condiciones deben cumplir:

La causa debe ocurrir antes del efecto.
La causa debe contener información sobre el efecto que no está disponible de otra manera.

Para encontrar la información compartida se puede usar la regresión (aunque tenga en cuenta que los coeficientes de regresión significativos no implican información compartida en teoría, solo en la práctica). Específicamente, uno quiere comparar los residuos con y sin las variables de causa. Considere que las variables son vectores de columna, de modo que $\mathcal{X}=[X_{t-1}^{(1)},X_{t-2}^{(1)},\ldots,X_{t-m}^{(1)},X_{t-1}^{(2)},X_{t-2}^{(2)},\ldots,X_{t-m}^{(2)},\ldots,X_{t-m}^{(k)}]^T$ también es un vector de columna, y $\mathcal{Y}=[Y_{t-1},Y_{t-2},\ldots,Y_{t-m}]^T$ es un vector de columna ( $m$ se llama orden o retraso de tiempo. Hay métodos para elegir de manera óptima $m$ , pero creo que la gente solo adivina lo mejor $m$ o basarlo en otras restricciones.) Entonces las ecuaciones de interés de regresión son

\begin{aligned} Y_{t} = UNA \cdot Y + ϵ_{t} \\ Y_{t} = {UNA}^{'} \cdot [Y, X]^{T} + ϵ_{t}^{'} . \end{aligned}

$\begin{align*} Y_t=A\cdot\mathcal{Y}+\epsilon_t \\ Y_t=A'\cdot[\mathcal{Y},\mathcal{X}]^T+\epsilon'_t. \end{align*}$ Para determinar si el

X_{t - i}^{(j)}

$X_{t-i}^{(j)}$ información contenida sobre

Y_{t}

$Y_t$ uno haría una prueba F sobre las variaciones de

ϵ_{t}

$\epsilon_t$ y

ϵ_{t}^{'}

$\epsilon'_t$ .

Para garantizar que la información no sea contabilizada por ninguna otra fuente, se recopilaría cualquier otra variable que se pueda contabilizar, digamos $Z_t^{(1)},\ldots,Z_t^{(p)}$ , definir $\mathcal{Z}=[Z_{t-1}^{(1)},Z_{t-2}^{(1)},\ldots,Z_{t-m}^{(p)}]^T$ y hacer la regresión

\begin{aligned} Y_{t} = UNA \cdot [Y, Z]^{T} + ϵ_{t} \\ Y_{t} = {UNA}^{'} \cdot [Y, X, Z]^{T} + ϵ_{t}^{'} . \end{aligned}

$\begin{align*} Y_t=A\cdot[\mathcal{Y},\mathcal{Z}]^T+\epsilon_t \\ Y_t=A'\cdot[\mathcal{Y},\mathcal{X},\mathcal{Z}]^T+\epsilon'_t. \end{align*}$ y haga la misma prueba F en los residuos.

Esto es solo un esbozo y creo que muchos autores han mejorado esta idea.

cantorhead
fuente

Bienvenido al sitio, @cantorhead. Queremos (preguntas y) respuestas aquí para ser autónomo. Sería mejor si intentara "ser más específico aquí" y no solo sugiriera a las personas Google GC.

gung - Restablece a Monica

0

No puedes, al menos no dentro de las estadísticas.

Maxim: nunca se puede saber con certeza que el efecto de una variable es causado por otra. La razón: nunca se puede saber si no hay otra variable que desconozca y los datos que ha recopilado no pueden pueden decirle.

El hecho de la vida es que la recopilación de datos no siempre es suficiente cuando los datos son estáticos y el fenómeno es dinámico, como el comportamiento humano. Allí, la recopilación de datos en sí misma puede sesgar los resultados, al igual que en la física de partículas el hecho de la observación en sí no puede eliminarse de la ecuación.

Marcos
fuente

¿Cómo se verifica la causalidad?

Respuestas: