Después de haber demostrado que dos cantidades están correlacionadas, ¿cómo inferimos que la relación es causal? ¿Y además cuál causa qué? Ahora, en teoría, se puede usar una "asignación aleatoria" (cualquiera que sea la palabra correcta), para romper cualquier vínculo accidental que pueda existir entre dos variables. Pero en algunos casos esto no es posible hacer. Por ejemplo, considere con qué frecuencia fuma una persona, medida en cigarrillos por semana, frente a la esperanza de vida, medida en años. Podemos elegir al azar dos grupos de personas. Haga que un grupo fume y el otro no lo haga. Como la asignación es aleatoria, esto debería romper cualquier otra relación entre ellos. Pero esto, por supuesto, no es posible hacerlo por muchas razones diferentes. ¿Cuáles son algunas de las técnicas que se pueden usar?
fuente
Respuestas:
Creo que esta es una muy buena pregunta. Me encuentro con este problema a menudo y reflexiono mucho sobre él. Investigo en ciencias médicas y la noción en medicina es que nada se ha probado que sea causal, nunca, nunca, nunca, hasta que un ensayo clínico aleatorizado controlado, preferiblemente con una píldora (o cualquier otra exposición que pueda ser triple ciego), haya demostrado Un efecto sobre la respuesta de interés. Esto es bastante triste, ya que todos los demás estudios se consideran estudios de asociación, que tienden a reducir su impacto.
Hill y Richard Doll pensaron en esto. El primero formuló los criterios de causalidad de Hill:
Esto se formuló hace unos 50 años, antes del advenimiento de ensayos aleatorios (que podrían no ser de interés para su campo particular), pero es notable que los experimentos no tuvieron un papel crucial en los criterios de Hill.
Me gustaría pensar que los datos de observación, si se analizan con métodos estadísticos adecuados, permiten inferencias de causalidad. (Por supuesto, esto depende de muchos factores). Pero en mi campo, cuando se trata de cambiar el manejo de los pacientes, es raro ver pautas conformadas por algo más que ensayos aleatorios y el preludio de las pautas a menudo subraya que cierta causalidad solo puede ser obtenido en ensayos aleatorios.
Ahora sé que muchos de ustedes no estarán de acuerdo conmigo. No estoy de acuerdo conmigo tampoco. Pero podría agregarse a una discusión.
fuente
Estadísticas proporciona herramientas para detectar y modelar regularidades en los datos. El proceso de modelado generalmente se guía por el conocimiento de la materia. Cuando el modelo representa el mecanismo de la materia, las propiedades estadísticas del modelo estimado indican si los datos están en desacuerdo con el mecanismo modelado. Luego se infiere la causalidad (o falta de ella), y esto se hace en el dominio de la materia .
Un ejemplo: suponga que tiene una muestra aleatoria de dos variablesX y y . La correlación entre ellos es grande y estadísticamente significativa.
Hasta ahora, ¿puedes decir siX causas y ? No lo creo.
Ahora agregue conocimiento de la materia a los datos.
→ A la gente le gusta comprar zapatos que se ajusten al tamaño de sus pies, por lo que el tamaño de los pies provoca la elección del tamaño del zapato (pero no al revés).
→ los adultos tienden a ser más altos y pesados que los niños, pero ¿eso significa que el peso causa altura o la altura causa peso? La genética, la nutrición, la edad y otros factores causan ambos.
Caso A: las variables observadas son la longitud de los pies y el tamaño de zapato favorito
Caso B: las variables observadas son la estatura y el peso de las personas
fuente
La pregunta actualmente supone que las cantidades están correlacionadas, lo que implica que la persona que determina la correlación debe tener buenas razones para creer que las variables comparten una relación lineal.
La causalidad de Granger podría ser la mejor herramienta para determinar las relaciones causales lineales. Granger era un economista que compartió un premio nobel por su trabajo en causalidad lineal.
Granger sugiere que para un conjunto de variables{X( i )t}ki = 1 ser considerado una causa de efecto Yt , dos condiciones deben cumplir:
Para encontrar la información compartida se puede usar la regresión (aunque tenga en cuenta que los coeficientes de regresión significativos no implican información compartida en teoría, solo en la práctica). Específicamente, uno quiere comparar los residuos con y sin las variables de causa. Considere que las variables son vectores de columna, de modo queX= [X( 1 )t - 1,X( 1 )t - 2, ... ,X( 1 )t - m,X( 2 )t -1,X( 2 )t - 2, ...,X( 2 )t - m, ...,X( k )t - m]T también es un vector de columna, y Y= [Yt - 1,Yt - 2, ... ,Yt - m]T es un vector de columna (metro se llama orden o retraso de tiempo. Hay métodos para elegir de manera óptimametro , pero creo que la gente solo adivina lo mejor metro o basarlo en otras restricciones.) Entonces las ecuaciones de interés de regresión son
Para garantizar que la información no sea contabilizada por ninguna otra fuente, se recopilaría cualquier otra variable que se pueda contabilizar, digamosZ( 1 )t, ... ,Z( p )t , definir Z= [Z( 1 )t - 1,Z( 1 )t - 2, ... ,Z( p )t - m]T y hacer la regresión
Esto es solo un esbozo y creo que muchos autores han mejorado esta idea.
fuente
No puedes, al menos no dentro de las estadísticas.
Maxim: nunca se puede saber con certeza que el efecto de una variable es causado por otra. La razón: nunca se puede saber si no hay otra variable que desconozca y los datos que ha recopilado no pueden pueden decirle.
El hecho de la vida es que la recopilación de datos no siempre es suficiente cuando los datos son estáticos y el fenómeno es dinámico, como el comportamiento humano. Allí, la recopilación de datos en sí misma puede sesgar los resultados, al igual que en la física de partículas el hecho de la observación en sí no puede eliminarse de la ecuación.
fuente