Acabo de tener un examen donde se nos presentaron dos variables. En un juego de dictador donde un dictador recibe 100 USD y puede elegir cuánto enviar o conservar para sí mismo, hubo una correlación positiva entre la edad y la cantidad de dinero que los participantes decidieron quedarse.
Mi opinión es que no se puede inferir causalidad de esto porque no se puede inferir causalidad de la correlación. Mi compañero de clase piensa que puedes hacerlo porque si, por ejemplo, divides a los participantes en tres grupos separados, puedes ver cómo difieren en cuánto guardan y cuánto comparten y, por lo tanto, concluyen que la edad hace que se queden más. ¿Quién es correcto y por qué?
correlation
causality
JonnyBravo
fuente
fuente
Respuestas:
En general, no debe suponer que la correlación implica causalidad, incluso en los casos en que parece ser la única razón posible.
Considere que hay otras cosas que se correlacionan con los aspectos generacionales de la edad de la cultura, por ejemplo. ¿Quizás estos tres grupos seguirán siendo los mismos incluso a medida que envejecen, pero la próxima generación romperá la tendencia?
Dicho todo esto, probablemente tenga razón en que las personas más jóvenes tienen más probabilidades de mantener una cantidad mayor, pero solo tenga en cuenta que hay otras posibilidades.
fuente
Puedo postular varias causas de sus datos.
Se mide la edad y luego se mantiene la cantidad de dinero. Los participantes mayores prefieren quedarse con más dinero (tal vez sean más inteligentes o menos idealistas, pero ese no es el punto).
Se mide la cantidad de dinero guardado y luego la edad. Las personas que mantienen más dinero pasan más tiempo contando y, por lo tanto, son mayores cuando se mide la edad.
Las personas enfermas conservan más dinero porque necesitan dinero para medicamentos o tratamientos (posiblemente para salvar vidas). La correlación real es entre enfermedad y dinero guardado, pero esta variable está "oculta" y, por lo tanto, saltamos a la conclusión incorrecta, porque la edad y la probabilidad de enfermedad se correlacionan en el grupo demográfico de personas elegidas para el experimento.
(Omitiendo 143 teorías; necesito mantener esto razonablemente corto)
Conclusión: tienes razón, pero tu compañero de clase podría afirmar que es 147 veces más corrector.
Otra correlación famosa es entre un coeficiente intelectual bajo y las horas de televisión que se ven a diario. ¿Ver televisión te vuelve tonto o la gente tonta ve más televisión? Incluso podría ser ambos.
fuente
Inferir causalidad de la correlación en general es problemático porque puede haber varias otras razones para la correlación. Por ejemplo, correlaciones espurias debido a factores de confusión , sesgo de selección (por ejemplo, solo elegir participantes con un ingreso por debajo de cierto umbral), o el efecto causal puede simplemente ir en la otra dirección (por ejemplo, un termómetro está correlacionado con la temperatura, pero ciertamente no causa eso). En cada uno de estos casos, el procedimiento de su compañero de clase puede encontrar un efecto causal donde no lo hay.
Sin embargo, si los participantes fueron seleccionados al azar, podríamos descartar factores de confusión y sesgo de selección. En ese caso, la edad debe causar el dinero retenido o el dinero retenido debe causar la edad . Esto último implicaría que obligar a alguien a conservar una cierta cantidad de dinero cambiaría de alguna manera su edad. Por lo tanto, podemos asumir con seguridad que la edad hace que el dinero se mantenga .
Tenga en cuenta que el efecto causal podría ser "directo" o "indirecto" . Las personas de diferentes edades habrán recibido una educación diferente, tendrán una cantidad diferente de riqueza, etc., y por estas razones podrían optar por mantener una cantidad diferente de los $ 100. Los efectos causales a través de estos mediadores siguen siendo efectos causales, pero son indirectos.
fuente
La correlación es un concepto matemático; La causalidad es una idea filosófica.
Por otro lado, la correlación espuria es un concepto principalmente técnico (no lo encontrará en los libros de texto de probabilidad teórica de medidas) que se puede definir de una manera que sea en su mayoría accionable.
Esta idea está estrechamente relacionada con la idea del falsacionismo en la ciencia, donde el objetivo nunca es probar cosas, solo refutarlas .
La estadística es para las matemáticas como la medicina es para la biología. Se le pide que haga su mejor juicio con el apoyo de una gran cantidad de conocimientos técnicos, pero este conocimiento nunca es suficiente para abarcar todo el mundo. Entonces, si va a emitir juicios como estadístico y presentarlos a otros, debe cumplir con ciertos estándares de calidad; es decir, que estás dando buenos consejos, dándoles el valor de su dinero. Esto también significa tener en cuenta la asimetría de los riesgos: en las pruebas médicas, el costo de dar un resultado falso negativo (que puede evitar que las personas reciban tratamiento temprano) puede ser mayor que el costo de dar un falso positivo (lo que causa angustia) .
En la práctica, estos estándares variarán de un campo a otro: a veces se trata de ECA triple ciego, a veces son variables instrumentales y otras técnicas para controlar la causalidad inversa y las causas comunes ocultas, a veces es la causalidad de Granger, que algo en el pasado se correlaciona constantemente con algo más en presencia, pero no en la dirección inversa. Incluso podría ser una regularización rigurosa y validación cruzada.
fuente
La relación entre correlación y causalidad ha dejado perplejos a filósofos y estadísticos por siglos. Finalmente, en los últimos veinte años más o menos los científicos informáticos afirman haberlo resuelto todo. Esto no parece ser ampliamente conocido. Afortunadamente, Judea Pearl, una de las principales impulsoras en este campo, ha publicado recientemente un libro que explica este trabajo para una audiencia popular: El libro del por qué.
https://www.amazon.com/Book-Why-Science-Cause-Effect/dp/046509760X
https://bigthink.com/errors-we-live-by/judea-pearls-the-book-of-why-brings-news-of-a-new-science-of-causes
Alerta de spoiler: puede inferir la causalidad de la correlación en algunas circunstancias si sabe lo que está haciendo. Para comenzar, debe hacer algunas suposiciones causales (un modelo causal, idealmente basado en la ciencia). Y necesita las herramientas para hacer un razonamiento contrafactual (El do-álgebra). Lo siento, no puedo resumir esto en unas pocas líneas (todavía estoy leyendo el libro), pero creo que la respuesta a su pregunta está ahí.
fuente
El reclamo causal por edad sería inapropiado en este caso
El problema de reclamar causalidad en el diseño de la pregunta del examen se puede reducir a un simple hecho: el envejecimiento no era un tratamiento, la edad no se manipulaba en absoluto. La razón principal para realizar estudios controlados es precisamente porque, debido a la manipulación y el control sobre las variables de interés, se puede decir que el cambio en una variable provoca el cambio en el resultado (en condiciones experimentales extremadamente específicas y con una carga de barco de otras suposiciones como la asignación aleatoria y que el experimentador no arruinó algo en los detalles de ejecución, lo que paso por alto aquí).
Pero eso no es lo que describe el diseño del examen: simplemente tiene dos grupos de participantes, con un hecho específico que los diferencia (su edad); pero no tiene forma de conocer las otras formas en que el grupo difiere. Debido a la falta de control, no se puede saber si fue la diferencia de edad lo que causó el cambio en el resultado, o si es porque la razón por la que las personas de 40 años se unen a un estudio es porque necesitan el dinero mientras que las de 20 años estudiantes que participaban para obtener créditos de clase y, por lo tanto, tenían diferentes motivaciones, o cualquiera de las miles de otras diferencias naturales posibles en sus grupos.
Ahora, la terminología técnica para este tipo de cosas varía según el campo. Los términos comunes para cosas como edad y género del participante son "atributo del participante", "variable extraña", "variable independiente del atributo", etc. Finalmente, termina con algo que no es un "experimento verdadero" o un "experimento controlado verdadero", porque la cosa sobre la que desea hacer un reclamo, como la edad, no estaba realmente bajo su control para cambiar, por lo que es lo máximo que puede esperar sin métodos mucho más avanzados (como inferencia causal, condiciones adicionales, datos longitudinales, etc.) es afirmar que hay una correlación.
Esta también es una de las razones por las que los experimentos en ciencias sociales y la comprensión de los atributos difíciles de controlar de las personas son tan difíciles en la práctica: las personas difieren de muchas maneras y cuando no puedes cambiar las cosas que quieres para aprender, tiende a necesitar técnicas experimentales e inferenciales más complejas o una estrategia completamente diferente.
¿Cómo podría cambiar el diseño para hacer una afirmación causal?
Imagine un escenario hipotético como este: el Grupo A y B están formados por participantes que tienen 20 años.
Tienes al Grupo A jugando el juego de la dictadura como de costumbre.
Para el Grupo B, sacas un Rayo de Ciencia de Envejecimiento Mágico (o quizás haciendo que un Fantasma los trate con un rostro horrible ), que has sintonizado cuidadosamente para envejecer a todos los participantes en el Grupo B para que ahora tengan 40 años, pero de lo contrario, los dejará sin cambios y luego haga que jueguen el juego del dictador tal como lo hizo el Grupo A.
Para obtener un mayor rigor, puede obtener un Grupo C de personas de 40 años de edad natural para confirmar que el envejecimiento sintético es comparable al envejecimiento natural, pero mantengamos las cosas simples y digamos que sabemos que el envejecimiento artificial es como el verdadero basado en "antes" trabajo".
Ahora, si el Grupo B conserva más dinero que el Grupo A, puede afirmar que el experimento indica que el envejecimiento hace que las personas se queden con más dinero. Por supuesto, todavía hay aproximadamente mil razones por las cuales su afirmación podría resultar incorrecta, pero su experimento al menos tiene una interpretación causal válida.
fuente
No. Existe una relación lógica unidireccional entre causalidad y correlación.
Considere la correlación de una propiedad que calcula en algunos datos, por ejemplo, la correlación (lineal) más común según la definición de Pearson. Para esta definición particular de correlación, puede crear puntos de datos aleatorios que tendrán una correlación de cero o de uno sin tener ningún tipo de causalidad entre ellos, solo por tener ciertas (a) simetrías. Para cualquier definición de correlación, puede crear una receta que muestre ambos comportamientos: valores altos de correlación sin relación matemática y valores bajos de correlación, incluso si hay una expresión fija.
Sí, la relación de "sin relación, pero altamente correlacionada" es más débil que "sin correlación a pesar de estar relacionada". Pero el único indicador (!) Que tiene si la correlación está presente es que debe buscar más detenidamente una explicación.
fuente
Generalmente no puedes saltar de la correlación a la causalidad. Por ejemplo, hay un conocido fenómeno de las ciencias sociales sobre el estatus / clase social y la propensión a gastar / ahorrar. Desde hace muchos muchos años se creía que esto demostraba la causalidad. El año pasado, una investigación más intensa demostró que no lo era.
La clásica "correlación no es causalidad": en este caso, el factor de confusión fue que crecer en la pobreza enseña a las personas a usar el dinero de manera diferente y gastar si hay un excedente, porque puede que no esté allí mañana incluso si se ahorra por varias razones .
En su ejemplo, suponga que las personas mayores vivieron una guerra, que las personas más jóvenes no. El vínculo podría ser que las personas que crecieron en el caos social, con un riesgo real de daño y pérdida de vidas, aprendan a priorizar el ahorro de recursos para sí mismas y contra la necesidad, más que aquellas que crecen en circunstancias más felices donde el estado, los empleadores o las aseguradoras de salud se encargarán de eso, y la supervivencia no es un problema que forme su perspectiva. Entonces obtendría el mismo vínculo aparente: las personas mayores (incluidas las más cercanas a su generación) mantienen más, pero aparentemente solo estarían relacionadas con la edad. En realidad, el elemento causal es la situación social en la que uno pasó años formativos y los hábitos que enseñó, no la edad per se .
fuente
Hay algunas razones por las cuales esta conclusión no tiene sentido.
Una mejora sugerida para el diseño es el siguiente estudio de tipo cruzado.
El mismo escenario: déspotas aleatorios de cualquier edad que gobiernan tierras. Diseño: Seleccione parejas de dictadores jóvenes y viejos. Deles dinero, inspeccione la diferencia de proporción retenida (viejo - joven =pag1 ) Roba el dinero para que el país y el gobernante tengan básicamente los mismos activos que antes. Deposítalos de sus respectivos tronos e instálalos en la tierra del otro. Vuelva a realizar la entrega de la olla, inspeccione la diferencia de proporción retenida (viejo - joven =pag2 )
fuente
La causalidad y la correlación son diferentes categorías de cosas. Es por eso que la correlación por sí sola no es suficiente para inferir causalidad.
Por ejemplo, la causalidad es direccional , mientras que la correlación no lo es. Al inferir causalidad, debe establecer qué es causa y qué es efecto.
Hay otras cosas que pueden interferir con su inferencia. Variables ocultas o terceras y todas las preguntas de estadística (selección de muestra, tamaño de muestra, etc.)
Pero suponiendo que sus estadísticas se realicen correctamente, la correlación puede proporcionar pistas sobre la causalidad. Por lo general, si encuentra una correlación, significa que hay algún tipo de causalidad en algún lugar y debe comenzar a buscarla.
Puede comenzar absolutamente con una hipótesis derivada de su correlación. Pero una hipótesis no es una causalidad, es simplemente una posibilidad de una causalidad. Entonces necesitas probarlo. Si su hipótesis se resiste a suficientes intentos de falsificación, es posible que tenga algo.
Por ejemplo, en su hipótesis de la edad, la codicia, una hipótesis alternativa sería que no es la edad, sino la duración de ser un dictador. Por lo tanto, buscaría dictadores viejos, pero recientemente empoderados, como grupo de control, y jóvenes pero dictadores desde la infancia como segundo grupo y verificaría los resultados allí.
fuente
Gracias a @AdamO por ofrecer mucha discusión y puntos de discusión a esta publicación. Estoy tratando de ofrecer una visión física de la causalidad, que puede ser desconocida para el lector promedio de estadísticas.
Tienes razón desde el punto de vista de las ciencias físicas. En la forma más simple, la posibilidad de una visión física de la causalidad independiente del tiempo está en la base de la visión deductiva-nomológica (DN) de la explicación científica, considerando un evento a explicar si puede subsumirse bajo una ley científica. En la vista DN, se considera que un estado físico se explica si, aplicando la ley (determinista), se puede derivar de condiciones iniciales dadas. (Dichas condiciones iniciales podrían incluir el momento y la distancia entre sí de las estrellas binarias en cualquier momento dado). Tal "explicación por determinismo" a veces se denomina determinismo causal.
Para ser un poco más completo sobre esto, uno incluiría el modelo estadístico inductivo de Hempel para formar una explicación científica , cuyo enlace ofrece una discusión más completa de la causalidad.
En cuanto al problema en cuestión, la edad puede estar relacionada con la experiencia, pero la relación no es simple, además, la función cerebral a diferentes edades es diferente (la demarcación del tiempo se dilata con la edad). La experiencia como modificador del comportamiento es bastante variable, y el hecho de que una cohorte en cierto sentido territorial y temporal pueda tener experiencias históricas similares no implica que cualquier comportamiento resultante de esas experiencias pueda extrapolarse a otras cohortes sin temor a contradicciones. Con respecto a un ensayo controlado, la comunidad de experiencias es una variable incontrolada que introduce una cantidad desconocida e inexplorada de correlación espuria en cualquier comparación binaria, de modo que cualquier diferencia encontrada no debe considerarse como reveladora de un vínculo probablemente causal. Además, una causa probable, cuando se encuentra, solo constituiría una sospecha y no algo que uno pueda declarar con convicción; En el mejor de los casos, es una hipótesis de trabajo, no una mejor conclusión. Las convicciones relativas a la causalidad solo deben extraerse de un conjunto de pruebas que sea lo suficientemente inclusivo como para que esas convicciones sean sin duda razonable. Ese no es el caso de la pregunta anterior para la cual no hay suficiente información para reclamar una relación causal más allá de un contexto coincidente de la agrupación de cohortes. De hecho, se pueden formular tantas hipótesis, por ejemplo, que la evolución de la generosidad con la edad se modifica por la experiencia cultural / histórica de la época, de modo que no se pueden sacar conclusiones firmes del problema como se indicó. Las convicciones relativas a la causalidad solo deben extraerse de un conjunto de pruebas que sea lo suficientemente inclusivo como para que esas convicciones sean sin duda razonable. Ese no es el caso de la pregunta anterior para la cual no hay suficiente información para reclamar una relación causal más allá de un contexto coincidente de la agrupación de cohortes. De hecho, se pueden formular tantas hipótesis, por ejemplo, que la evolución de la generosidad con la edad se modifica por la experiencia cultural / histórica de la época, de modo que no se pueden sacar conclusiones firmes del problema como se indicó. Las convicciones relativas a la causalidad solo deben extraerse de un conjunto de pruebas que sea lo suficientemente inclusivo como para que esas convicciones sean sin duda razonable. Ese no es el caso de la pregunta anterior para la cual no hay suficiente información para reclamar una relación causal más allá de un contexto coincidente de la agrupación de cohortes. De hecho, se pueden formular tantas hipótesis, por ejemplo, que la evolución de la generosidad con la edad se modifica por la experiencia cultural / histórica de la época, de modo que no se pueden sacar conclusiones firmes del problema como se indicó.
fuente