Digamos que como propietario de un negocio (o de marketing o cualquier persona que entienda un diagrama de dispersión) se muestra un diagrama de dispersión de dos variables: número de anuncios vs número de ventas de productos por mes durante los últimos 5 años (u otra escala de tiempo para que usted tengo más muestras. Acabo de inventar esta).
Ahora él / ella ve el diagrama de dispersión y se le dice que el coeficiente de correlación (corr) es:
- 1 o
- 0.5 o
- 0.11 o
- 0 o
- -0.75 o
- -1
Básicamente cualquier valor válido para corr
Pregunta: ¿Qué significa esto incluso para un tomador de decisiones o cualquier consumidor del diagrama de dispersión? ¿Qué decisiones se pueden tomar solo en base a esto?
Es decir: ¿de qué sirve ver la correlación entre dos variables y qué se puede hacer con esa información de forma aislada? ¿Es solo para ver qué y no considerar para su inclusión en el análisis de regresión o hay un uso más práctico?
Solo por curiosidad, siempre he trabajado con esta técnica, pero me han dicho que la correlación por sí sola no es de mucha utilidad, entonces, ¿qué "ES" el uso?
Míralo desde una perspectiva de juego. Digamos que sabemos que, en promedio, las personas que usan botas de trabajo para trabajar tendrán 1.5 lesiones en el trabajo, y las personas que usan mocasines tendrán 0.05 lesiones en promedio. O, tal vez, la posibilidad de una lesión para una persona que usa botas de trabajo es de .85, y la posibilidad de una lesión para una persona que usa mocasines es de .1.
Si selecciono al azar a una persona de la población, y le digo que la persona está usando botas de trabajo, y le ofrezco una apuesta de dinero uniforme sobre si tuvo o no una lesión en el lugar de trabajo el año pasado, ¿aceptaría la apuesta? Bueno, tomarías la apuesta si pudieras apostar al lado de que tuvieron una lesión. El 85% de las veces ganarás y obtendrás incluso dinero.
El punto es, saber que esa información nos da información sobre si es probable que sufran o no una lesión en el trabajo ... Los zapatos no tienen nada que ver con eso, de hecho, las botas de trabajo evitan lesiones ... Pero la variable de confusión aquí es el tipo de trabajo que acompaña a las botas de trabajo ... Y tal vez otras cosas como la persona posiblemente sea más imprudente.
fuente
La frase "la correlación no implica causalidad" se sobreestima. (Como escribió Cohen, "es una pista muy grande"). Aplicamos esta frase a los estudiantes debido a un sesgo intrínseco a la mente humana. Cuando escuchas "la tasa de criminalidad está correlacionada con la tasa de pobreza", o algo así, no puedes evitar pensar que esto significa que la pobreza causa el crimen. Es natural que las personas asuman esto, porque así es como funciona la mente. Usamos la frase una y otra vez con la esperanza de contrarrestar eso. Sin embargo, una vez que haya absorbido la idea, la frase pierde la mayor parte de su valor, y es hora de pasar a una comprensión más sofisticada.
Cuando hay una correlación entre dos variables, hay dos posibilidades: todo es una coincidencia o hay algún patrón causal en el trabajo. Llamar a un patrón en el mundo una coincidencia es un marco explicativo terrible y probablemente debería ser su último recurso. Eso deja la causalidad. El problema es que no conocemos la naturaleza de ese patrón causal. Bien podría ser que la pobreza cause crimen, pero también podría ser que el crimen causa pobreza (por ejemplo, las personas no quieren vivir en un área de alto crimen, por lo que se mudan y los valores de las propiedades caen, etc.). También podría ser que hay una tercera variable o grupo de variables que causan tanto crimen y la pobreza, pero que no es, de hecho, no hay directavínculo causal entre crimen y pobreza (conocido como el modelo de 'causa común'). Esto es especialmente pernicioso, porque, en un modelo estadístico, todas las demás fuentes de variación se colapsan en el término de error de la variable dependiente. Como resultado, la variable independiente se correlaciona con (causada por) el término de error, lo que lleva al problema de la endogeneidad . Estos problemas son muy difíciles y no deben tomarse a la ligera. No obstante, incluso en este escenario, es importante reconocer que existe una causalidad real en el trabajo.
En resumen, cuando ve una correlación, debe pensar que probablemente hay algún tipo de causalidad en juego en algún lugar , pero que no conoce la naturaleza de ese patrón causal.
fuente
Pensé que estaba bien informado sobre estas cosas, pero fue solo el mes pasado cuando busqué "implicar" en el diccionario y descubrí que tenía dos significados sorprendentemente diferentes. 1. Sugerir y 2. Necesitar. (!) La correlación rara vez requiere causalidad, pero ciertamente puede sugerirla. Como señala @EpiGrad, es una condición necesaria pero no suficiente para establecer la causalidad.
A medida que pasa el tiempo, uno espera encontrar un punto medio entre ver la correlación como el fin de todo y como completamente inútil. Y uno toma en cuenta el conocimiento específico del sujeto / dominio / contenido al interpretar los resultados correlacionales. Pocas personas cuestionarían que haya al menos algún vínculo causal al ver los resultados de publicidad y ventas que usted describe. Pero siempre es bueno permanecer abierto a otras posibilidades, otras variables que podrían explicar, al menos en parte, la relación observada. Las lecturas sobre variables de confusión, validez y similares dan sus frutos con grandes dividendos. Por ejemplo, el viejo clásico Cuasi-Experimentación de Cook y Campbell tiene una buena sección sobre validez y amenazas a la validez.
fuente
Un coeficiente de correlación, como otras medidas de asociación, es útil si quiere saber cuánto saber el valor de X es informativo sobre el valor de Y. Esto es diferente de saber si estableciera X en un valor particular, qué valor de Y que obtendría (que es la esencia de una interpretación contrafáctica de la causalidad).
Sin embargo, en muchos contextos (por ejemplo, predicción), las inferencias basadas en la correlación serían valiosas por derecho propio. Los dientes amarillos están correlacionados con el cáncer de pulmón (ya que ambos son causados probabilísticamente por cáncer). No hay causalidad entre los dos: blanquear los dientes no curaría el cáncer de pulmón. Pero si necesita una prueba de detección rápida para saber quién es probable que tenga cáncer de pulmón, la detección de dientes amarillos podría ser un buen primer paso.
Es una pregunta diferente si el coeficiente de correlación es la mejor medida de asociación disponible, pero creo que la pregunta es más sobre cuál es el valor de conocer la asociación no causal.
Por cierto, no solo la correlación no es suficiente demostración de causalidad, sino que tampoco es necesaria. Dos variables pueden estar causalmente relacionadas pero no exhiben correlación en ningún conjunto de datos en particular (por ejemplo, debido al sesgo de selección o factores de confusión).
fuente
Permítanme estar en desacuerdo con esta frase, la correlación permite conocer el nivel de asociación entre 2 variables. Entonces, es útil cuando se trata de explicar la relación entre tales variables. Por otro lado, (como escribió Macro) la correlación no es una condición necesaria para la causalidad, sin embargo, es suficiente para explicar el nivel de asociación. Además, puede probar la independencia de las variables, pero la correlación puede proporcionarle otra información útil, el coeficiente de determinación.
Sin embargo, el analista debe conocer el dominio para poder explicar el tipo de relación.
fuente
Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
Creo que la recopilación de datos y el diseño del estudio también pueden desempeñar un papel en la respuesta a esta pregunta. No diseñará un estudio y recopilará un conjunto de datos completamente irrelevantes entre sí, incluso en los estudios de observación. Por lo tanto, "la correlación no implica causalidad" puede estar justificada. Aunque no es una relación causal, puede haber una asociación relacionada.
Sin embargo, si está hablando de dos conjuntos de datos completamente irrelevantes, pero aún quiere usar la correlación para explicar la asociación y la causalidad, entonces puede ser inapropiado. Por ejemplo, si dos conjuntos de datos tienen tendencias a la baja, por ejemplo, ventas de helados y número de matrimonios, el coeficiente de correlación podría ser muy alto. ¿Pero es necesario significar una asociación?
fuente