Esto es un poco de verificación intestinal, por favor, ayúdenme a ver si estoy malinterpretando este concepto y de qué manera.
Tengo una comprensión funcional de la correlación, pero me siento un poco aferrado a las pajitas para explicar con confianza los principios detrás de esa comprensión funcional.
Según tengo entendido, la correlación estadística (en oposición al uso más general del término) es una forma de entender dos variables continuas y la forma en que tienden o no a aumentar o disminuir de manera similar.
La razón por la que no puede ejecutar correlaciones en, por ejemplo, una variable continua y una variable categórica es porque no es posible calcular la covarianza entre las dos, ya que la variable categórica por definición no puede producir una media y, por lo tanto, ni siquiera puede entrar en la primera pasos del análisis estadístico.
¿Está bien?
Respuestas:
La correlación es la covarianza estandarizada , es decir, la covarianza deX yy dividida por la desviación estándar deX ey . Déjame ilustrar eso.
En términos generales, las estadísticas se pueden resumir como modelos adecuados para los datos y evaluar qué tan bien el modelo describe esos puntos de datos ( Resultado = Modelo + Error ). Una forma de hacerlo es calcular las sumas de desviaciones o residuales (res) del modelo:
Muchos cálculos estadísticos se basan en esto, incl. El coeficiente de correlación (ver abajo).
Aquí hay un conjunto de datos de ejemplo realizado
R
(los residuos se indican como líneas rojas y sus valores se agregan junto a ellos):Al observar cada punto de datos individualmente y restar su valor del modelo (por ejemplo, la media; en este casoSS
X=11
Y=5.4
Por conveniencia, se puede tomar la raíz cuadrada de la varianza de la muestra, que se conoce como la desviación estándar de la muestra:
Ahora, la covarianza evalúa si dos variables están relacionadas entre sí. Un valor positivo indica que cuando una variable se desvía de la media, la otra variable se desvía en la misma dirección.
X
Y
En resumen, sí, tu sensación es correcta, pero espero que mi respuesta pueda proporcionar algún contexto.
fuente
Tienes (casi) razón. La covarianza (y, por lo tanto, la correlación también) solo se puede calcular entre variables numéricas. Eso incluye variables continuas pero también variables numéricas discretas.
Las variables categóricas podrían usarse para calcular la correlación solo si se les proporciona un código numérico útil, pero no es probable que esto obtenga una ventaja práctica; tal vez podría ser útil para algunas variables categóricas de dos niveles, pero es probable que otras herramientas sean más adecuadas.
fuente
No hay absolutamente nada de malo en las correlaciones informáticas donde una de las variables es categórica. Una correlación positiva fuerte implicaría que activar o desactivar su variable categórica (según su convención) provoca un aumento en la respuesta. Por ejemplo, esto podría suceder al calcular una regresión logística donde las variables son categóricas: predecir la posibilidad de un ataque cardíaco dadas las comorbilidades del paciente como la diabetes y el IMC. En este caso, el IMC tendría una correlación muy fuerte con los ataques cardíacos. ¿Llegarías a la conclusión de que eso no es útil?
fuente