He calculado una matriz de correlación de un conjunto de datos que contiene 455 puntos de datos, cada punto de datos contiene 14 características. Entonces la dimensión de la matriz de correlación es 14 x 14.
Me preguntaba si hay un umbral para el valor del coeficiente de correlación que señala que existe una correlación significativa entre dos de esas características.
Tengo un valor que oscila entre -0.2 y 0.85, y estaba pensando que los más importantes son aquellos que están por encima de 0.7.
- ¿Existe un valor general para el coeficiente de correlación que se debe considerar para el umbral o solo depende del contexto del tipo de datos que estoy investigando?
Respuestas:
Pruebas de significancia para correlaciones
Existen pruebas de significación estadística que se pueden aplicar a las correlaciones individuales, que indican la probabilidad de obtener una correlación tan grande o más grande que la correlación de la muestra suponiendo que la hipótesis nula es verdadera.
El punto clave es que lo que constituye un coeficiente de correlación estadísticamente significativo depende de:
En circunstancias comunes, donde alfa es 0.05, usando una prueba de dos colas, con correlación de Pearson, y donde la normalidad es al menos una aproximación adecuada, el factor principal que influye en el corte es el tamaño de la muestra.
cor.test
calculará la significación estadística de una correlación en RUmbral de importancia
Otra forma de interpretar su pregunta es considerar que no le interesa saber si una correlación es estadísticamente significativa, sino más bien si es prácticamente importante.
Algunos investigadores han ofrecido reglas generales para interpretar el significado de los coeficientes de correlación, pero estas reglas generales son específicas del dominio.
Prueba de significancia múltiple
Como @ user603 ha señalado, estos problemas se discutieron bien en esta pregunta anterior .
En general, me resulta útil al interpretar una matriz de correlación para centrarse en la estructura de nivel superior. Esto se puede hacer de manera informal al observar patrones generales en la matriz de correlación. Esto se puede hacer más formalmente utilizando técnicas como PCA y análisis factorial. Tales enfoques evitan muchos de los problemas asociados con las pruebas de significación múltiple.
fuente
Una opción sería la simulación o prueba de permutación. Si conoce la distribución de la que provienen sus datos, podría simular a partir de esa distribución, pero con todas las observaciones independientes. Si no conoce la distribución, puede permutar cada una de sus variables de forma independiente y eso le dará la misma distribución marginal general de cada variable, pero con cualquier correlación eliminada.
Realice cualquiera de las anteriores (manteniendo el tamaño de la muestra y las dimensiones de la matriz iguales) un montón de veces (aproximadamente 10.000) y observe la correlación absoluta máxima u otro alto cuantil que pueda ser de interés. Esto le dará la distribución de la hipótesis nula de que luego puede comparar el máximo de sus correlaciones observadas reales con (y los otros cuantiles altos de interés).
fuente
fuente