Umbral para el coeficiente de correlación para indicar la significación estadística de una correlación en una matriz de correlación

10

He calculado una matriz de correlación de un conjunto de datos que contiene 455 puntos de datos, cada punto de datos contiene 14 características. Entonces la dimensión de la matriz de correlación es 14 x 14.

Me preguntaba si hay un umbral para el valor del coeficiente de correlación que señala que existe una correlación significativa entre dos de esas características.

Tengo un valor que oscila entre -0.2 y 0.85, y estaba pensando que los más importantes son aquellos que están por encima de 0.7.

  • ¿Existe un valor general para el coeficiente de correlación que se debe considerar para el umbral o solo depende del contexto del tipo de datos que estoy investigando?
Simón
fuente
1
¿ha verificado stats.stackexchange.com/questions/5750/… ?
user603
@ user603 Buena captura: es prácticamente la misma pregunta. La innovación aquí es preguntar si las pruebas de correlación significativa podrían depender del "tipo de datos" (léase: distribución de datos). Esperemos que las respuestas se centren en este aspecto en lugar de ir a un terreno antiguo.
whuber

Respuestas:

8

Pruebas de significancia para correlaciones

Existen pruebas de significación estadística que se pueden aplicar a las correlaciones individuales, que indican la probabilidad de obtener una correlación tan grande o más grande que la correlación de la muestra suponiendo que la hipótesis nula es verdadera.

El punto clave es que lo que constituye un coeficiente de correlación estadísticamente significativo depende de:

  • Tamaño de muestra : tamaños de muestra más grandes conducirán a umbrales más pequeños
  • alfa : a menudo establecido en .05, los alfa más pequeños conducirán a umbrales más altos para la significación estadística
  • prueba de una cola / dos colas : supongo que usarías dos colas, así que esto probablemente no importa
  • tipo de coeficiente de correlación : supongo que está utilizando Pearson
  • supuestos de distribución de x e y

En circunstancias comunes, donde alfa es 0.05, usando una prueba de dos colas, con correlación de Pearson, y donde la normalidad es al menos una aproximación adecuada, el factor principal que influye en el corte es el tamaño de la muestra.

Umbral de importancia

Otra forma de interpretar su pregunta es considerar que no le interesa saber si una correlación es estadísticamente significativa, sino más bien si es prácticamente importante.

Algunos investigadores han ofrecido reglas generales para interpretar el significado de los coeficientes de correlación, pero estas reglas generales son específicas del dominio.

Prueba de significancia múltiple

k(k-1)/ /2k14(13)/ /2=91 9191 91.05=4.55

Como @ user603 ha señalado, estos problemas se discutieron bien en esta pregunta anterior .

En general, me resulta útil al interpretar una matriz de correlación para centrarse en la estructura de nivel superior. Esto se puede hacer de manera informal al observar patrones generales en la matriz de correlación. Esto se puede hacer más formalmente utilizando técnicas como PCA y análisis factorial. Tales enfoques evitan muchos de los problemas asociados con las pruebas de significación múltiple.

Jeromy Anglim
fuente
1

Una opción sería la simulación o prueba de permutación. Si conoce la distribución de la que provienen sus datos, podría simular a partir de esa distribución, pero con todas las observaciones independientes. Si no conoce la distribución, puede permutar cada una de sus variables de forma independiente y eso le dará la misma distribución marginal general de cada variable, pero con cualquier correlación eliminada.

Realice cualquiera de las anteriores (manteniendo el tamaño de la muestra y las dimensiones de la matriz iguales) un montón de veces (aproximadamente 10.000) y observe la correlación absoluta máxima u otro alto cuantil que pueda ser de interés. Esto le dará la distribución de la hipótesis nula de que luego puede comparar el máximo de sus correlaciones observadas reales con (y los otros cuantiles altos de interés).

Greg Snow
fuente
0

norte-2norteCorr>>norte-2

Hrobjartur
fuente