Tengo un montón de conjuntos de datos relacionados. Las correlaciones de Pearson entre pares de ellas suelen ser definitivamente mayores que las correlaciones de Spearman. Eso sugiere que cualquier correlación es lineal, pero uno podría esperar que incluso si Pearson y Spearman fueran iguales. ¿Qué significa cuando hay una brecha definida entre la correlación de Pearson y Spearman y Pearson es más grande? Esto parece ser una característica consistente en mis conjuntos de datos.
correlation
spearman-rho
pearson-r
John Robertson
fuente
fuente
Respuestas:
La correlación de Spearman es solo la correlación de Pearson que utiliza los rangos (estadísticas de orden) en lugar de los valores numéricos reales. La respuesta a su pregunta es que no están midiendo lo mismo. Pearson: tendencia lineal, Spearman: tendencia monotónica. Que la correlación de Pearson sea más alta solo significa que la correlación lineal es mayor que la correlación de rango. Esto probablemente se deba a observaciones influyentes en las colas de la distribución que tienen una gran influencia en relación con sus valores clasificados. Las pruebas de asociación que utilizan la correlación de Pearson son de mayor potencia cuando la linealidad se mantiene en los datos.
fuente
La Correlación de Pearson supone varios supuestos para que sea precisa: 1) Cada variable se distribuye normalmente; 2) Homocedasticidad, la varianza de cada variable permanece constante; y 3) Linealidad, lo que significa que un diagrama de dispersión que representa la relación muestra puntos de datos agrupados simétricamente alrededor de la línea de regresión.
La correlación de Spearman es una alternativa no paramétrica a la de Pearson basada en el rango de las observaciones. La correlación de Spearman le permite relajar los tres supuestos sobre su conjunto de datos y derivar correlaciones que aún son razonablemente precisas.
Lo que sus datos implican es que probablemente rompa materialmente uno o más de los supuestos mencionados materialmente, de modo que las dos correlaciones difieran significativamente.
Dado que tiene una gran brecha entre las dos correlaciones, debe investigar si las variables de su conjunto de datos son normalmente distribuidas, homoscedásticas y lineales dentro de un diagrama de dispersión.
La investigación anterior facilitará su decisión sobre si el coeficiente de correlación de Spearman o Pearson es el más representativo.
fuente