¿Qué indica cuando la correlación de Spearman es una cantidad definitiva menor que Pearson?

12

Tengo un montón de conjuntos de datos relacionados. Las correlaciones de Pearson entre pares de ellas suelen ser definitivamente mayores que las correlaciones de Spearman. Eso sugiere que cualquier correlación es lineal, pero uno podría esperar que incluso si Pearson y Spearman fueran iguales. ¿Qué significa cuando hay una brecha definida entre la correlación de Pearson y Spearman y Pearson es más grande? Esto parece ser una característica consistente en mis conjuntos de datos.

John Robertson
fuente
Pregunta muy similar con gran respuesta aquí
Colin T Bowers

Respuestas:

14

La correlación de Spearman es solo la correlación de Pearson que utiliza los rangos (estadísticas de orden) en lugar de los valores numéricos reales. La respuesta a su pregunta es que no están midiendo lo mismo. Pearson: tendencia lineal, Spearman: tendencia monotónica. Que la correlación de Pearson sea más alta solo significa que la correlación lineal es mayor que la correlación de rango. Esto probablemente se deba a observaciones influyentes en las colas de la distribución que tienen una gran influencia en relación con sus valores clasificados. Las pruebas de asociación que utilizan la correlación de Pearson son de mayor potencia cuando la linealidad se mantiene en los datos.

AdamO
fuente
1
Sabía que el lancero era solo perlas en las filas. Necesito ver si puede haber otras rutas que puedan causar esto también, pero las observaciones de cola influyentes que están más correlacionadas linealmente que la mayor parte de los datos, pero que pierden su influencia cuando se reemplazan con sus clasificaciones definitivamente causarían lo que soy. viendo.
John Robertson
0

La Correlación de Pearson supone varios supuestos para que sea precisa: 1) Cada variable se distribuye normalmente; 2) Homocedasticidad, la varianza de cada variable permanece constante; y 3) Linealidad, lo que significa que un diagrama de dispersión que representa la relación muestra puntos de datos agrupados simétricamente alrededor de la línea de regresión.

La correlación de Spearman es una alternativa no paramétrica a la de Pearson basada en el rango de las observaciones. La correlación de Spearman le permite relajar los tres supuestos sobre su conjunto de datos y derivar correlaciones que aún son razonablemente precisas.

Lo que sus datos implican es que probablemente rompa materialmente uno o más de los supuestos mencionados materialmente, de modo que las dos correlaciones difieran significativamente.

Dado que tiene una gran brecha entre las dos correlaciones, debe investigar si las variables de su conjunto de datos son normalmente distribuidas, homoscedásticas y lineales dentro de un diagrama de dispersión.

La investigación anterior facilitará su decisión sobre si el coeficiente de correlación de Spearman o Pearson es el más representativo.

Sympa
fuente
2
Probablemente esté pensando en la prueba de inferencia asociada utilizando el t-distribución, no la medida descriptiva. Sin embargo, esta prueba generalmente se describe como teniendo supuestos diferentes a los que usted estableció. Por ejemplo, normalidad bivariada, una suposición más fuerte que las distribuciones normales individuales. Proporcione referencias para sus declaraciones.
caracal
44
Incorrecto. La inferencia sobre la correlación de Pearson no requiere que se mantenga ninguno de estos supuestos. Se podría tener una relación curvilínea con datos heterocedásticos no normales y la prueba de correlación de Pearson (que es equivalente a la inferencia en un modelo de regresión lineal) se activa para detectar la tendencia de primer orden. La interpretación de la correlación de Pearson como la fuerza de la tendencia de primer orden aún se mantiene. Existen pocas circunstancias en las que la tendencia de primer orden medida por la correlación de Pearson no sea adecuada para un análisis.
AdamO