El coeficiente de Pearson entre dos variables es bastante alto (r = .65). Pero cuando clasifico los valores de las variables y ejecuto una correlación de Spearman, el valor de cofficiencia es mucho más bajo (r = .30).
- ¿Cuál es la interpretación de esto?
correlation
spearman-rho
usuario3671
fuente
fuente
Respuestas:
¿Por qué la gran diferencia?
Si sus datos se distribuyen normalmente o de manera uniforme, creo que la correlación de Spearman y Pearson debería ser bastante similar.
Si están dando resultados muy diferentes como en su caso (.65 versus .30), supongo que tiene datos sesgados o valores atípicos, y que los valores atípicos están haciendo que la correlación de Pearson sea mayor que la correlación de Spearman. Es decir, valores muy altos en X pueden coexistir con valores muy altos en Y.
preguntas relacionadas
Consulte también estas preguntas anteriores sobre las diferencias entre la correlación de Spearman y Pearson:
¿Cómo elegir entre la correlación de Pearson y Spearman?
Correlación de Pearson o Spearman con datos no normales
Ejemplo R simple
La siguiente es una simulación simple de cómo podría ocurrir esto. Tenga en cuenta que el siguiente caso involucra un solo valor atípico, pero que podría producir efectos similares con múltiples valores atípicos o datos asimétricos.
Lo que da esta salida
El análisis de correlación muestra que sin el caso atípico Spearman y Pearson son bastante similares, y con el caso atípico bastante extremo, la correlación es bastante diferente.
El gráfico a continuación muestra cómo tratar los datos como rangos elimina la influencia extrema del valor atípico, lo que hace que Spearman sea similar con y sin el valor atípico, mientras que Pearson es bastante diferente cuando se agrega el valor atípico. Esto destaca por qué Spearman a menudo se llama robusto.
fuente