Recibo esta pregunta con bastante frecuencia en mi trabajo de consultoría estadística, y pensé que la publicaría aquí. Tengo una respuesta, que se publica a continuación, pero estaba ansioso por escuchar lo que otros tienen que decir.
Pregunta: Si tiene dos variables que normalmente no están distribuidas, ¿debería usar el rho de Spearman para la correlación?
correlation
normality-assumption
pearson-r
spearman-rho
Jeromy Anglim
fuente
fuente
Respuestas:
La correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias continuas. No asume normalidad aunque sí asume variaciones finitas y covarianza finita. Cuando las variables son bivariadas normales, la correlación de Pearson proporciona una descripción completa de la asociación.
La correlación de Spearman se aplica a los rangos y, por lo tanto, proporciona una medida de una relación monotónica entre dos variables aleatorias continuas. También es útil con datos ordinales y es robusto para los valores atípicos (a diferencia de la correlación de Pearson).
La distribución de cualquiera de los coeficientes de correlación dependerá de la distribución subyacente, aunque ambos son asintóticamente normales debido al teorema del límite central.
fuente
¡No olvides la tau de Kendall ! Roger Newson ha abogado por la superioridad de Kendall τ una sobre la correlación de Spearman r S como una medida basada en el grado de correlación en un papel cuyo texto completo está ahora disponible gratuitamente en Internet:
Newson R. Parámetros detrás de las estadísticas "no paramétricas": tau de Kendall, D de Somers y diferencias medias . Stata Journal 2002; 2 (1): 45-64.
Hace referencia (en la p47) a Kendall y Gibbons (1990) como argumentando que "... los intervalos de confianza para r S de Spearman son menos confiables y menos interpretables que los intervalos de confianza para los parámetros τ de Kendall , pero la muestra r S de Spearman es mucho más fácil calculado sin una computadora "(que ya no tiene mucha importancia, por supuesto). Lamentablemente, no tengo acceso fácil a una copia de su libro:
Kendall, MG y JD Gibbons. 1990. Métodos de correlación de rango . 5ta ed. Londres: Griffin.
fuente
Desde una perspectiva aplicada, me preocupa más elegir un enfoque que resuma la relación entre dos variables de manera que se alinee con mi pregunta de investigación. Creo que determinar un método para obtener errores estándar precisos y valores p es una pregunta que debería ocupar el segundo lugar. Incluso si elige no confiar en los asintóticos, siempre existe la opción de arrancar o cambiar los supuestos de distribución.
Como regla general, prefiero la correlación de Pearson porque (a) generalmente se alinea más con mis intereses teóricos; (b) permite una comparabilidad más directa de los resultados entre los estudios, porque la mayoría de los estudios en mi área informan la correlación de Pearson; y (c) en muchos entornos hay una diferencia mínima entre los coeficientes de correlación de Pearson y Spearman.
Sin embargo, hay situaciones en las que creo que la correlación de Pearson en las variables en bruto es engañosa.
En los dos casos anteriores, recomendaría a los investigadores que consideren estrategias de ajuste (por ejemplo, transformaciones, eliminación / ajuste de valores atípicos) antes de aplicar la correlación de Pearson o utilizar el rho de Spearman.
fuente
Actualizado
La pregunta nos pide elegir entre el método de Pearson y Spearman cuando se cuestiona la normalidad . Restringido a esta preocupación, creo que el siguiente documento debe informar la decisión de cualquiera:
Si se le pide que elija entre uno de Spearman y Pearson cuando se viola la normalidad, vale la pena recomendar la alternativa gratuita de distribución, es decir, el método de Spearman.
Anteriormente ...
La correlación de Spearman es una medida de correlación basada en rango; no es paramétrico y no descansa sobre un supuesto de normalidad.
La distribución muestral para la correlación de Pearson asume normalidad; En particular, esto significa que aunque puede calcularlo, las conclusiones basadas en pruebas de significación pueden no ser sólidas.
Como Rob señala en los comentarios, con una gran muestra esto no es un problema. Sin embargo, con muestras pequeñas, donde se viola la normalidad, se debe preferir la correlación de Spearman.
Actualización Reflexionando sobre los comentarios y las respuestas, me parece que esto se reduce al debate habitual de pruebas no paramétricas vs. paramétricas. Gran parte de la literatura, por ejemplo, en bioestadística, no trata con muestras grandes. Por lo general, no soy arrogante con confiar en los asintóticos. Quizás esté justificado en este caso, pero eso no es evidente para mí.
fuente