Correlación de Pearson o Spearman con datos no normales

113

Recibo esta pregunta con bastante frecuencia en mi trabajo de consultoría estadística, y pensé que la publicaría aquí. Tengo una respuesta, que se publica a continuación, pero estaba ansioso por escuchar lo que otros tienen que decir.

Pregunta: Si tiene dos variables que normalmente no están distribuidas, ¿debería usar el rho de Spearman para la correlación?

Jeromy Anglim
fuente
1
¿Por qué no calcular y reportar ambos (r de Pearson y ρ de Spearman)? Su diferencia (o falta de ella) proporcionará información adicional.
Una pregunta que compara los supuestos de distribución hechos cuando probamos la significación de un coeficiente de regresión simple beta y cuando probamos el coeficiente de correlación de Pearson (numéricamente eual a la beta) stats.stackexchange.com/q/181043/3277 .
ttnphns

Respuestas:

77

La correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias continuas. No asume normalidad aunque sí asume variaciones finitas y covarianza finita. Cuando las variables son bivariadas normales, la correlación de Pearson proporciona una descripción completa de la asociación.

La correlación de Spearman se aplica a los rangos y, por lo tanto, proporciona una medida de una relación monotónica entre dos variables aleatorias continuas. También es útil con datos ordinales y es robusto para los valores atípicos (a diferencia de la correlación de Pearson).

La distribución de cualquiera de los coeficientes de correlación dependerá de la distribución subyacente, aunque ambos son asintóticamente normales debido al teorema del límite central.

Rob Hyndman
fuente
12
ρ
3
¿Hay alguna fuente que pueda citarse para respaldar la afirmación anterior (la r de la persona no asume la normalidad)? Estamos teniendo el mismo argumento en nuestro departamento en este momento.
55
"Cuando las variables son bivariadas normales, la correlación de Pearson proporciona una descripción completa de la asociación". Y cuando las variables NO son bivariadas normales, ¿qué tan útil es la correlación de Pearson?
landroni
2
Esta respuesta parece bastante indirecta. "Cuando las variables son bivariadas normales ..." ¿Y cuándo no? Este tipo de explicación es la razón por la que nunca obtengo estadísticas. "Rob, ¿qué te parece mi vestido nuevo?" "El color oscuro enfatiza tu piel clara". "Claro, Rob, pero ¿te gusta cómo enfatiza mi piel?" "La piel clara se considera hermosa en muchas culturas". "Lo sé, Rob, pero ¿ te gusta?" "Creo que el vestido es hermoso". "Creo que también, Rob, pero ¿es hermoso para mí ?" "Siempre te ves hermosa, cariño". suspiro
1
Si lees las dos oraciones antes de eso, encontrarás la respuesta.
Rob Hyndman
49

¡No olvides la tau de Kendall ! Roger Newson ha abogado por la superioridad de Kendall τ una sobre la correlación de Spearman r S como una medida basada en el grado de correlación en un papel cuyo texto completo está ahora disponible gratuitamente en Internet:

Newson R. Parámetros detrás de las estadísticas "no paramétricas": tau de Kendall, D de Somers y diferencias medias . Stata Journal 2002; 2 (1): 45-64.

Hace referencia (en la p47) a Kendall y Gibbons (1990) como argumentando que "... los intervalos de confianza para r S de Spearman son menos confiables y menos interpretables que los intervalos de confianza para los parámetros τ de Kendall , pero la muestra r S de Spearman es mucho más fácil calculado sin una computadora "(que ya no tiene mucha importancia, por supuesto). Lamentablemente, no tengo acceso fácil a una copia de su libro:

Kendall, MG y JD Gibbons. 1990. Métodos de correlación de rango . 5ta ed. Londres: Griffin.

una parada
fuente
2
También soy un gran admirador de la tau de Kendall. Pearson es demasiado sensible a los puntos de influencia / valores atípicos para mi gusto, y aunque Spearman no sufre este problema, personalmente considero que Kendall es más fácil de entender, interpretar y explicar que Spearman. Por supuesto, su kilometraje puede variar.
Stephan Kolassa
Lo que recuerdo de la experiencia es que la tau de Kendall todavía corre mucho más lento (en R) que la de Spearman. Esto puede ser importante si su conjunto de datos es grande.
wordsforthewise
35

Desde una perspectiva aplicada, me preocupa más elegir un enfoque que resuma la relación entre dos variables de manera que se alinee con mi pregunta de investigación. Creo que determinar un método para obtener errores estándar precisos y valores p es una pregunta que debería ocupar el segundo lugar. Incluso si elige no confiar en los asintóticos, siempre existe la opción de arrancar o cambiar los supuestos de distribución.

Como regla general, prefiero la correlación de Pearson porque (a) generalmente se alinea más con mis intereses teóricos; (b) permite una comparabilidad más directa de los resultados entre los estudios, porque la mayoría de los estudios en mi área informan la correlación de Pearson; y (c) en muchos entornos hay una diferencia mínima entre los coeficientes de correlación de Pearson y Spearman.

Sin embargo, hay situaciones en las que creo que la correlación de Pearson en las variables en bruto es engañosa.

  • Valores atípicos: los valores atípicos pueden tener una gran influencia en las correlaciones de Pearson. Muchos valores atípicos en configuraciones aplicadas reflejan fallas de medición u otros factores que el modelo no pretende generalizar. Una opción es eliminar tales valores atípicos. Los valores atípicos univariantes no existen con el rho de Spearman porque todo se convierte en rangos. Por lo tanto, Spearman es más robusto.
  • Variables muy asimétricas: cuando se correlacionan variables asimétricas, particularmente variables muy asimétricas, un registro u otra transformación a menudo aclara la relación subyacente entre las dos variables (por ejemplo, el tamaño del cerebro por el peso corporal de los animales). En tales configuraciones, puede ser que la métrica sin procesar no sea la métrica más significativa de todos modos. El rho de Spearman tiene un efecto similar a la transformación al convertir ambas variables en rangos. Desde esta perspectiva, el rho de Spearman puede verse como un enfoque rápido y sucio (o más positivamente, es menos subjetivo) por el cual no tiene que pensar en transformaciones óptimas.

En los dos casos anteriores, recomendaría a los investigadores que consideren estrategias de ajuste (por ejemplo, transformaciones, eliminación / ajuste de valores atípicos) antes de aplicar la correlación de Pearson o utilizar el rho de Spearman.

Jeromy Anglim
fuente
El problema con la transformación es que, en general, también transforma los errores asociados a cada punto y, por lo tanto, el peso. Y no resuelve el problema del valor atípico.
skan
11

Actualizado

La pregunta nos pide elegir entre el método de Pearson y Spearman cuando se cuestiona la normalidad . Restringido a esta preocupación, creo que el siguiente documento debe informar la decisión de cualquiera:

r

r

Si se le pide que elija entre uno de Spearman y Pearson cuando se viola la normalidad, vale la pena recomendar la alternativa gratuita de distribución, es decir, el método de Spearman.


Anteriormente ...

La correlación de Spearman es una medida de correlación basada en rango; no es paramétrico y no descansa sobre un supuesto de normalidad.

La distribución muestral para la correlación de Pearson asume normalidad; En particular, esto significa que aunque puede calcularlo, las conclusiones basadas en pruebas de significación pueden no ser sólidas.

Como Rob señala en los comentarios, con una gran muestra esto no es un problema. Sin embargo, con muestras pequeñas, donde se viola la normalidad, se debe preferir la correlación de Spearman.

Actualización Reflexionando sobre los comentarios y las respuestas, me parece que esto se reduce al debate habitual de pruebas no paramétricas vs. paramétricas. Gran parte de la literatura, por ejemplo, en bioestadística, no trata con muestras grandes. Por lo general, no soy arrogante con confiar en los asintóticos. Quizás esté justificado en este caso, pero eso no es evidente para mí.

ars
fuente
1
No. La correlación de Pearson NO asume la normalidad. Es una estimación de la correlación entre dos variables aleatorias continuas y es un estimador consistente en condiciones relativamente generales. Incluso las pruebas basadas en la correlación de Pearson no requieren normalidad si las muestras son lo suficientemente grandes debido a la CLT.
Rob Hyndman el
2
Tengo la impresión de que Pearson se define siempre que las distribuciones subyacentes tengan variaciones finas y covarianzas. Por lo tanto, no se requiere normalidad . Si las distribuciones subyacentes no son normales, entonces el estadístico de prueba puede tener una distribución diferente, pero ese es un problema secundario y no relevante para la pregunta en cuestión. ¿No es así?
2
@Rob: Sí, siempre podemos encontrar soluciones para que las cosas funcionen más o menos igual. Simplemente para evitar el método de Spearman, que la mayoría de los no estadísticos pueden manejar con un comando estándar. Supongo que mi consejo sigue siendo utilizar el método de Spearman para pequeñas muestras donde la normalidad es cuestionable. No estoy seguro si eso está en disputa aquí o no.
ars
1
@ars. Usaría Spearman si estuviera interesado en una asociación monotónica en lugar de lineal, o si hubiera valores atípicos o altos niveles de asimetría. Usaría Pearson para relaciones lineales siempre que no haya valores atípicos. No creo que el tamaño de la muestra sea relevante para tomar la decisión.
Rob Hyndman
3
@Rob: OK, gracias por la discusión. Estoy de acuerdo con la primera parte, pero dudo de la última, e incluiría que el tamaño solo juega un papel porque las asintóticas normales no se aplican. Por ejemplo, Kowalski 1972 tiene un estudio bastante bueno de la historia en torno a esto, y concluye que la correlación de Pearson no es tan sólida como se pensaba. Ver: jstor.org/pss/2346598
ars