Actualmente estoy leyendo sobre suposiciones para las correlaciones de Pearson. Una suposición importante para la prueba t resultante parece ser que ambas variables provienen de distribuciones normales; si no lo hacen, se recomienda el uso de medidas alternativas como el Spearman rho. La correlación de Spearman se calcula como la correlación de Pearson, solo usando los rangos de X e Y en lugar de X e Y, ¿correcto?
Mi pregunta es: si las variables de entrada en una correlación de Pearson necesitan distribuirse normalmente, ¿por qué el cálculo de una correlación de Spearman es válido aunque las variables de entrada sean rangos? Mis filas ciertamente no provienen de distribuciones normales ...
La única explicación que he llegado hasta ahora es que la importancia de rho podría probarse de manera diferente a la de la prueba t de correlación de Pearson (de una manera que no requiere normalidad), pero hasta ahora no he encontrado ninguna fórmula. Sin embargo, cuando ejecuté algunos ejemplos, los valores p para rho y para la prueba t de la correlación de rangos de Pearson siempre coincidían, salvo los últimos dígitos. Para mí, esto no parece un procedimiento revolucionario diferente.
¡Cualquier explicación e idea que pueda tener sería apreciada!
Bueno, entonces has estado ejecutando los ejemplos equivocados.
Los vectoresρ
a
yb
tienen una buena, pero lejos de ser perfecta, correlación lineal (Pearson). Sin embargo, tienen una correlación de rango perfecta . Ver - para Spearman's , en este caso, no importa si el último dígito de es 8.1, 9, 90 o 9000 (¡pruébelo!), Solo importa si es mayor que 8 . Eso es lo que marca la diferencia en la correlación de rangos.b
Por el contrario, mientras que
a
yb
tienen rango de correlación perfecta, su coeficiente de correlación de Pearson es menor que 1. Esto demuestra que la correlación de Pearson no se refleja en las filas.Una correlación de Pearson refleja una función lineal, una correlación de rango simplemente una función monotónica. En el caso de los datos normales, los dos se parecerán mucho entre sí, y sospecho que es por eso que sus datos no muestran grandes diferencias entre Spearman y Pearson.
Para un ejemplo práctico, considere lo siguiente; quieres ver si las personas más altas pesan más. Sí, es una pregunta tonta ... pero suponga que esto es lo que le importa. Ahora, la masa no se escala linealmente con el peso, ya que las personas altas también son más anchas que las pequeñas; entonces el peso no es una función lineal de la altura. Alguien que es 10% más alto que usted es (en promedio) más de 10% más pesado. Es por eso que el índice cuerpo / masa usa el cubo en el denominador.
En consecuencia, asumiría una correlación lineal para reflejar incorrectamente la relación altura / peso. En contraste, la correlación de rango es insensible a las leyes molestas de la física y la biología en este caso; no refleja si las personas crecen linealmente más pesadas a medida que aumentan de altura, simplemente refleja si las personas más altas (mayor rango en una escala) son más pesadas (mayor rango en la otra escala).
Un ejemplo más típico podría ser el de las clasificaciones de cuestionarios tipo Likert, como las personas que califican algo como "perfecto / bueno / decente / mediocre / malo / horrible". "perfecto" está tan lejos de ser "decente" como "decente" está de "malo" en la escala , pero ¿podemos realmente decir que la distancia entre los dos es la misma? Una correlación lineal no es necesariamente apropiada. La correlación de rango es más natural.
Para abordar más directamente su pregunta: no, los valores de p para las correlaciones de Pearson y Spearman no deben calcularse de manera diferente . Mucho es diferente acerca de los dos, tanto conceptual como numéricamente, pero si el estadístico de prueba es equivalente, el valor p será equivalente.
Sobre la cuestión de un supuesto de normalidad en la correlación de Pearson, vea esto .
En términos más generales, otras personas han elaborado mucho mejor que yo con respecto al tema de las correlaciones paramétricas versus no paramétricas (también ver aquí ), y lo que esto significa con respecto a los supuestos de distribución.
fuente
cor.test(x, y, method = "spearman")
concor.test(rank(x), rank(y), method = "pearson")
. Estas estimaciones serán idénticas sin importar qué datos elija. ¡Gracias de todos modos! :)