¿Por qué Pearson es paramétrico y Spearman no es paramétrico?

19

Aparentemente, el coeficiente de correlación de Pearson es paramétrico y el rho de Spearman no es paramétrico.

Tengo problemas para entender esto. Según tengo entendido, Pearson se calcula como y Spearman se calcula de la misma manera, excepto que sustituimos todos los valores con sus rangos.

rXy=Cov(X,Y)σXσy

Wikipedia dice

La diferencia entre el modelo paramétrico y el modelo no paramétrico es que el primero tiene un número fijo de parámetros, mientras que el segundo aumenta el número de parámetros con la cantidad de datos de entrenamiento.

Pero no veo ningún parámetro, excepto las muestras en sí. Algunos dicen que las pruebas paramétricas asumen distribuciones normales y continúan diciendo que Pearson asume datos distribuidos normales, pero no entiendo por qué Pearson requeriría eso.

Entonces, mi pregunta es ¿qué significan paramétrico y no paramétrico en el contexto de las estadísticas? ¿Y cómo encajan Pearson y Spearman allí?

usuario2740
fuente
66
Es una buena pregunta y hay mucha información errónea por ahí. Por ejemplo, la ecuación de las pruebas paramétricas y suponer distribuciones normales es lamentablemente una confusión frecuente, por lo que muchos escritores de libros de texto, profesores de cursos y carteles de Internet simplemente copian de otros que están tan o más confundidos.
Nick Cox
55
Quizás la resolución positiva más simple de la pregunta es esta: sí, la correlación de Spearman es un parámetro que se estima para cuantificar la fuerza de una relación y, por lo tanto, se parece a Pearson (en el fondo, es la misma idea, como usted señala); pero no, la correlación de Spearman no es un parámetro que aparece en una distribución, mientras que Pearson es un parámetro en una distribución normal bivariada (una interpretación histórica pero ahora minimizada de lo que está haciendo cuando hace la correlación). Es una buena distinción, que debe entenderse al ver que la palabra "parámetro" tiene múltiples sentidos.
Nick Cox
@ NickCox, ¿por qué no publicas eso como respuesta?
Richard Hardy
55
El punto sobre la normalidad de la distribución solo muerde realmente cuando quieres hacer pruebas de significación con correlación. Si usa correlaciones solo como medidas descriptivas, la no normalidad no tiene por qué ser una barrera para usar correlaciones. Las correlaciones pueden incluso ser un poco útiles con dos variables binarias siempre que ambas varíen. Todavía debe tener cuidado con los efectos de los valores atípicos, etc., etc.
Nick Cox
1
Como parece que todavía no se ha dicho claramente, me gustaría enfatizar que ninguna estadística es "paramétrica". Es como decir que los números son sabrosos: el adjetivo simplemente no se aplica al sustantivo. Los modelos estadísticos pueden ser paramétricos (como lo indica la cita de Wikipedia), así como las pruebas y procedimientos que se basan en ellos. Las estadísticas de Spearman y Pearson se pueden usar en configuraciones paramétricas y no paramétricas. Más sobre esto en stats.stackexchange.com/questions/67204 . Lo que hace que un modelo sea paramétrico es su espacio de estado .
whuber

Respuestas:

17

El problema es que "no paramétrico" realmente tiene dos significados distintos en estos días. La definición en Wikipedia se aplica a cosas como el ajuste de curvas no paramétricas, por ejemplo, a través de splines o regresión local. El otro significado, que es más antiguo, está más en la línea de "libre de distribución", es decir, técnicas que se pueden aplicar independientemente de la distribución asumida de los datos. Este último es el que se aplica al rho de Spearman, ya que la transformación de rango implica que dará el mismo resultado sin importar cuál sea su distribución original.

Hong Ooi
fuente
2
No paramétrico tiene dos significados, pero el comentario en wikipedia realmente se aplica a ambos. En la regresión no paramétrica se refiere a que la relación no es finita-paramétrica. En el lado 'libre de distribución' de las cosas, se refiere a que los modelos de distribución no son paramétricos finitos.
Glen_b -Reinstate Monica
1
Hm, esa cita de Wikipedia no soy yo. Alguien más lo ha agregado.
Hong Ooi
2
La edición principal, que creo que es incorrecta en un detalle y no agrega nada especialmente útil, fue revisada ya que fue realizada por un usuario de baja representación y fue rechazada por una persona, pero luego fue aceptada automáticamente cuando una tercera persona intentó editar para mejorarlo (es posible que no se hayan dado cuenta de que esto sería una consecuencia). Voy a revertir esa edición a tu original. Puede hacerlo en cualquier momento que haya una edición que no le guste.
Glen_b -Reinstate Monica
Ahora regrese a su publicación original, ya que creo que cambió su publicación demasiado sin buscar su acuerdo y no parece que esté de acuerdo con ella. Si le gustó algo, haga clic en el enlace "editado ... hace" arriba de mi nombre y copie las partes que le gustan de lo que estaba allí antes, luego
edítelo
¿Cuándo se justifica usar Spearman? ¿Cómo puede ayudar Pearson cuando usas Spearman?
Léo Léopold Hertz 준영
3

Creo que la única razón por la cual el coeficiente de correlación de Pearson se llamaría paramétrico es porque puedes usarlo para estimar los parámetros de la distribución normal multivariada. Por ejemplo, la distribución normal bivariada tiene 5 parámetros: dos medias, dos varianzas y el coeficiente de correlación. Este último puede estimarse con el coeficiente de correlación de Pearson.

De lo contrario, tiene toda la razón, para calcular Pearson no necesita hacer suposiciones de distribución. Es justo cuando asume una distribución normal, la correlación de Pearson tiene significados adicionales en comparación con Spearman o Kendall.ρ

Aksakal
fuente
¿No es el parámetro del coeficiente de correlación de Pearson en el sentido de que tienes que asumir la normalidad para probar su importancia? es decir, no asume la normalidad como estadística, pero usted supone que los datos son normales al calcular la distribución del coeficiente de correlación de la muestra y probarlo. Esta es una pregunta honesta, podría estar 100% equivocado.
Mugen
¿Puede explicar por favor si hace suposiciones de distribución en sperman y kendall?
Léo Léopold Hertz 준영
@mugen, no tiene que asumir la normalidad para probar la importancia de una correlación de Pearson; una prueba común de una correlación de Pearson lo hace. Podría hacer una suposición paramétrica diferente y llegar a una prueba diferente ... o, de hecho, uno podría realizar una prueba de permutación de la nula de que la correlación de Pearson de la población es cero, lo que resulta en una prueba no paramétrica.
Glen_b -Reinstale a Monica el
0

La respuesta más simple, creo, es que la prueba rho de Spearmen usa datos ordinales (números que pueden clasificarse pero no le dicen nada sobre el intervalo entre los números, por ejemplo, 3 sabores de helado están clasificados 1, 2 y 3, pero esto solo le dice qué Se prefirió el sabor no cuánto). Los datos ordinales no pueden usarse en pruebas paramétricas.

La prueba r de Pearson utiliza datos de intervalo o razón (números que tienen intervalos fijos, por ejemplo, segundos, kg, mm). 1 mm no solo es más pequeño que 5 mm, sino que también sabe exactamente cuánto. Este tipo de datos se puede utilizar en una prueba paramétrica.

Julian Keenlyside
fuente
1
Ciertamente, es posible usar modelos paramétricos, y por lo tanto pruebas paramétricas, con datos ordinales. Simplemente se necesita proponer una distribución para esta variable con un número finito - y fijo - de parámetros, y alguna hipótesis adecuada en relación con esos parámetros y listo , existe una prueba paramétrica. La correlación de Pearson calculada en situaciones donde una o ambas variables tienen dos categorías (etiquetadas con dos números diferentes, típicamente 0/1) dan como resultado medidas de asociación comúnmente utilizadas para esas situaciones.
Glen_b -Reinstalar a Mónica el