Aparentemente, el coeficiente de correlación de Pearson es paramétrico y el rho de Spearman no es paramétrico.
Tengo problemas para entender esto. Según tengo entendido, Pearson se calcula como y Spearman se calcula de la misma manera, excepto que sustituimos todos los valores con sus rangos.
Wikipedia dice
La diferencia entre el modelo paramétrico y el modelo no paramétrico es que el primero tiene un número fijo de parámetros, mientras que el segundo aumenta el número de parámetros con la cantidad de datos de entrenamiento.
Pero no veo ningún parámetro, excepto las muestras en sí. Algunos dicen que las pruebas paramétricas asumen distribuciones normales y continúan diciendo que Pearson asume datos distribuidos normales, pero no entiendo por qué Pearson requeriría eso.
Entonces, mi pregunta es ¿qué significan paramétrico y no paramétrico en el contexto de las estadísticas? ¿Y cómo encajan Pearson y Spearman allí?
fuente
Respuestas:
El problema es que "no paramétrico" realmente tiene dos significados distintos en estos días. La definición en Wikipedia se aplica a cosas como el ajuste de curvas no paramétricas, por ejemplo, a través de splines o regresión local. El otro significado, que es más antiguo, está más en la línea de "libre de distribución", es decir, técnicas que se pueden aplicar independientemente de la distribución asumida de los datos. Este último es el que se aplica al rho de Spearman, ya que la transformación de rango implica que dará el mismo resultado sin importar cuál sea su distribución original.
fuente
Creo que la única razón por la cual el coeficiente de correlación de Pearson se llamaría paramétrico es porque puedes usarlo para estimar los parámetros de la distribución normal multivariada. Por ejemplo, la distribución normal bivariada tiene 5 parámetros: dos medias, dos varianzas y el coeficiente de correlación. Este último puede estimarse con el coeficiente de correlación de Pearson.
De lo contrario, tiene toda la razón, para calcular Pearson no necesita hacer suposiciones de distribución. Es justo cuando asume una distribución normal, la correlación de Pearson tiene significados adicionales en comparación con Spearman o Kendall.ρ
fuente
La respuesta más simple, creo, es que la prueba rho de Spearmen usa datos ordinales (números que pueden clasificarse pero no le dicen nada sobre el intervalo entre los números, por ejemplo, 3 sabores de helado están clasificados 1, 2 y 3, pero esto solo le dice qué Se prefirió el sabor no cuánto). Los datos ordinales no pueden usarse en pruebas paramétricas.
La prueba r de Pearson utiliza datos de intervalo o razón (números que tienen intervalos fijos, por ejemplo, segundos, kg, mm). 1 mm no solo es más pequeño que 5 mm, sino que también sabe exactamente cuánto. Este tipo de datos se puede utilizar en una prueba paramétrica.
fuente