En mi trabajo, estamos comparando clasificaciones predichas versus clasificaciones verdaderas para algunos conjuntos de datos. Hasta hace poco, hemos estado usando Kendall-Tau solo. Un grupo que trabaja en un proyecto similar sugirió que intentemos usar el Goodman-Kruskal Gamma en su lugar, y que lo prefirieron. Me preguntaba cuáles eran las diferencias entre los diferentes algoritmos de correlación de rango.
Lo mejor que encontré fue esta respuesta , que afirma que Spearman se usa en lugar de las correlaciones lineales habituales, y que Kendall-Tau es menos directo y se parece más a Goodman-Kruskal Gamma. Los datos con los que estoy trabajando no parecen tener correlaciones lineales obvias, y los datos están muy sesgados y no son normales.
Además, Spearman generalmente informa una correlación más alta que Kendall-Tau para nuestros datos, y me preguntaba qué dice eso específicamente sobre los datos. No soy estadístico, así que algunos de los documentos que estoy leyendo sobre estas cosas me parecen jerga, lo siento.
Respuestas:
Spearman rho vs Kendall tau . Estos dos son tan diferentes computacionalmente que no se pueden comparar directamente sus magnitudes. Spearman generalmente es mayor en 1/4 a 1/3 y esto hace que uno concluya incorrectamente que Spearman es "mejor" para un conjunto de datos en particular. La diferencia entre rho y tau está en su ideología, proporción de varianza para rho y probabilidad para tau. Rho es una aplicación habitual de Pearson para los datos clasificados, y al igual que r, es más sensible a los puntos con grandes momentos (es decir, desviaciones del centro de la nube) que a los puntos con pequeños momentos. Por lo tanto, rho es bastante sensible a la forma de la nube después de la clasificaciónhecho: el coeficiente para una nube romboidal oblonga será mayor que el coeficiente para una nube alargada oblonga (porque los bordes afilados del primero son grandes momentos). Tau es una extensión de Gamma y es igualmente sensible a todos los puntos de datos , por lo que es menos sensible a las peculiaridades en la forma de la nube clasificada. Tau es más "general" que rho, porque rho está garantizado solo cuando crees que la relación subyacente (modelo o funcional en la población) entre las variables es estrictamente monotónica. Mientras que Tau permite la curva subyacente no monotónica y mide qué "tendencia" monotónica, positiva o negativa, prevalece allí en general. Rho es comparable con r en magnitud; Tau no lo es.
Kendall tau como Gamma . Tau es solo una forma estandarizada de Gamma. Varias medidas relacionadas tienen numerador pero difieren en el denominador de normalización :PAGS- Q
donde - número de pares de observaciones con "concordancia", - con "inversión"; - número de lazos por la variable X, - por la variable Y, - por ambas variables; - número de observaciones, - número de valores distintos en esa variable donde este número es menor.Q T x T y T x y N kPAGS Q TX Ty Tx y norte k
Por lo tanto, tau es directamente comparable en teoría y magnitud con Gamma. Rho es directamente comparable en teoría y magnitud con Pearson . La buena respuesta de Nick Stauner aquí dice cómo es posible comparar rho y tau indirectamente.r
Ver también sobre tau y rho.
fuente
Aquí hay una cita de Andrew Gilpin (1993) abogando por Maurice Kendall sobre de Spearman por razones teóricas:ρτ ρ
No puedo agregar mucho sobre Goodman-Kruskal , aparte de eso parece producir estimaciones cada vez un poco más grandes que el de Kendall en una muestra de datos de encuestas con las que he estado trabajando últimamente ... y, por supuesto, notablemente estimaciones más bajas que de Spearman . Sin embargo, también intenté calcular un par de estimaciones parciales (Foraita y Sobotka, 2012), y esas se acercaron más a la parcial que a la parcial ... Sin embargo, me llevó bastante tiempo de procesamiento, así que me iré las pruebas de simulación o las comparaciones matemáticas con otra persona ... (quién sabría cómo hacerlas ...)τ ρ γ ρ τγ τ ρ γ ρ τ
Como implica ttnphns , no puede concluir que sus estimaciones son mejores que sus estimaciones solo por magnitud, porque sus escalas difieren (aunque los límites no lo hacen). Gilpin cita a Kendall (1962) como describiendo la relación de aτ ρρ τ ρ τ ρ r r2 Zr τ
Referencias
Foraita, R. y Sobotka, F. (2012). Validación de modelos gráficos. Paquete gmvalid, v1.23. La red completa de R Archive. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf
Gilpin, AR (1993). Tabla de conversión de Tau de Kendall a Rho de Spearman dentro de las medidas de contexto de la magnitud del efecto para el metanálisis. Medición educativa y psicológica, 53 (1), 87-92.
Kendall, MG (1962). Métodos de correlación de rango (3ª ed.). Londres: Griffin.
fuente
fuente
Spearman's ρ is related to the probability of majority concordance among random triplets of observations
con más detalles, no muy matemáticamente difícil, si es posible? Gracias.