Clasificación general de múltiples listas clasificadas

13

He revisado mucha literatura disponible en línea, incluido este foro sin suerte y esperando que alguien pueda ayudarme con un problema estadístico que enfrento actualmente:

Tengo 5 listas de datos clasificados, cada uno con 10 elementos clasificados de la posición 1 (mejor) a la posición 10 (peor). Por razones de contexto, los 10 elementos en cada lista son iguales, pero en diferentes órdenes de clasificación ya que la técnica utilizada para decidir su clasificación es diferente.

Datos de ejemplo:

            List 1      List 2      List 3     ... etc
Item 1     Ranked 1    Ranked 2    Ranked 1     
Item 2     Ranked 3    Ranked 1    Ranked 2
Item 3     Ranked 2    Ranked 3    Ranked 3
... etc

Estoy buscando una forma de interpretar y analizar los datos anteriores para obtener un resultado final que muestre el rango general de cada elemento en función de cada prueba y su posición, por ejemplo

Result
Rank 1 = Item 1
Rank 2 = Item 3
Rank 3 = Item 4
... etc

Hasta ahora he intentado interpretar esta información realizando pruebas de Correlación de Pearson, Correlación de Spearman, B de Kendall Tau y Friedman. Sin embargo, he descubierto que estos resultados generalmente han emparejado mis listas (es decir, compararon la lista 1 con la lista 2, luego la lista 1 con la lista 3 ... etc.), o han producido resultados como Chi-Square, P-Values, etc. datos.

¿Alguien sabe cómo puedo interpretar estos datos en un método estadísticamente sólido (a nivel de postgrado / doctorado aplicable) para que pueda entender los rangos generales que indican la importancia de cada elemento en la lista en las 5 pruebas, por favor? O, si hay otro tipo de técnica o prueba estadística que pueda analizar, agradecería cualquier sugerencia u orientación.

(Tal vez también valga la pena señalar, también he realizado técnicas matemáticas más simples, como sumas, promedios, pruebas de mínimo a máximo, etc., pero no creo que sean estadísticamente importantes en este nivel).

Cualquier ayuda o consejo sería muy apreciado, gracias por su tiempo.

Liam
fuente
1
Encuentro dos preguntas que, interpretadas adecuadamente, parecen ser duplicadas (y por lo tanto ya proporcionan respuestas): stats.stackexchange.com/search?q=valuation+rank . ¿Son estos adecuados? De lo contrario, ayúdenos a comprender qué tiene de especial su situación.
whuber
Gracias por su respuesta. He echado un vistazo a estos artículos, y no estoy seguro de si no son lo que estoy buscando, o si es mi comprensión la culpa. Tengo la impresión en estos artículos de que cada uno de los conjuntos de datos tiene muchas variables de diferentes significados, y que los rangos pueden ser diferentes o tener más valores enteros de detalles que solo el rango. Solo estoy buscando una forma estadísticamente probada de poder decir 'en general, el elemento más importante es el elemento X, seguido de Y ... y, por último, (o menos importante) el elemento Z'. Casi estoy considerando analizar estos rangos 1-10 como números simples
Liam
1
Un punto importante de esos hilos es que no existe tal "forma estadísticamente probada". Es una cuestión de valoración : cualquier combinación estadística de sus resultados refleja un sentido de compensaciones entre ellos. Por ejemplo , sus "objetos" podrían ser automóviles y las "técnicas" podrían clasificarlos de acuerdo con varios atributos: costo, eficiencia de combustible, potencia, comodidad, etc. Su sentido personal de lo "mejor" puede diferir sustancialmente del sentido de alguien más y los dos tendrían razón.
whuber
¿Recibió la respuesta? deje un comentario aquí stats.stackexchange.com/questions/347336/…
Ray Coder

Respuestas:

7

No estoy seguro de por qué estaba buscando correlaciones y medidas similares. Parece que no hay nada que correlacionar.

En cambio, hay una serie de opciones, ninguna realmente mejor que la otra, pero dependiendo de lo que desee:

Tome el rango promedio y luego clasifique los promedios (pero esto trata los datos como intervalos)

Tome el rango medio y luego clasifique las medianas (pero esto puede resultar en lazos)

Tome el número de votos del 1er lugar que obtuvo cada elemento y clasifíquelos según esto

Tome el número de votos del último lugar y clasifíquelos (inversamente, obviamente) en función de eso.

Cree una combinación ponderada de rangos, según lo que considere razonable.

Peter Flom - Restablece a Monica
fuente
44
Un punto importante en los hilos a los que hice referencia en un comentario, y creo que este es el quid de la cuestión, es que todos estos métodos son arbitrarios . Existen métodos objetivos pero requieren el uso de información no inherente a los datos. Eso es lo que hace que esto sea un problema de valoración en lugar de estadísticas.
whuber
¿Qué combinación ponderada de rangos sugeriría?
Archie
4

Como otros han señalado, hay muchas opciones que puede seguir. El método que recomiendo se basa en rangos promedio, es decir, la primera propuesta de Peter.

En este caso, la importancia estadística de la clasificación final se puede examinar mediante una prueba estadística de dos pasos. Este es un procedimiento no paramétrico que consiste en la prueba de Friedman con una prueba post-hoc correspondiente, la prueba de Nemenyi . Ambos se basan en rangos promedio. El propósito de la prueba de Friedman es rechazar la hipótesis nula y concluir que no hay algunas diferencias entre los artículos. Si es así, procedemos con la prueba de Nemenyi para descubrir qué elementos realmente difieren. (No comenzamos directamente con la prueba post-hoc para evitar la importancia encontrada por casualidad).

Demsar puede encontrar más detalles, como los valores críticos para estas dos pruebas .

Weiwei
fuente
2

Utilice Tau-x (donde la "x" se refiere a "eXtended" Tau-b). Tau-x es el equivalente de correlación de la métrica de distancia Kemeny-Snell, comprobada como la métrica de distancia única entre las listas de elementos clasificados que satisface todos los requisitos de una métrica de distancia. Vea el capítulo 2 de "Modelos matemáticos en las ciencias sociales" de Kemeny y Snell, también "Un nuevo coeficiente de correlación de rango con aplicación al problema de clasificación de consenso, Edward Emond, David Mason, Revista de Análisis de Decisión de Criterios Múltiples, 11: 17- 28 (2002).

Stephen
fuente