Comparación de listas clasificadas

15

Supongamos que dos grupos, que comprende n1 y n2 cada rango de un conjunto de 25 elementos de más a menos importante. ¿Cuáles son las mejores formas de comparar estas clasificaciones?

Claramente, es posible hacer 25 pruebas U de Mann-Whitney, pero esto daría como resultado 25 resultados de la prueba para interpretar, lo que puede ser demasiado (y, en uso estricto, plantea preguntas de comparaciones múltiples). Tampoco está completamente claro para mí que los rangos satisfagan todos los supuestos de esta prueba.

También me interesarían los punteros a la literatura sobre calificación vs. clasificación.

Algún contexto: estos 25 elementos están relacionados con la educación y los dos grupos son diferentes tipos de educadores. Ambos grupos son pequeños.

EDITAR en respuesta a @ttnphns:

No quise comparar el rango total de elementos en el grupo 1 con el grupo 2; eso sería una constante, como señala @ttnphns. Pero las clasificaciones en el grupo 1 y el grupo 2 serán diferentes; es decir, el grupo 1 puede clasificar el elemento 1 más alto que el grupo 2.

Podía compararlos, elemento por elemento, obteniendo el rango medio o medio de cada elemento y haciendo 25 pruebas, pero me preguntaba si había alguna forma mejor de hacerlo.

Peter Flom - Restablece a Monica
fuente
1
Si cada persona clasificó 25 elementos, la suma de las 25 variables es una constante (325). Teniendo en cuenta que, ¿qué significa decir the best ways to compare these rankings- lo que tipo de diferencia de peso corporal de los 2 grupos le gustaría saber?
ttnphns
2
¿Quizás para calcular la mediana de Kemeny para cada grupo? No lo he hecho yo mismo y no sé si los 2 resultados podrían compararse estadísticamente (es decir, con inferencia a la población).
ttnphns
1
Otra opción podría ser la regresión ordinal de medidas repetidas (donde la interacción entre el factor de grupo y el factor rm será su interés); Esto se puede hacer a través del modelo GEE con distribución multinomial y enlace logit. Pero, una vez más, debido a que la suma de 25 ítems es una constante, no puedo decir si es matemáticamente válida.
ttnphns
2
No tengo el libro sobre mí, pero "Teoría y práctica de la medición" de D Hand analiza algunos temas que suenan similares a esto. ¿Qué quiere saber en particular sobre la "diferencia" en el ranking? Por ejemplo, ¿no podría crear primero una clasificación agregada para cada grupo y luego tomar la correlación de clasificación?
Corone
2
@PeterFlom ¿Finalmente has encontrado una solución para la comparación de rango? En caso afirmativo, ¿te importaría publicarlo? :)
Mark Heckmann

Respuestas:

6

Resumen

Comparto mis pensamientos en la sección Detalles . Creo que son útiles para identificar lo que realmente queremos lograr.

Creo que el principal problema aquí es que no has definido qué significa una similitud de rango. Por lo tanto, nadie sabe qué método de medir la diferencia entre los rangos es mejor.

Efectivamente, esto nos deja elegir ambiguamente un método basado en conjeturas.

Lo que realmente sugiero es definir primero un objetivo de optimización matemática. Solo entonces estaremos seguros de si realmente sabemos lo que queremos.

A menos que hagamos eso, realmente no sé lo que queremos. Es posible que casi sepamos lo que queremos, pero casi sabemos saber .

Mi texto en Detalles esencialmente es un paso para alcanzar una definición matemática de similitud de rangos . Una vez que aclaremos esto, podemos avanzar con confianza para elegir el mejor método para medir esa similitud.

Detalles

Basado en uno de sus comentarios:

  • " El objetivo es ver si las clasificaciones de los dos grupos difieren ", Peter Flom.

Para responder esto mientras se interpreta estrictamente el objetivo:

  • Los rangos son diferentes si, cualquier ítem , existe i tal que a ib i , donde a i es el rango del ítem i por grupo a y b i es el rango del mismo artículo pero por grupo b .yo{1,2,...,25}younyosiyounyoyounsiyosi
  • De lo contrario, los rangos no son diferentes.

Pero no creo que realmente quieras esa interpretación estricta . Por lo tanto, creo que lo que realmente quisiste decir es:

  • ¿Cuán diferentes son los rangos de los grupos y b ?unsi

Una solución aquí es simplemente medir la distancia mínima de edición . Es decir, ¿cuál es el número mínimo de ediciones que deben realizarse en la lista clasificada del grupo manera que se vuelva idéntica a la del grupo b ?unsi

Una edición podría definirse como el intercambio de dos elementos, y el costo cuesta puntos dependiendo de cuántos saltos se necesiten. Así que si el artículo 1 necesidades para ser intercambiados con el punto 3 (a fin de lograr filas idénticas entre los de los grupos una y b ), entonces el costo de esta edición es 3 .norte13unsi3

Pero, ¿es adecuado este método? Para responder esto, veámoslo un poco más profundo:

  • No está normalizado. Si decimos que la distancia entre filas de los grupos es 3 , mientras que la distancia entre las filas de los grupos C , D es 123 , no significa necesariamente que una , b son más similares entre sí que c , d son entre sí (también podría significar que c , d estaban clasificando un conjunto mucho más grande de elementos).un,si3C,re123un,siC,reC,re

  • Se supone que el costo de cada edición es lineal con respecto al número de saltos. ¿Es esto cierto para nuestro dominio de aplicación? ¿Podría ser que una relación logística es más adecuada? O una exponencial ?

  • Se supone que todos los artículos son igualmente importantes. Por ejemplo, el desacuerdo en el elemento de clasificación (por ejemplo) se trata de manera idéntica al desacuerdo en el elemento de clasificación (por ejemplo) 5 . ¿Es esto cierto en tu dominio? Por ejemplo, si estamos clasificando libros, ¿no estamos de acuerdo con la clasificación de un libro famoso como TAOCP, igualmente importante que estar en desacuerdo con la clasificación de un libro terrible como TAOUP ?15 5

Una vez que abordemos los puntos anteriores y alcancemos una medida adecuada de similitud entre dos rangos, tendremos que hacer preguntas más interesantes, como:

  • ¿Cuál es la probabilidad de observar tales diferencias, o las diferencias más extremas, si la diferencia entre los grupos de y b sólo se debió a la casualidad?unsi
cavernícola
fuente
5

Esto suena como la 'prueba de rango con signo de Willcoxon' ( enlace de Wikipedia ). Suponiendo que los valores de sus rangos son del mismo conjunto (es decir [1, 25]), esta es una prueba de diferencia pareada (con la hipótesis nula de que estos pares se seleccionaron al azar). Nota: esta es una puntuación de disimilitud.

Hay dos Re Pythonimplementaciones vinculadas en esa página wiki.

danodonovan
fuente
Interesante. No había oído hablar de una diferencia pareada de Wilcoxon.
Peter Flom - Restablece a Monica
3

Advertencia: es una gran pregunta y no sé la respuesta, por lo que se trata realmente de "lo que haría si tuviera que":

En este problema, hay muchos grados de libertad y muchas comparaciones que uno puede hacer, pero con datos limitados es realmente una cuestión de agregar datos de manera eficiente. Si no sabe qué prueba ejecutar, siempre puede "inventar" una mediante permutaciones:

Primero definimos dos funciones:

  • Función de votación : cómo calificar las clasificaciones para que podamos combinar todas las clasificaciones de un solo grupo. Por ejemplo, puede asignar 1 punto al elemento mejor clasificado y 0 a todos los demás. Sin embargo, estaría perdiendo mucha información, así que tal vez sea mejor usar algo como: el artículo mejor clasificado obtiene 1 punto, el segundo clasificado 2 puntos, etc.

  • Función de comparación : Cómo comparar dos puntajes agregados entre dos grupos. Como ambos serán un vector, tomar una norma adecuada de la diferencia funcionaría.

Ahora haga lo siguiente:

  1. Primero calcule una estadística de prueba calculando el puntaje promedio usando la función de votación para cada elemento en los dos grupos, esto debería conducir a dos vectores de tamaño 25.
  2. Luego compare los dos resultados usando la función de comparación, esta será su estadística de prueba.

El problema es que no conocemos la distribución de la estadística de prueba bajo el nulo de que ambos grupos son iguales. Pero si son iguales, podríamos barajar aleatoriamente las observaciones entre grupos.

Por lo tanto, podemos combinar los datos de dos grupos, mezclarlos / permutarlos, elegir el primero norte1 (número de observaciones en el grupo original A) observaciones para el grupo A y el resto para el grupo B. Ahora calcule el estadístico de prueba para esta muestra utilizando los dos pasos anteriores.

Repita el proceso alrededor de 1000 veces y ahora use las estadísticas de prueba de permutación como distribución empírica nula. Esto le permitirá calcular un valor p, y no olvide hacer un buen histograma y dibujar una línea para su estadística de prueba de la siguiente manera:

prueba de permutación de histograma l1

Ahora, por supuesto, se trata de elegir las funciones correctas de votación y comparación para obtener un buen poder. Eso realmente depende de su objetivo e intuición, pero creo que mi segunda sugerencia para la función de votación y lal1La norma son buenos lugares para comenzar. Tenga en cuenta que estas opciones pueden marcar una gran diferencia. La trama anterior estaba usando ell1 norma y estos son los mismos datos con una l2 norma:

prueba de permutación de histograma l2

Pero dependiendo de la configuración, espero que pueda haber una gran aleatoriedad intrínseca y necesitará un tamaño de muestra bastante grande para que funcione un método general. Si tiene conocimiento previo sobre cosas específicas que cree que pueden ser diferentes entre los dos grupos (digamos elementos específicos), entonces úselo para adaptar sus dos funciones. (Por supuesto, lo habitual es hacer esto antes de ejecutar la prueba y no elegir los diseños hasta obtener algo significativo )

PD: envíame un mensaje si estás interesado en mi código (desordenado). Es un poco largo agregarlo aquí, pero estaré encantado de subirlo.

Sven
fuente
De veras me gusta esta idea.
Peter Flom - Restablece a Monica