Estoy interesado en ver varias métricas diferentes para los algoritmos de clasificación: hay algunas que figuran en la página de Wikipedia de Learning to Rank, que incluyen:
• Precisión media promedio (MAP);
• DCG y NDCG;
• Precisión @ n, NDCG @ n, donde "@n" indica que las métricas se evalúan solo en los n documentos principales;
• Rango recíproco medio;
• tau de Kendall
• Rho de Spearman
• Rango recíproco esperado
• El hallazgo de Yandex
pero no me queda claro cuáles son las ventajas / desventajas de cada uno o cuándo puede elegir uno sobre otro (o lo que significaría si un algoritmo superara a otro en NDGC pero fuera peor cuando se evalúa con MAP).
¿Hay algún lugar al que pueda ir para aprender más sobre estas preguntas?
fuente
En muchos casos en los que aplica algoritmos de clasificación (por ejemplo, búsqueda de Google, recomendación de productos de Amazon), tiene cientos y miles de resultados. El usuario solo quiere ver en la parte superior ~ 20 más o menos. Entonces el resto es completamente irrelevante.
Si esto es cierto para su aplicación, esto tiene implicaciones directas en la métrica:
Precisión de clasificación Top-k para clasificación
Para la verdad básica, podría ser difícil definir un orden. Y si solo distingue relevante / no relevante, ¡en realidad está en un caso de clasificación!
La precisión de Top-n es una métrica para la clasificación. Consulte ¿Cuál es la definición de precisión Top-n? .
Precisión @ k
Lo que te dice:
Recordar @ k
Lo que significa:
fuente
Recientemente tuve que elegir una métrica para evaluar algoritmos de clasificación de múltiples etiquetas y llegué a este tema, que fue realmente útil. Aquí hay algunas adiciones a la respuesta de stpk, que fueron útiles para tomar una decisión.
Detalles
Centrémonos en la precisión promedio (AP) ya que la precisión promedio promedio (MAP) es solo un promedio de AP en varias consultas. AP se define correctamente en los datos binarios como el área bajo la curva de recuperación de precisión, que se puede reescribir como el promedio de las precisiones en cada elemento positivo. (vea el artículo de Wikipedia en MAP ) Una posible aproximación es definirlo como el promedio de las precisiones en cadaarticulo. Lamentablemente, perdemos la buena propiedad de que los ejemplos negativos clasificados al final de la lista no tienen impacto en el valor de AP. (Esto es particularmente triste cuando se trata de evaluar un motor de búsqueda, con muchos más ejemplos negativos que ejemplos positivos. Una posible solución es submuestrear los ejemplos negativos, a costa de otras desventajas, por ejemplo, las consultas con más elementos positivos serán igualmente difícil para las consultas con pocos ejemplos positivos.)
Por otro lado, esta aproximación tiene la agradable propiedad de que se generaliza bien en el caso de múltiples etiquetas. De hecho, en el caso binario, la precisión en la posición k también se puede interpretar como la relevancia promedio antes de la posición k, donde la relevancia de un ejemplo positivo es 1, y la relevancia de un ejemplo negativo es 0. Esta definición se extiende de forma bastante natural a el caso donde hay más de dos niveles diferentes de relevancia. En este caso, AP también se puede definir como la media de los promedios de las relevancias en cada posición.
A partir de estas dos expresiones, podemos deducir que: AP pesa los documentos de 1 a 0. DCG pesa los documentos independientemente del número total de documentos.
En ambos casos, si hay ejemplos mucho más irrelevantes que ejemplos relevantes, el peso total de lo positivo puede ser insignificante. Para AP, una solución alternativa es submuestrear las muestras negativas, pero no estoy seguro de cómo elegir la proporción de submuestreo, así como si hacer que dependa de la consulta o de la cantidad de documentos positivos. Para DCG, podemos cortarlo en k, pero surgen el mismo tipo de preguntas.
Me alegraría saber más sobre esto, si alguien aquí trabajó en el tema.
fuente