Considere un escenario en el que se le proporciona la matriz KnownLabel y la matriz PredictedLabel. Me gustaría medir la bondad de la matriz PredictedLabel contra la matriz KnownLabel.
Pero el desafío aquí es que KnownLabel Matrix tiene pocas filas solo un 1 y otras pocas filas tienen muchos 1 (esas instancias tienen etiquetas múltiples). A continuación se muestra un ejemplo de KnownLabel Matrix.
A =[1 0 0 0
0 1 0 0
0 1 1 0
0 0 1 1
0 1 1 1]
En la matriz anterior, las instancias de datos 1 y 2 son datos de etiqueta única, las instancias de datos 3 y 4 son datos de dos etiquetas y la instancia de datos 5 son los datos de tres etiquetas.
Ahora tengo PredictedLabel Matrix de instancia de datos usando un algoritmo.
Me gustaría conocer varias medidas que se pueden utilizar para medir la bondad de la matriz de PredictedLabel contra la matriz de KnownLabel.
Puedo pensar en la diferencia de la norma frobeinus entre ellos como una de las medidas. Pero estoy buscando la medida, como la precisión
Aquí, ¿cómo podemos definir la para múltiples instancias de datos?
fuente
Respuestas:
(1) da una buena visión general:
La página de Wikipedia n clasificación multi-etiqueta contiene también una sección sobre las métricas de evaluación.
Agregaría una advertencia de que en la configuración de múltiples etiquetas, la precisión es ambigua: puede referirse a la relación de coincidencia exacta o al puntaje de Hamming (consulte esta publicación ). Desafortunadamente, muchos documentos usan el término "precisión".
(1) Sorower, Mohammad S. " Una encuesta bibliográfica sobre algoritmos para el aprendizaje de etiquetas múltiples " . Oregon State University, Corvallis (2010).
fuente
accuracy
medida, ¿cómo manejas elegantemente los casos donde el denominador|Y + Z| == 0
?La pérdida de Hamming es probablemente la función de pérdida más utilizada en la clasificación de etiquetas múltiples.
Eche un vistazo a los estudios empíricos sobre clasificación multi-etiqueta y clasificación multi-etiqueta: una descripción general , los cuales discuten esto.
fuente
Correctly Predicted
es la intersección entre el conjunto de etiquetas sugeridas y el conjunto esperado.Total Instances
es la unión de los conjuntos anteriores (sin conteo duplicado).Entonces, dado un solo ejemplo donde predices las clases
A, G, E
y el caso de prueba tieneE, A, H, P
las correctas con las que terminasAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5
fuente