Dado
- un conjunto de datos con instancias junto con clases donde cada instancia pertenece exactamente a una clase
- un clasificador multiclase
Después del entrenamiento y las pruebas, básicamente tengo una tabla con la clase verdadera y la clase predicha para cada instancia en el conjunto de prueba. Entonces, para cada instancia tengo una coincidencia ( ) o una falla ( ).
¿Cómo puedo evaluar la calidad del partido? El problema es que algunas clases pueden tener muchos miembros, es decir, muchas instancias le pertenecen. Obviamente, si el 50% de todos los puntos de datos pertenecen a una clase y mi clasificador final es el 50% correcto en general, no he ganado nada. Podría haber hecho un clasificador trivial que genera esa clase más grande sin importar la entrada.
¿Existe un método estándar para estimar la calidad de un clasificador basado en los resultados conocidos del conjunto de pruebas de coincidencias y aciertos para cada clase? ¿Quizás es importante distinguir las tasas de correspondencia para cada clase en particular?
El enfoque más simple que se me ocurre es excluir las coincidencias correctas de la clase más grande. ¿Qué más?
Respuestas:
Al igual que la clasificación binaria, puede usar la tasa de error empírico para estimar la calidad de su clasificador. Sea un clasificador, y e sean respectivamente un ejemplo en su base de datos y su clase. Como dijiste, cuando las clases están desequilibradas, la línea de base no está 50% pero la proporción de la clase más grande. Puede agregar un peso en cada clase para equilibrar el error. Deje ser el peso de la clase . Establezca los pesos de manera que y defina el error empírico ponderadog xi yi
Como dijo Steffen, la matriz de confusión podría ser una buena manera de estimar la calidad de un clasificador. En el caso binario, puede derivar alguna medida de esta matriz, como la sensibilidad y la especificidad, estimando la capacidad de un clasificador para detectar una clase en particular. La fuente de error de un clasificador puede ser de una manera particular. Por ejemplo, un clasificador puede tener demasiada confianza al predecir un 1, pero nunca decir mal cuando predice un 0. Muchos clasificadores pueden parametrizarse para controlar esta tasa (falsos positivos frente a falsos negativos), y entonces usted está interesado en la calidad del toda la familia de clasificadores, no solo uno. A partir de esto, puede trazar la curva ROC , y medir el área bajo la curva ROC le brinda la calidad de esos clasificadores.
Las curvas ROC se pueden extender para su problema multiclase. Le sugiero que lea la respuesta de este hilo .
fuente
Para evaluar los sistemas de clasificación de texto de múltiples vías, utilizo F1 (medida F) con micro y macro promedios. La medida F es esencialmente una combinación ponderada de precisión y recordar eso. Para la clasificación binaria, los enfoques micro y macro son los mismos, pero, para el caso de múltiples vías, creo que podrían ayudarlo. Puede pensar en Micro F1 como una combinación ponderada de precisión y recuperación que le da el mismo peso a cada documento, mientras que Macro F1 le da el mismo peso a cada clase. Para cada uno, la ecuación de la medida F es la misma, pero calcula la precisión y recuerda de manera diferente:
donde generalmente se establece en 1. Luego,β
donde es verdadero positivo, es falso positivo, es falso negativo y es clase.TP FP FN C
fuente
fuente