Evaluación de clasificadores: curvas de aprendizaje vs curvas ROC

Me gustaría comparar 2 clasificadores diferentes para un problema de clasificación de texto multiclase que utiliza grandes conjuntos de datos de entrenamiento. Dudo si debo usar curvas ROC o curvas de aprendizaje para comparar los 2 clasificadores.

Por un lado, las curvas de aprendizaje son útiles para decidir el tamaño del conjunto de datos de entrenamiento, ya que puede encontrar el tamaño del conjunto de datos en el que el clasificador deja de aprender (y quizás se degrada). Entonces, el mejor clasificador en este caso podría ser el que alcanza la mayor precisión con el tamaño de conjunto de datos más pequeño.

Por otro lado, las curvas ROC le permiten encontrar un punto con el equilibrio correcto entre sensibilidad / especificidad. El mejor clasificador en este caso es el que está más cerca de la parte superior izquierda, con el TPR más alto para cualquier FPR.

¿Debo usar ambos métodos de evaluación? ¿Es posible que un método con una mejor curva de aprendizaje tenga una peor curva ROC y viceversa?

machine-learning classification roc accuracy kanzen_master
fuente

¿Tiene un ejemplo de un clasificador donde el rendimiento se degrada cuando el conjunto de entrenamiento se hace más grande?

mogron

Respuestas:

La curva de aprendizaje es solo una herramienta de diagnóstico, que le dice qué tan rápido aprende su modelo y si todo su análisis no está atascado en un área peculiar de conjuntos demasiado pequeños / conjunto demasiado pequeño (si corresponde). La única parte de este gráfico que es interesante para la evaluación del modelo es el final, es decir, el rendimiento final, pero esto no necesita un informe para informar.
Seleccionar un modelo basado en una curva de aprendizaje a medida que bosqueja en su pregunta es una idea bastante pobre, porque es probable que seleccione un modelo que sea mejor para sobreajustar en un conjunto de muestra demasiado pequeño.

Acerca de los ROC ... La curva ROC es un método para evaluar modelos binarios que producen una puntuación de confianza de que un objeto pertenece a una clase; posiblemente también para encontrarles los mejores umbrales para convertirlos en clasificadores reales.
Lo que usted describe es más bien una idea para trazar el rendimiento de sus clasificadores como un diagrama de dispersión de TPR / FPR en el espacio ROC y utilizar el criterio más cercano a la esquina superior izquierda para seleccionar el que esté mejor equilibrado entre la generación de falsas alarmas y fallas: - Este objetivo particular se puede lograr de manera más elegante simplemente seleccionando el modelo con la mejor puntuación F (media armónica de precisión y recuperación).

fuente