Tengo un problema de clasificación binaria y experimento diferentes clasificadores en él: quiero comparar los clasificadores. ¿Cuál es una mejor medida de AUC o precisión? ¿Y por qué?
Raondom Forest: AUC: 0.828 Accuracy: 79.6667 %
SVM: AUC: 0.542 Accuracy: 85.6667 %
Creo que definitivamente debería buscar más métricas que solo AUC y precisión.
La precisión (junto con la sensibilidad y la especificidad) es una métrica muy simple pero sesgada que lo obliga a mirar el resultado de predicción absoluta y no se abre para la afirmación de las probabilidades de clase o la clasificación. Tampoco tiene en cuenta a la población, lo que invita a una interpretación errónea como un modelo que da una precisión del 95% en una población con una probabilidad del 95% de ser correcto al azar, no es realmente un buen modelo, incluso si la precisión es alta.
AUC es una buena métrica para afirmar la precisión del modelo que es independiente de las probabilidades de la clase de población. Sin embargo, no le dirá nada acerca de cuán buenas son realmente las estimaciones de probabilidad. Podría obtener un AUC alto pero aún así tener estimaciones de probabilidad muy sesgadas. Esta métrica es más exigente que precisa y definitivamente le dará mejores modelos cuando se usa en combinación con alguna regla de puntuación adecuada, por ejemplo, la puntuación de Brier como se menciona en otra publicación.
Puede obtener una prueba más formal aquí, aunque este documento es bastante teórico: AUC: una medida estadísticamente más consistente y más discriminatoria que la precisión
Sin embargo, hay un montón de buenas métricas disponibles. Funciones de pérdida para la estimación y clasificación de probabilidad de clase binaria: Estructura y aplicaciones es un buen artículo que investiga las reglas de puntuación adecuadas, como el puntaje de Brier.
Otro documento interesante con métricas para la afirmación del rendimiento del modelo es la evaluación: desde la precisión, el recuerdo y la medida F hasta el ROC, el conocimiento, la marcación y la correlación, que incluyen otras métricas de buen desempeño, como el conocimiento.
Para resumir, recomendaría mirar el puntaje de AUC / Gini y Brier para afirmar el rendimiento de su modelo, pero dependiendo del objetivo con su modelo, otras métricas podrían adaptarse mejor a su problema.
fuente