¿Comparar clasificadores basados ​​en AUROC o precisión?

11

Tengo un problema de clasificación binaria y experimento diferentes clasificadores en él: quiero comparar los clasificadores. ¿Cuál es una mejor medida de AUC o precisión? ¿Y por qué?

Raondom Forest: AUC: 0.828  Accuracy: 79.6667 %
           SVM: AUC: 0.542  Accuracy: 85.6667 %
Sina
fuente

Respuestas:

13

La proporción clasificada correctamente es una regla de puntuación incorrecta, es decir, está optimizada por un modelo falso. Usaría la regla de puntuación cuadrática adecuada conocida como el puntaje de Brier, o la probabilidad de concordancia (área bajo la curva ROC en el caso binario ). El bosque aleatorio funciona mejor que SVM en su caso.Y

Frank Harrell
fuente
ioi{0,1}f^iB=1ni=1n(f^ioi)2oif^i
y^i=+11y^i=sign(g(yi,xi))g(yi,xi)g(yi,xi)f^i=P(Y=1|xi)=11+exp(A×g(yi,xi)+B)AB
8

Creo que definitivamente debería buscar más métricas que solo AUC y precisión.

La precisión (junto con la sensibilidad y la especificidad) es una métrica muy simple pero sesgada que lo obliga a mirar el resultado de predicción absoluta y no se abre para la afirmación de las probabilidades de clase o la clasificación. Tampoco tiene en cuenta a la población, lo que invita a una interpretación errónea como un modelo que da una precisión del 95% en una población con una probabilidad del 95% de ser correcto al azar, no es realmente un buen modelo, incluso si la precisión es alta.

AUC es una buena métrica para afirmar la precisión del modelo que es independiente de las probabilidades de la clase de población. Sin embargo, no le dirá nada acerca de cuán buenas son realmente las estimaciones de probabilidad. Podría obtener un AUC alto pero aún así tener estimaciones de probabilidad muy sesgadas. Esta métrica es más exigente que precisa y definitivamente le dará mejores modelos cuando se usa en combinación con alguna regla de puntuación adecuada, por ejemplo, la puntuación de Brier como se menciona en otra publicación.

Puede obtener una prueba más formal aquí, aunque este documento es bastante teórico: AUC: una medida estadísticamente más consistente y más discriminatoria que la precisión

Sin embargo, hay un montón de buenas métricas disponibles. Funciones de pérdida para la estimación y clasificación de probabilidad de clase binaria: Estructura y aplicaciones es un buen artículo que investiga las reglas de puntuación adecuadas, como el puntaje de Brier.

Otro documento interesante con métricas para la afirmación del rendimiento del modelo es la evaluación: desde la precisión, el recuerdo y la medida F hasta el ROC, el conocimiento, la marcación y la correlación, que incluyen otras métricas de buen desempeño, como el conocimiento.

Para resumir, recomendaría mirar el puntaje de AUC / Gini y Brier para afirmar el rendimiento de su modelo, pero dependiendo del objetivo con su modelo, otras métricas podrían adaptarse mejor a su problema.

mientras
fuente
El enlace para la evaluación: desde la precisión, el recuerdo y la medida F hasta el ROC, el conocimiento, la marcación y la correlación está muerto
vonjd
ioi{0,1}f^iB=1ni=1n(f^ioi)2oif^i
Ningún brierscore no es excelente para los métodos que solo le dan un resultado y no una probabilidad. Niether es auc, ya que esto le dirá qué tan bien clasifica sus predicciones. Con solo resultados, solo obtendrá un punto en el espacio ROC, por lo tanto, el área debajo de la curva será el triángulo. Pero aún así le dará un número y, por lo tanto, una puntuación más baja, aunque se transformará más o menos en una pérdida de 0-1. Si solo tiene resultados, sugiero mirar Precision, Recall y Cohen's Kappa, que son métricas diseñadas para cuando tiene resultados.
mientras que el