Tengo datos etiquetados de 2 clases en los que estoy realizando la clasificación usando múltiples clasificadores. Y los conjuntos de datos están bien equilibrados. Al evaluar el rendimiento de los clasificadores, debo tener en cuenta cuán preciso es el clasificador para determinar no solo los verdaderos positivos, sino también los verdaderos negativos. Por lo tanto, si uso la precisión, y si el clasificador está sesgado hacia los positivos y clasifica todo como positivo, obtendré alrededor del 50% de precisión, a pesar de que no se pudo clasificar ningún negativo verdadero. Esta propiedad se extiende a la precisión y recuperación, ya que se centran en una sola clase y, a su vez, en la puntuación F1. (Esto es lo que entiendo incluso de este documento, por ejemplo, " Más allá de la precisión, el puntaje F y el ROC: una familia de medidas discriminatorias para la evaluación del desempeño ").
Por lo tanto, puedo usar la sensibilidad y la especificidad (TPR y TNR) para ver cómo se desempeñó el clasificador para cada clase, donde pretendo maximizar estos valores.
Mi pregunta es que estoy buscando una medida que combine ambos valores en una medida significativa . Investigué las medidas proporcionadas en ese documento, pero encontré que no era trivial. Y, según mi comprensión, me preguntaba por qué no podemos aplicar algo como el puntaje F, pero en lugar de utilizar la precisión y el recuerdo, ¿utilizaría la sensibilidad y la especificidad? Entonces la fórmula sería y mi objetivo sería maximizar esta medida. Me parece muy representativo. ¿Existe una fórmula similar ya? ¿Y esto tendría sentido o es matemáticamente sólido?
La precisión de la clasificación, la sensibilidad, la especificidad y cualquier combinación simple de ellas son reglas de puntuación incorrectas. Es decir, están optimizados por un modelo falso. Usarlos te hará elegir las características incorrectas, dar los pesos incorrectos y tomar decisiones subóptimas. Una de las muchas maneras en que las decisiones son subóptimas es la falsa confianza que se obtiene cuando las probabilidades predichas están cerca del umbral implícito por el uso de estas medidas. En resumen, todo lo que puede salir mal sale mal con estas medidas. Usarlos para comparar incluso dos modelos bien equipados lo engañará.
fuente