Actualmente estoy usando varios clasificadores diferentes en varias entidades extraídas del texto, y uso la precisión / recuperación como un resumen de qué tan bien se desempeña cada clasificador por separado en un conjunto de datos dado.
Me pregunto si hay una manera significativa de comparar el rendimiento de estos clasificadores de manera similar, pero que también tenga en cuenta los números totales de cada entidad en los datos de prueba que se están clasificando.
Actualmente, estoy usando precisión / recuperación como una medida de rendimiento, por lo que podría tener algo como:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Sin embargo, el conjunto de datos en el que los estoy ejecutando podría contener 100k personas, 5k compañías, 500 quesos y 1 huevo.
Entonces, ¿hay una estadística resumida que pueda agregar a la tabla anterior que también tenga en cuenta el número total de cada elemento? ¿O hay alguna forma de medir el hecho de que, por ejemplo, 100% prec / rec en el clasificador de huevo podría no ser significativo con solo 1 elemento de datos?
Supongamos que tenemos cientos de clasificadores de este tipo, creo que estoy buscando una buena manera de responder preguntas como "¿Qué clasificadores tienen un rendimiento inferior? ¿Qué clasificadores carecen de suficientes datos de prueba para saber si tienen un rendimiento inferior?".
fuente
Respuestas:
Debe observar el intervalo de confianza de la estadística. Esto ayuda a medir cuánta incertidumbre en la estadística, que es en gran medida una función del tamaño de la muestra.
fuente
En mi opinión, es difícil comparar el rendimiento cuando hay una gran diferencia de tamaño. En este enlace, (verifíquelo aquí en Wikipedia http://en.wikipedia.org/wiki/Effect_size ), puede ver diferentes estrategias.
El que sugiero es uno relacionado con la varianza. Por ejemplo, considere el rendimiento del clasificador (100%) y el clasificador de persona (65%). El error mínimo que cometes con el clasificador anterior es del 100%. Sin embargo, el error mínimo que puede cometer con el último clasificador es 10e-5.
Entonces, una forma de comparar clasificador es tener presente esta Regla de los Tres ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) donde puede comparar el rendimiento y su variabilidad.
Otra posibilidad es la F-measure, que es una combinación de Precisión y Recuperación, y de alguna manera es independiente del tamaño del efecto.
fuente
El número de datos en la clase a veces se conoce como el
support
del clasificador. Le indica cuánto puede confiar en su resultado, como un valor p le permitiría confiar o desconfiar de alguna prueba.Un enfoque que puede usar es calcular varias medidas de rendimiento del clasificador, no solo precisión y recuperación, sino también tasa positiva verdadera, tasa positiva falsa, especificidad, sensibilidad, probabilidad positiva, probabilidad negativa, etc. y ver si son consistentes entre sí . Si una de las medidas alcanza su límite máximo (100%) y la otra no, a menudo, en mi experiencia, es indicativo de que algo salió mal (por ejemplo, mal soporte, clasificador trivial, clasificador sesgado, etc.). Consulte esto para obtener una lista de medidas de rendimiento del clasificador.
fuente