Promedio de precisión y recuperación cuando se utiliza la validación cruzada

11

He realizado la clasificación usando múltiples clasificadores para datos etiquetados de 2 clases, y utilicé la validación cruzada 5 veces. Para cada pliegue calculé tp, tn, fp y fn. Luego calculé la precisión, precisión, recuperación y puntaje F para cada prueba. Mi pregunta es, cuando quiero promediar los resultados, tomé el promedio de precisiones, pero ¿puedo promediar la precisión, el recuerdo y el puntaje F también? ¿O esto sería matemáticamente incorrecto? PD Los conjuntos de datos utilizados en cada pliegue están bien equilibrados en términos del número de instancias por clase.

Gracias.

Kalaji
fuente
3
Encontré su mismo problema con respecto al cálculo de la medida F (media armónica de precisión y recuperación) utilizando la validación cruzada. En este artículo , demostraron que calcular la medida F en el conjunto completo, y no promediar, es el método menos sesgado. Espero que esto pueda ayudar
papafe
3
@markusian ¡Agregue esto como respuesta! ¡Es de lejos lo más importante en esta página!
drevicko

Respuestas:

2

La puntuación , suponiendo que esté utilizando la definición habitual, ya es una combinación de precisión y recuperación. Específicamente, es la media armónica de ellos. En otras palabras, está destinado a capturar la 'efectividad' de un sistema donde el el usuario coloca pesos iguales en precisión y recuperación. Hay una extensión, llamada puntaje , que le da a más peso para recordar que la precisión. Activado Por otro lado, si está preguntando si puede promediar los 5F

F1=2precisionrecallprecision+recall
Fββ
Fβ=(1+β2)precisionrecall(β2precision)+recall
Fpuntajes (uno de cada pliegue), entonces la respuesta es sí. De hecho, ¡esa es la forma típica de informar el rendimiento de un sistema!

Solo tenga en cuenta que existen algunos problemas con el uso de estos valores para hacer inferencias sobre el error de generalización de los clasificadores. Por ejemplo, una prueba entre las puntuaciones para un clasificador y las puntuaciones para otro clasificador será demasiado optimista.tFF

Matt Krause
fuente
Sí, usé la primera fórmula. Esto significa que promediar el puntaje F de las diferentes pruebas arroja resultados similares al promedio de precisión y recuperación y luego calcular el puntaje F a partir de ellos. Intenté esto en los resultados que tengo y fue casi lo mismo. Gracias.
Kalaji