Promedio de precisión y recuperación cuando se utiliza la validación cruzada

He realizado la clasificación usando múltiples clasificadores para datos etiquetados de 2 clases, y utilicé la validación cruzada 5 veces. Para cada pliegue calculé tp, tn, fp y fn. Luego calculé la precisión, precisión, recuperación y puntaje F para cada prueba. Mi pregunta es, cuando quiero promediar los resultados, tomé el promedio de precisiones, pero ¿puedo promediar la precisión, el recuerdo y el puntaje F también? ¿O esto sería matemáticamente incorrecto? PD Los conjuntos de datos utilizados en cada pliegue están bien equilibrados en términos del número de instancias por clase.

Gracias.

classification cross-validation precision-recall Kalaji
fuente

Encontré su mismo problema con respecto al cálculo de la medida F (media armónica de precisión y recuperación) utilizando la validación cruzada. En este artículo , demostraron que calcular la medida F en el conjunto completo, y no promediar, es el método menos sesgado. Espero que esto pueda ayudar

papafe

@markusian ¡Agregue esto como respuesta! ¡Es de lejos lo más importante en esta página!

drevicko

Respuestas:

La puntuación , suponiendo que esté utilizando la definición habitual, ya es una combinación de precisión y recuperación. Específicamente, es la media armónica de ellos. En otras palabras, está destinado a capturar la 'efectividad' de un sistema donde el el usuario coloca pesos iguales en precisión y recuperación. Hay una extensión, llamada puntaje , que le da a más peso para recordar que la precisión. Activado Por otro lado, si está preguntando si puede promediar los 5 $F$

F_{1} = 2 \cdot \frac{precision \cdot recall}{precision + recall}

$F_1 = 2\cdot\frac{\textrm{precision} \cdot \textrm{recall}}{\textrm{precision} + \textrm{recall}}$

F_{β}

$F_\beta$

β

$\beta$

F_{β} = (1 + β^{2}) \frac{precision \cdot recall}{(β^{2} \cdot precision) + recall}

$F_\beta = (1+\beta^2) \frac{\textrm{precision} \cdot \textrm{recall}}{(\beta^2 \cdot\textrm{precision}) + \textrm{recall}}$

F

$F$ puntajes (uno de cada pliegue), entonces la respuesta es sí. De hecho, ¡esa es la forma típica de informar el rendimiento de un sistema!

Solo tenga en cuenta que existen algunos problemas con el uso de estos valores para hacer inferencias sobre el error de generalización de los clasificadores. Por ejemplo, una prueba entre las puntuaciones para un clasificador y las puntuaciones para otro clasificador será demasiado optimista. $t$ $F$ $F$

Matt Krause
fuente

Sí, usé la primera fórmula. Esto significa que promediar el puntaje F de las diferentes pruebas arroja resultados similares al promedio de precisión y recuperación y luego calcular el puntaje F a partir de ellos. Intenté esto en los resultados que tengo y fue casi lo mismo. Gracias.

Kalaji