Prueba de significación basada en precisión / recuperación / F1

¿Es posible hacer una prueba de significación basada únicamente en puntajes de precisión / recuperación / F1?

Por ejemplo, si se encuentra con 2 sistemas en un documento para el que solo se informa P / R / F1 (en el mismo conjunto de datos, etc.), ¿puede realizar una prueba de significación estadística? En caso afirmativo, ¿cómo se hace eso?

statistical-significance precision-recall Vam
fuente

Respuestas:

Intuitivamente, obtener un P / R / F1 alto en un conjunto de datos pequeño o en un conjunto de datos muy uniforme / predecible es probablemente más fácil que obtener un P / R / F1 alto en conjuntos de datos más grandes o más caóticos. Por lo tanto, una mejora en P / R / F1 en un conjunto de datos más grande y más caótico es más significativa.

Siguiendo esta intuición, es probable que necesite acceso a la salida de los métodos de "recuadro negro" para medir la diferencia en la distribución de resultados, teniendo en cuenta el tamaño y la variedad en ese conjunto. El P / R / F1 solo es probablemente muy poca información.

La prueba de significación en este entorno generalmente se realiza formando una hipótesis nula (los dos algoritmos producen siempre la misma salida) y luego calculando la probabilidad de observar la diferencia en la salida que está observando si los algoritmos fueran realmente los mismos. Si la probabilidad es inferior a 0,05, por ejemplo, rechaza la hipótesis nula y concluye que la mejora es significativa.

Este documento tiene discusiones relevantes: http://www.aclweb.org/anthology/C00-2137

Pablo Mendes
fuente