Intuitivamente, obtener un P / R / F1 alto en un conjunto de datos pequeño o en un conjunto de datos muy uniforme / predecible es probablemente más fácil que obtener un P / R / F1 alto en conjuntos de datos más grandes o más caóticos. Por lo tanto, una mejora en P / R / F1 en un conjunto de datos más grande y más caótico es más significativa.
Siguiendo esta intuición, es probable que necesite acceso a la salida de los métodos de "recuadro negro" para medir la diferencia en la distribución de resultados, teniendo en cuenta el tamaño y la variedad en ese conjunto. El P / R / F1 solo es probablemente muy poca información.
La prueba de significación en este entorno generalmente se realiza formando una hipótesis nula (los dos algoritmos producen siempre la misma salida) y luego calculando la probabilidad de observar la diferencia en la salida que está observando si los algoritmos fueran realmente los mismos. Si la probabilidad es inferior a 0,05, por ejemplo, rechaza la hipótesis nula y concluye que la mejora es significativa.
Este documento tiene discusiones relevantes:
http://www.aclweb.org/anthology/C00-2137