Quiero comparar la precisión de dos clasificadores para la significación estadística. Ambos clasificadores se ejecutan en el mismo conjunto de datos. Esto me lleva a creer que debería estar usando una prueba t de una muestra de lo que he estado leyendo .
Por ejemplo:
Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000
¿Es esta la prueba correcta para usar? Si es así, ¿cómo calculo si la diferencia de precisión entre el clasificador es significativa?
¿O debería estar usando otra prueba?
Puedo decirle, sin siquiera ejecutar nada, que la diferencia será altamente estadísticamente significativa. Pasa el IOTT (prueba de trauma interocular, te golpea entre los ojos).
Sin embargo, si desea hacer una prueba, puede hacerlo como una prueba de dos proporciones; esto se puede hacer con una prueba t de dos muestras.
Sin embargo, es posible que desee dividir la "precisión" en sus componentes; sensibilidad y especificidad, o falso positivo y falso negativo. En muchas aplicaciones, el costo de los diferentes errores es bastante diferente.
fuente
Dado que la precisión, en este caso, es la proporción de muestras clasificadas correctamente, podemos aplicar la prueba de hipótesis sobre un sistema de dos proporciones.
La estadística de prueba viene dada por
Nuestra intención es demostrar que la precisión global del clasificador 2, es decir,p2 p1
La región de rechazo viene dada por
Referencias
fuente