Hay muchas situaciones en las que puede entrenar varios clasificadores diferentes, o usar varios métodos de extracción de características diferentes. En la literatura, los autores a menudo dan el error de clasificación promedio sobre un conjunto de divisiones aleatorias de los datos (es decir, después de una validación cruzada doblemente anidada) y, a veces, también dan variaciones sobre el error sobre las divisiones. Sin embargo, esto por sí solo no es suficiente para decir que un clasificador es significativamente mejor que otro. He visto muchos enfoques diferentes para esto: usando pruebas de Chi-cuadrado, prueba t, ANOVA con pruebas post-hoc, etc.
¿Qué método debe usarse para determinar la significación estadística? La pregunta subyacente es: ¿Qué suposiciones debemos hacer sobre la distribución de los puntajes de clasificación?
Respuestas:
Además de la excelente respuesta de @ jb., Permítanme agregar que pueden usar la prueba de McNemar en el mismo conjunto de pruebas para determinar si un clasificador es significativamente mejor que el otro. Esto solo funcionará para problemas de clasificación (lo que el trabajo original de McNemar llama un "rasgo dicotómico"), lo que significa que los clasificadores lo hacen bien o mal, sin espacio en el medio.
fuente
Dado que la distribución de errores de clasificación es una distribución binaria (hay una clasificación errónea o no hay ninguna) --- Yo diría que usar Chi-cuadrado no es sensato.
También es razonable comparar las eficiencias de los clasificadores que funcionan en los mismos conjuntos de datos: el "Teorema de no almuerzo gratis" establece que todos los modelos tienen la misma eficiencia promedio sobre todos los conjuntos de datos, por lo que el modelo que se verá mejor dependerá solo de los conjuntos de datos elegido para entrenarlos http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .
Si está comparando la eficiencia de los modelos A y B sobre el conjunto de datos D, creo que la eficiencia promedio + media es suficiente para tomar una decisión.
Además, si uno tiene muchos modelos que tienen una eficiencia razonable (y son linealmente independientes entre sí) prefiero construir un modelo de conjunto que simplemente elegir el mejor modelo.
fuente
Recomiendo el artículo de Tom Dietterich titulado "Pruebas estadísticas aproximadas para comparar algoritmos de aprendizaje de clasificación supervisada". Aquí está el perfil del artículo en CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Del resumen: "Este artículo revisa cinco pruebas estadísticas aproximadas para determinar si un algoritmo de aprendizaje supera a otro en una tarea de aprendizaje en particular. Estas pruebas se comparan experimentalmente para determinar su probabilidad de detectar incorrectamente una diferencia cuando no existe una diferencia (error tipo I ) ... se muestra que la prueba de McNemar tiene un error bajo de Tipo I. ... "
fuente
En mi humilde opinión, no debería haber ninguna diferencia entre la distribución de puntajes y la distribución de cualquier otro tipo de datos. así que, básicamente, todo lo que tiene que verificar es si sus datos se distribuyen normalmente o no ver aquí . Por otra parte, hay grandes libros que tratan a fondo con esta pregunta ven aquí (es decir, en pocas palabras: todos ellos prueba si el resultado de dos clasificador es significativamente diferente .. y si lo hacen, se pueden combinar en un solo - modelo de conjunto)
fuente
No existe una prueba única que sea apropiada para todas las situaciones; Puedo recomendar el libro "Evaluación de algoritmos de aprendizaje" de Nathalie Japkowicz y Mohak Shah, Cambridge University Press, 2011. El hecho de que se pueda escribir un libro de casi 400 páginas sobre este tema sugiere que no es un tema directo. A menudo he descubierto que no hay una prueba que realmente se adapte a las necesidades de mi estudio, por lo que es importante tener una buena idea de las ventajas y desventajas de cualquier método que finalmente se utilice.
Un problema común es que para grandes conjuntos de datos se puede obtener una diferencia estadísticamente significativa con un tamaño del efecto que no tiene importancia práctica.
fuente