Basado en la precisión de clasificación estimada, quiero probar si un clasificador es estadísticamente mejor en un conjunto base que otro clasificador. Para cada clasificador, selecciono una muestra de entrenamiento y prueba al azar del conjunto base, entreno el modelo y pruebo el modelo. Hago esto diez veces para cada clasificador. Por lo tanto, tengo diez mediciones de precisión de clasificación estimada para cada clasificador. ¿Cómo pruebo estadísticamente si el es un mejor clasificador que el en el conjunto de datos base? ¿Qué prueba t es apropiada para usar?
machine-learning
classification
t-test
entropía
fuente
fuente
Respuestas:
Se ofrece una revisión y crítica de algunos enfoques de prueba t en Elegir entre dos algoritmos de aprendizaje basados en pruebas calibradas , Pruebas estadísticas aproximadas para comparar Algoritmos de aprendizaje de clasificación supervisados , y Al comparar clasificadores: trampas para evitar y un enfoque recomendado
fuente
No tengo el libro de Fleiss a mano, así que todo esto es IIRC.
Respondiendo la pregunta de @ JohnMoeller en los comentarios por el momento: la pregunta original es IMHO sin respuesta tal como es.
haciendo esto, terminas con una tabla de contingencia 2 x 2 que da al clasificador 1 correcto / incorrecto contra el clasificador 2 correcto / incorrecto. Cuál es el punto de partida para la prueba de McNemar . Entonces, esto es para una comparación por pares, que es más poderosa que la comparación de proporciones "independientes" (que no son completamente independientes si provienen de la extracción aleatoria de la misma muestra finita).
No puedo buscar la "letra pequeña" de McNemar en este momento, pero 30 muestras no es mucho. Por lo tanto, es posible que deba cambiar de la prueba exacta de McNemar a la de Fisher [u otra cosa] que calcule las probabilidades binomiales.
Medios de proporciones:
no importa si prueba uno y el mismo clasificador 10x con 10 casos de prueba o una vez con todos esos 100 casos (la tabla 2 x 2 solo cuenta todos los casos de prueba).
Si las 10 estimaciones de precisión para cada clasificador en la pregunta original se obtienen por retención aleatoria o validación cruzada 10 veces o 10x fuera de arranque, la suposición es que los 10 modelos sustitutos calculados para cada clasificador son equivalentes (= tienen la misma precisión), por lo que los resultados de las pruebas se pueden agrupar *. Para una validación cruzada 10 veces, se supone que el tamaño de la muestra de prueba es igual al número total de muestras de prueba. Para los otros métodos, no estoy tan seguro: puede probar el mismo caso más de una vez. Según los datos / problemas / aplicaciones, esto no equivale a tanta información como probar un nuevo caso.
fuente