¿Cómo comparar estadísticamente el rendimiento de los clasificadores de aprendizaje automático?

29

Basado en la precisión de clasificación estimada, quiero probar si un clasificador es estadísticamente mejor en un conjunto base que otro clasificador. Para cada clasificador, selecciono una muestra de entrenamiento y prueba al azar del conjunto base, entreno el modelo y pruebo el modelo. Hago esto diez veces para cada clasificador. Por lo tanto, tengo diez mediciones de precisión de clasificación estimada para cada clasificador. ¿Cómo pruebo estadísticamente si el es un mejor clasificador que el en el conjunto de datos base? ¿Qué prueba t es apropiada para usar?dolunassyoFyomir1dolunassyoFyomir2

entropía
fuente
¿Probaste los clasificadores en las mismas muestras? es decir, muestra1, c1 (muestra1), c2 (muestra1)? ¿O usó muestras diferentes para cada clasificador?
John Moeller
La prueba t emparejada sería apropiada en este escenario.
GEL
1
@lewellen: la precisión es una proporción: las pruebas t generalmente no son apropiadas.
cbeleites apoya a Monica el
3
@JohnMoeller: "diferencia de proporciones" sería un término de búsqueda, independiente o dependiente que aún no conocemos. Si está emparejado: prueba de McNemar. Supongo que la prueba t significa un tamaño de muestra bastante pequeño, por lo que posiblemente una aproximación normal no sea una buena idea. Me gustaría ir a Métodos Estadísticos tarifas y proporciones para buscar detalles.
cbeleites apoya a Monica el
2
@JohnMoeller: Estoy diciendo que cada precisión es una proporción. Si desea compararlos, utilice métodos para "diferencia de proporciones". Expandí esto en una respuesta para evitar comentarios interminables.
cbeleites apoya a Monica el

Respuestas:

14

Se ofrece una revisión y crítica de algunos enfoques de prueba t en Elegir entre dos algoritmos de aprendizaje basados ​​en pruebas calibradas , Pruebas estadísticas aproximadas para comparar Algoritmos de aprendizaje de clasificación supervisados , y Al comparar clasificadores: trampas para evitar y un enfoque recomendado

entropía
fuente
Dietterich dice: "La distribución binomial se puede aproximar bien mediante una distribución normal para valores razonables de ". Hasta el momento, no nos dijo que tiene una n razonable . Los 30 casos de @ JohnMoeller son, en mi humilde opinión, muy pocos para la aproximación normal (al menos sin ningún conocimiento sobre p 1 y p 2 ). nortenortepags1pags2
cbeleites apoya a Monica el
Tengo al menos 4000 registros por clase disponibles en el conjunto de datos base, por lo tanto, la muestra que selecciono puede ser menos que esto. El mayor inconveniente con las pruebas de diferencia de proporciones es que ignoran la "variación interna del algoritmo de aprendizaje". Creo que esto es importante para un clasificador como una red neuronal, que estoy usando.
entropía
bueno, esa es una situación completamente diferente de la que intervino JohnMoeller. Si quiere decir inestabilidad del modelo por "variación interna": puede medir esto. Actualizaré mi respuesta.
cbeleites apoya a Monica el
Para aclarar, 30 es el número de veces que selecciono conjuntos de partición de prueba / tren, no el número de puntos de prueba que selecciono.
John Moeller
@JohnMoeller: lo siento, entendí mal eso (viniendo de un campo donde "una muestra" es una muestra física de algún tipo).
cbeleites apoya a Monica el
10

No tengo el libro de Fleiss a mano, así que todo esto es IIRC.

Respondiendo la pregunta de @ JohnMoeller en los comentarios por el momento: la pregunta original es IMHO sin respuesta tal como es.

Supongamos que tengo 30 muestras, y pruebo c1 y c2 en cada muestra, y registro la precisión de cada una en cada muestra.

haciendo esto, terminas con una tabla de contingencia 2 x 2 que da al clasificador 1 correcto / incorrecto contra el clasificador 2 correcto / incorrecto. Cuál es el punto de partida para la prueba de McNemar . Entonces, esto es para una comparación por pares, que es más poderosa que la comparación de proporciones "independientes" (que no son completamente independientes si provienen de la extracción aleatoria de la misma muestra finita).

No puedo buscar la "letra pequeña" de McNemar en este momento, pero 30 muestras no es mucho. Por lo tanto, es posible que deba cambiar de la prueba exacta de McNemar a la de Fisher [u otra cosa] que calcule las probabilidades binomiales.


Medios de proporciones:
no importa si prueba uno y el mismo clasificador 10x con 10 casos de prueba o una vez con todos esos 100 casos (la tabla 2 x 2 solo cuenta todos los casos de prueba).

Si las 10 estimaciones de precisión para cada clasificador en la pregunta original se obtienen por retención aleatoria o validación cruzada 10 veces o 10x fuera de arranque, la suposición es que los 10 modelos sustitutos calculados para cada clasificador son equivalentes (= tienen la misma precisión), por lo que los resultados de las pruebas se pueden agrupar *. Para una validación cruzada 10 veces, se supone que el tamaño de la muestra de prueba es igual al número total de muestras de prueba. Para los otros métodos, no estoy tan seguro: puede probar el mismo caso más de una vez. Según los datos / problemas / aplicaciones, esto no equivale a tanta información como probar un nuevo caso.

k

knortepags^=knorteσ2(pags^)=σ2(knorte)=pags(1-pags)norte

cbeleites apoya a Monica
fuente
Ah ok Es lo último que aclara las cosas, al menos para mí. Gracias.
John Moeller
Gracias por la respuesta. Simplemente no está claro sobre el procedimiento a seguir. Dices preformación de validación cruzada 10 veces en un solo conjunto de datos. Mida la precisión en la muestra de retención, es decir, calcule una matriz de confusión de 2x2. Sume las diez matrices de confusión 2x2. Realice la prueba de McNemar en la matriz de confusión agregada 2x2.
entropía
@entropía: 1. La tabla de contingencia 2x2 no es la matriz de confusión. 2. nueva muestra cada vez versus probar ambos clasificadores en los mismos datos de prueba: las pruebas emparejadas son más poderosas (y posibles aquí). Ver la respuesta actualizada.
cbeleites apoya a Monica el
Perdón por eso, sí, tabla de contingencia. ¿Estoy en lo cierto al decir que la prueba de McNemar también se traduce directamente en un problema de varias clases?
entropía
@cbeleites muchas gracias por la respuesta !!! Creo que ahora has respondido mis preguntas exactamente. Sin embargo, todavía no entiendo el procedimiento exacto a seguir. ¿Le importaría seguir elaborando el último párrafo?
entropía