¿Cuál es la forma correcta de probar la importancia de los resultados de clasificación?

21

Hay muchas situaciones en las que puede entrenar varios clasificadores diferentes, o usar varios métodos de extracción de características diferentes. En la literatura, los autores a menudo dan el error de clasificación promedio sobre un conjunto de divisiones aleatorias de los datos (es decir, después de una validación cruzada doblemente anidada) y, a veces, también dan variaciones sobre el error sobre las divisiones. Sin embargo, esto por sí solo no es suficiente para decir que un clasificador es significativamente mejor que otro. He visto muchos enfoques diferentes para esto: usando pruebas de Chi-cuadrado, prueba t, ANOVA con pruebas post-hoc, etc.

¿Qué método debe usarse para determinar la significación estadística? La pregunta subyacente es: ¿Qué suposiciones debemos hacer sobre la distribución de los puntajes de clasificación?

tdc
fuente
2
¿Podría publicar documentos de ejemplo con: "He visto muchos enfoques diferentes para esto, usando pruebas de Chi-cuadrado, prueba t, ANOVA con pruebas post-hoc, etc."? Estoy realmente interesado en eso.
jb.

Respuestas:

9

Además de la excelente respuesta de @ jb., Permítanme agregar que pueden usar la prueba de McNemar en el mismo conjunto de pruebas para determinar si un clasificador es significativamente mejor que el otro. Esto solo funcionará para problemas de clasificación (lo que el trabajo original de McNemar llama un "rasgo dicotómico"), lo que significa que los clasificadores lo hacen bien o mal, sin espacio en el medio.

carlosdc
fuente
¿Qué pasa en el escenario cuando el clasificador puede pasar? Como en él dice no lo sabe. ¿Todavía puedes usar la prueba de McNemar entonces?
S0rin
5

Dado que la distribución de errores de clasificación es una distribución binaria (hay una clasificación errónea o no hay ninguna) --- Yo diría que usar Chi-cuadrado no es sensato.

También es razonable comparar las eficiencias de los clasificadores que funcionan en los mismos conjuntos de datos: el "Teorema de no almuerzo gratis" establece que todos los modelos tienen la misma eficiencia promedio sobre todos los conjuntos de datos, por lo que el modelo que se verá mejor dependerá solo de los conjuntos de datos elegido para entrenarlos http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

Si está comparando la eficiencia de los modelos A y B sobre el conjunto de datos D, creo que la eficiencia promedio + media es suficiente para tomar una decisión.

Además, si uno tiene muchos modelos que tienen una eficiencia razonable (y son linealmente independientes entre sí) prefiero construir un modelo de conjunto que simplemente elegir el mejor modelo.

jb.
fuente
Pero para un solo clasificador, termina con un conjunto de puntajes (por ejemplo, MSE con más de 100 divisiones), que podría estar en el rango [0,1], por ejemplo. Creo que sería demasiado costoso tomar los resultados de cada ejecución y analizarlos.
tdc
Sí. Pero en este caso, mean + stddev es suficiente para probar si uno es significativamente mejor que el otro, al igual que con cualquier otra medición.
jb.
2
No estoy muy seguro. Mean & stddev asume Gaussianity para empezar, y en segundo lugar, esto no tiene en cuenta cuántas comparaciones se están haciendo (por ejemplo, podría ser necesaria la corrección de Bonferroni )
tdc
1
Es lo mismo en la teoría básica de medición. Supongamos que tenemos un micrómetro y queremos verificar si dos barras tienen el mismo diámetro, tomamos 100 mediciones de ambas barras y verificamos si la superposición media + estándar. En ambos casos (medición de varas y métrica modelo) simplemente asumimos la distribución gaussiana de resultados, solo un argumento sensato es el teorema del límite central .
jb.
3

Recomiendo el artículo de Tom Dietterich titulado "Pruebas estadísticas aproximadas para comparar algoritmos de aprendizaje de clasificación supervisada". Aquí está el perfil del artículo en CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Del resumen: "Este artículo revisa cinco pruebas estadísticas aproximadas para determinar si un algoritmo de aprendizaje supera a otro en una tarea de aprendizaje en particular. Estas pruebas se comparan experimentalmente para determinar su probabilidad de detectar incorrectamente una diferencia cuando no existe una diferencia (error tipo I ) ... se muestra que la prueba de McNemar tiene un error bajo de Tipo I. ... "

Eric Ringger
fuente
2

En mi humilde opinión, no debería haber ninguna diferencia entre la distribución de puntajes y la distribución de cualquier otro tipo de datos. así que, básicamente, todo lo que tiene que verificar es si sus datos se distribuyen normalmente o no ver aquí . Por otra parte, hay grandes libros que tratan a fondo con esta pregunta ven aquí (es decir, en pocas palabras: todos ellos prueba si el resultado de dos clasificador es significativamente diferente .. y si lo hacen, se pueden combinar en un solo - modelo de conjunto)

Dov
fuente
Creo que es muy probable que no se distribuyan normalmente. En el caso habitual, los puntajes serán positivos y sesgados hacia un extremo del rango (1 o 0, dependiendo de si está utilizando la precisión o el error como medida).
tdc
@tdc: este caso de distribución de funciones (número de clasificaciones erróneas) -> (número de modelos con este recuento de clasificaciones erróneas) sería, en mi opinión, una distribución de Poisson similar.
jb.
@Dov: Probar qué modelo es significativamente mejor (esa es la pregunta OP) y probar si son diferentes es algo muy diferente.
jb.
@jb. Gracias. pero dije significativamente diferente no mejor ...
Dov
@Dov tu primer enlace está roto: no puedo decir a dónde se supone que debe apuntar.
Tamzin Blake
2

No existe una prueba única que sea apropiada para todas las situaciones; Puedo recomendar el libro "Evaluación de algoritmos de aprendizaje" de Nathalie Japkowicz y Mohak Shah, Cambridge University Press, 2011. El hecho de que se pueda escribir un libro de casi 400 páginas sobre este tema sugiere que no es un tema directo. A menudo he descubierto que no hay una prueba que realmente se adapte a las necesidades de mi estudio, por lo que es importante tener una buena idea de las ventajas y desventajas de cualquier método que finalmente se utilice.

Un problema común es que para grandes conjuntos de datos se puede obtener una diferencia estadísticamente significativa con un tamaño del efecto que no tiene importancia práctica.

Dikran Marsupial
fuente