Comparación de dos resultados de precisión del clasificador para la significación estadística con la prueba t

17

Quiero comparar la precisión de dos clasificadores para la significación estadística. Ambos clasificadores se ejecutan en el mismo conjunto de datos. Esto me lleva a creer que debería estar usando una prueba t de una muestra de lo que he estado leyendo .

Por ejemplo:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

¿Es esta la prueba correcta para usar? Si es así, ¿cómo calculo si la diferencia de precisión entre el clasificador es significativa?

¿O debería estar usando otra prueba?

Chris
fuente

Respuestas:

14

Probablemente optaría por la prueba de McNemar si solo entrena a los clasificadores una vez. David Barber también sugiere una prueba bayesiana bastante ordenada que me parece bastante elegante, pero que no se usa ampliamente (también se menciona en su libro ).

Solo para agregar, como dice Peter Flom, la respuesta es casi "sí" con solo mirar la diferencia en el rendimiento y el tamaño de la muestra (considero que las cifras citadas son el rendimiento del conjunto de prueba en lugar del rendimiento del conjunto de entrenamiento).

Por cierto, Japkowicz y Shah tienen un libro reciente sobre "Evaluación de algoritmos de aprendizaje: una perspectiva de clasificación" , no lo he leído, pero parece una referencia útil para este tipo de problemas.

Dikran Marsupial
fuente
1
Estoy ejecutando la validación cruzada 10 veces para obtener estos resultados. ¿Eso significa que en realidad son conjuntos de datos diferentes? Ese es el tamaño total, que se divide para prueba / tren en validación cruzada
Chris
44
Las precisiones para cada pliegue no serán independientes, lo que violará los supuestos de la mayoría de las pruebas estadísticas, pero probablemente no será un gran problema. A menudo utilizo 100 divisiones de prueba / entrenamiento al azar y luego utilizo la prueba de rango con signo emparejado de Wilcoxon (utilizo las mismas divisiones aleatorias para ambos clasificadores). Prefiero ese tipo de prueba, ya que a menudo uso pequeños conjuntos de datos (ya que estoy interesado en sobreajustar), por lo que la variabilidad entre divisiones aleatorias tiende a ser comparable a la diferencia en el rendimiento entre clasificadores.
Dikran Marsupial
2
(+1) para Wilcoxon emparejó la prueba de rango firmada (y el enlace al libro ... si el toc puede cumplir sus promesas, este libro puede convertirse en una lectura obligada de todos los NM: O)
steffen
3
También he utilizado pruebas de rango con signos, así como pruebas t combinadas para comparar clasificadores. Sin embargo, cada vez que informo que utilizo una prueba unilateral para este propósito, los revisores me hacen pasar un mal rato, ¡así que he vuelto a utilizar las pruebas a dos caras!
BGreene
2
Dado que OP aclaró en los comentarios que la pregunta era en realidad sobre validación cruzada, ¿consideraría ampliar su respuesta para cubrir ese tema? Podemos editar la Q entonces. Este es un tema importante y hay un par de preguntas muy relacionadas (o incluso duplicadas) pero ninguna tiene una buena respuesta. En un comentario anterior, recomienda utilizar una prueba emparejada en las estimaciones de CV y ​​decir que no cree que la no independencia sea un gran problema aquí. Por qué no? ¡Me parece un problema potencialmente masivo!
ameba dice Reinstate Monica
4

Puedo decirle, sin siquiera ejecutar nada, que la diferencia será altamente estadísticamente significativa. Pasa el IOTT (prueba de trauma interocular, te golpea entre los ojos).

Sin embargo, si desea hacer una prueba, puede hacerlo como una prueba de dos proporciones; esto se puede hacer con una prueba t de dos muestras.

Sin embargo, es posible que desee dividir la "precisión" en sus componentes; sensibilidad y especificidad, o falso positivo y falso negativo. En muchas aplicaciones, el costo de los diferentes errores es bastante diferente.

Peter Flom - Restablece a Monica
fuente
De acuerdo, esto será claramente significativo. Nitpick: Usarías unzn
tz
2
El porcentaje de precisión que he puesto en mi pregunta es solo un ejemplo.
Chris
0

Dado que la precisión, en este caso, es la proporción de muestras clasificadas correctamente, podemos aplicar la prueba de hipótesis sobre un sistema de dos proporciones.

p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

La estadística de prueba viene dada por

Z=p^1p^22p^(1p^)/n dónde p^=(x1+x2)/2n

Nuestra intención es demostrar que la precisión global del clasificador 2, es decir, p2p1

  • H0:p1=p2 (hipótesis nula que establece que ambos son iguales)
  • Ha:p1<p2 (hipotyesis alternativa que dice que la más nueva es mejor que la existente)

La región de rechazo viene dada por

Z<zαH0Ha

zααz0.5=1.645Z<1.6451α

Referencias

  1. R. Johnson y J. Freund, Miller and Freund's Probability and Statistics for Engineers, 8th Ed. Prentice Hall International, 2011. (Fuente primaria)
  2. Prueba de hipótesis: resumen de fórmula concisa . (Adoptado de [1])
Ébe Isaac
fuente
No deberia p^p^1p^2 ? Entonces el denominador debe ser 2n enp^=(x1+x2)/2n
Aunque estoy de acuerdo en que podría usarse una prueba de proporciones, no hay nada en la pregunta original que sugiera que una prueba unilateral sea apropiada. Además, "podríamos decir con un 95% de confianza" es una interpretación errónea común. Ver, por ejemplo, aquí: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg
@ShivaTp De hecho. Gracias por señalar la tan necesaria corrección de errores tipográficos. Editar confirmado.
Ébe Isaac