¿Debo tomar decisiones basadas en medidas de evaluación micro-promedio o macro-promedio?

21

Ejecuté una validación cruzada 10 veces en diferentes algoritmos de clasificación binaria, con el mismo conjunto de datos, y recibí resultados promediados Micro y Macro. Cabe mencionar que este fue un problema de clasificación de etiquetas múltiples.

En mi caso, los verdaderos negativos y los verdaderos positivos se ponderan por igual. Eso significa que predecir correctamente los verdaderos negativos es tan importante como predecir correctamente los verdaderos positivos.

Las medidas micro promediadas son más bajas que las medidas macro promediadas. Estos son los resultados de una red neuronal y una máquina de vectores de soporte:

ingrese la descripción de la imagen aquí

También realicé una prueba de división porcentual en el mismo conjunto de datos con otro algoritmo. Los resultados fueron:

ingrese la descripción de la imagen aquí

Preferiría comparar la prueba de división porcentual con los resultados macro-promedio, pero ¿es justo? No creo que los resultados promediados en macro estén sesgados porque los verdaderos positivos y los verdaderos negativos se ponderan por igual, pero, una vez más, me pregunto si esto es lo mismo que comparar manzanas con naranjas.

ACTUALIZAR

Con base en los comentarios, mostraré cómo se calculan los promedios micro y macro.

Tengo 144 etiquetas (lo mismo que características o atributos) que quiero predecir. La precisión, la recuperación y la medida F se calculan para cada etiqueta.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

Considerando una medida de evaluación binaria B (tp, tn, fp, fn) que se calcula en función de los verdaderos positivos (tp), verdaderos negativos (tn), falsos positivos (fp) y falsos negativos (fn). Los promedios macro y micro de una medida específica se pueden calcular de la siguiente manera:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Usando estas fórmulas podemos calcular los promedios micro y macro de la siguiente manera:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Por lo tanto, las medidas micro-promedio agregan todos los tp, fp y fn (para cada etiqueta), después de lo cual se realiza una nueva evaluación binaria. Las medidas promediadas con macro agregan todas las medidas (Precisión, Recuperación o Medida F) y dividen con el número de etiquetas, que es más como un promedio.

Ahora, la pregunta es cuál usar.

Kenci
fuente
Cuando pregunta cuál usar, ¿cuál es el uso previsto? ¿Elegir entre los dos métodos, resumir resultados u otra cosa?
Sean Easter
1
El uso previsto es determinar qué modelo es el más superior y contar algo acerca de qué tan bien funciona. Descubrí que las micro medidas son superiores según: Forman, George y Martin Scholz. "De manzanas a manzanas en los estudios de validación cruzada: dificultades en la medición del rendimiento del clasificador". Boletín de Exploraciones ACM SIGKDD 12.1 (2010): 49-57.
Kenci
@ Kenci, creo que debe publicar eso como respuesta a su propia pregunta y confirmar que es la respuesta correcta. Gracias por la referencia!
fnl
FYI Micro vs puntuación ponderada de F1
Franck Dernoncourt

Respuestas:

27

Si cree que todas las etiquetas tienen un tamaño más o menos igual (tienen aproximadamente el mismo número de instancias), use cualquiera.

Si cree que hay etiquetas con más instancias que otras y desea sesgar su métrica hacia las más pobladas, use micromedia .

Si cree que hay etiquetas con más instancias que otras y desea sesgar su métrica hacia las menos pobladas (o al menos no quiere sesgar hacia las más pobladas), use macromedia .

Si el resultado de micromedia es significativamente más bajo que el de macromedia, significa que tiene una clasificación errónea en las etiquetas más pobladas, mientras que sus etiquetas más pequeñas probablemente estén clasificadas correctamente. Si el resultado de macromedia es significativamente más bajo que el de micromedia, significa que sus etiquetas más pequeñas están mal clasificadas, mientras que las más grandes probablemente estén clasificadas correctamente.

Si no está seguro de qué hacer, continúe con las comparaciones en micro y macro promedios :)

Este es un buen artículo sobre el tema.

felipeduque
fuente