Buena precisión a pesar del alto valor de pérdida

15

Durante el entrenamiento de un clasificador binario de red neuronal simple obtengo un alto valor de pérdida, usando entropía cruzada. A pesar de esto, el valor de precisión en el conjunto de validación es bastante bueno. ¿Tiene algún significado? ¿No hay una correlación estricta entre pérdida y precisión?

Tengo en entrenamiento y validación estos valores: 0.4011 - acc: 0.8224 - val_loss: 0.4577 - val_acc: 0.7826 . Este es mi primer intento de implementar un NN, y acabo de acercarme al aprendizaje automático, por lo que no puedo evaluar adecuadamente estos resultados.

usuario146655
fuente
3
¿Observa un alto valor de pérdida solo en el conjunto de entrenamiento o la validación también? ¿Hay una gran caída en la precisión o pérdida al comparar el conjunto de entrenamiento y el conjunto de validación? Algunas cifras serían útiles
Hugh

Respuestas:

20

He experimentado un problema similar.

He entrenado mi clasificador binario de red neuronal con una pérdida de entropía cruzada. Aquí el resultado de la entropía cruzada en función de la época. El rojo es para el conjunto de entrenamiento y el azul es para el conjunto de prueba.

Entropía cruzada en función de la época.

Al mostrar la precisión, tuve la sorpresa de obtener una mejor precisión para la época 1000 en comparación con la época 50, ¡incluso para el conjunto de prueba!

Precisión en función de la época.

Para comprender las relaciones entre la entropía cruzada y la precisión, he profundizado en un modelo más simple, la regresión logística (con una entrada y una salida). A continuación, acabo de ilustrar esta relación en 3 casos especiales.

En general, el parámetro donde la entropía cruzada es mínima no es el parámetro donde la precisión es máxima. Sin embargo, podemos esperar alguna relación entre la entropía cruzada y la precisión.

[A continuación, supongo que usted sabe qué es la entropía cruzada, por qué la usamos en lugar de la precisión para entrenar el modelo, etc. Si no, lea esto primero: ¿Cómo interpretar un puntaje de entropía cruzada? ]

Ilustración 1 Esta es para mostrar que el parámetro donde la entropía cruzada es mínima no es el parámetro donde la precisión es máxima, y ​​entender por qué.

Aquí están mis datos de muestra. Tengo 5 puntos y, por ejemplo, la entrada -1 ha conducido a la salida 0. Muestra de 5 puntos

Entropía cruzada. Después de minimizar la entropía cruzada, obtengo una precisión de 0.6. El corte entre 0 y 1 se realiza en x = 0.52. Para los 5 valores, obtengo respectivamente una entropía cruzada de: 0.14, 0.30, 1.07, 0.97, 0.43.

Exactitud. Después de maximizar la precisión en una cuadrícula, obtengo muchos parámetros diferentes que conducen a 0.8. Esto se puede mostrar directamente, seleccionando el corte x = -0.1. Bueno, también puede seleccionar x = 0.95 para cortar los conjuntos.

En el primer caso, la entropía cruzada es grande. De hecho, el cuarto punto está muy lejos del corte, por lo que tiene una gran entropía cruzada. Es decir, obtengo respectivamente una entropía cruzada de: 0.01, 0.31, 0.47, 5.01, 0.004.

En el segundo caso, la entropía cruzada también es grande. En ese caso, el tercer punto está muy lejos del corte, por lo que tiene una gran entropía cruzada. Obtengo respectivamente una entropía cruzada de: 5e-5, 2e-3, 4.81, 0.6, 0.6.

ununsiPequeño ejemplo de datos

norte=100un=0,3si=0.5 0.5

sisiunConjunto medio

un

un=0,3

norte=10000un=1si=0 0

Datos bastante grandes

Creo que si el modelo tiene suficiente capacidad (suficiente para contener el modelo verdadero), y si los datos son grandes (es decir, el tamaño de la muestra llega al infinito), la entropía cruzada puede ser mínima cuando la precisión es máxima, al menos para el modelo logístico . No tengo pruebas de esto, si alguien tiene una referencia, compártala.

Bibliografía: El tema que vincula la entropía cruzada y la precisión es interesante y complejo, pero no puedo encontrar artículos que traten sobre esto ... Estudiar la precisión es interesante porque a pesar de ser una regla de puntaje incorrecta, todos pueden entender su significado.

Nota: Primero, me gustaría encontrar una respuesta en este sitio web, las publicaciones que tratan sobre la relación entre la precisión y la entropía cruzada son numerosas, pero con pocas respuestas, vea: El rastreo comparable y las entropías cruzadas de prueba resultan en precisiones muy diferentes ; La pérdida de validación disminuye, pero la precisión de la validación empeora ; Duda sobre la función categórica de pérdida de entropía cruzada ; Interpretación de la pérdida logarítmica como porcentaje ...

ahstat
fuente
Muy buenas ilustraciones. Inspirado por estas ilustraciones, concluyo a 2 posibles razones. 1. El modelo es demasiado simple para extraer las características requeridas para la predicción. En su Ilustración 1, es un problema múltiple y necesita una capa más para obtener una precisión del 100%.
Diansheng
-1

ahstat da muy buenas ilustraciones.

Inspirado por estas ilustraciones, concluyo a 2 posibles razones. 1. El modelo es demasiado simple para extraer las características requeridas para la predicción. En su Ilustración 1, es un problema múltiple y necesita una capa más para obtener una precisión del 100%. 2. Los datos tienen demasiadas etiquetas ruidosas (compare las ilustraciones 1 y 3)

En cuanto a la Ilustración 2, explica por qué no podemos agregar demasiada regularización L1 / L2 en el modelo.

Diansheng
fuente