Durante el entrenamiento de un clasificador binario de red neuronal simple obtengo un alto valor de pérdida, usando entropía cruzada. A pesar de esto, el valor de precisión en el conjunto de validación es bastante bueno. ¿Tiene algún significado? ¿No hay una correlación estricta entre pérdida y precisión?
Tengo en entrenamiento y validación estos valores: 0.4011 - acc: 0.8224 - val_loss: 0.4577 - val_acc: 0.7826 . Este es mi primer intento de implementar un NN, y acabo de acercarme al aprendizaje automático, por lo que no puedo evaluar adecuadamente estos resultados.
neural-networks
accuracy
usuario146655
fuente
fuente
Respuestas:
He experimentado un problema similar.
He entrenado mi clasificador binario de red neuronal con una pérdida de entropía cruzada. Aquí el resultado de la entropía cruzada en función de la época. El rojo es para el conjunto de entrenamiento y el azul es para el conjunto de prueba.
Al mostrar la precisión, tuve la sorpresa de obtener una mejor precisión para la época 1000 en comparación con la época 50, ¡incluso para el conjunto de prueba!
Para comprender las relaciones entre la entropía cruzada y la precisión, he profundizado en un modelo más simple, la regresión logística (con una entrada y una salida). A continuación, acabo de ilustrar esta relación en 3 casos especiales.
En general, el parámetro donde la entropía cruzada es mínima no es el parámetro donde la precisión es máxima. Sin embargo, podemos esperar alguna relación entre la entropía cruzada y la precisión.
[A continuación, supongo que usted sabe qué es la entropía cruzada, por qué la usamos en lugar de la precisión para entrenar el modelo, etc. Si no, lea esto primero: ¿Cómo interpretar un puntaje de entropía cruzada? ]
Ilustración 1 Esta es para mostrar que el parámetro donde la entropía cruzada es mínima no es el parámetro donde la precisión es máxima, y entender por qué.
Aquí están mis datos de muestra. Tengo 5 puntos y, por ejemplo, la entrada -1 ha conducido a la salida 0.
Entropía cruzada. Después de minimizar la entropía cruzada, obtengo una precisión de 0.6. El corte entre 0 y 1 se realiza en x = 0.52. Para los 5 valores, obtengo respectivamente una entropía cruzada de: 0.14, 0.30, 1.07, 0.97, 0.43.
Exactitud. Después de maximizar la precisión en una cuadrícula, obtengo muchos parámetros diferentes que conducen a 0.8. Esto se puede mostrar directamente, seleccionando el corte x = -0.1. Bueno, también puede seleccionar x = 0.95 para cortar los conjuntos.
En el primer caso, la entropía cruzada es grande. De hecho, el cuarto punto está muy lejos del corte, por lo que tiene una gran entropía cruzada. Es decir, obtengo respectivamente una entropía cruzada de: 0.01, 0.31, 0.47, 5.01, 0.004.
En el segundo caso, la entropía cruzada también es grande. En ese caso, el tercer punto está muy lejos del corte, por lo que tiene una gran entropía cruzada. Obtengo respectivamente una entropía cruzada de: 5e-5, 2e-3, 4.81, 0.6, 0.6.
Creo que si el modelo tiene suficiente capacidad (suficiente para contener el modelo verdadero), y si los datos son grandes (es decir, el tamaño de la muestra llega al infinito), la entropía cruzada puede ser mínima cuando la precisión es máxima, al menos para el modelo logístico . No tengo pruebas de esto, si alguien tiene una referencia, compártala.
Bibliografía: El tema que vincula la entropía cruzada y la precisión es interesante y complejo, pero no puedo encontrar artículos que traten sobre esto ... Estudiar la precisión es interesante porque a pesar de ser una regla de puntaje incorrecta, todos pueden entender su significado.
Nota: Primero, me gustaría encontrar una respuesta en este sitio web, las publicaciones que tratan sobre la relación entre la precisión y la entropía cruzada son numerosas, pero con pocas respuestas, vea: El rastreo comparable y las entropías cruzadas de prueba resultan en precisiones muy diferentes ; La pérdida de validación disminuye, pero la precisión de la validación empeora ; Duda sobre la función categórica de pérdida de entropía cruzada ; Interpretación de la pérdida logarítmica como porcentaje ...
fuente
ahstat da muy buenas ilustraciones.
Inspirado por estas ilustraciones, concluyo a 2 posibles razones. 1. El modelo es demasiado simple para extraer las características requeridas para la predicción. En su Ilustración 1, es un problema múltiple y necesita una capa más para obtener una precisión del 100%. 2. Los datos tienen demasiadas etiquetas ruidosas (compare las ilustraciones 1 y 3)
En cuanto a la Ilustración 2, explica por qué no podemos agregar demasiada regularización L1 / L2 en el modelo.
fuente