Son dos métricas diferentes para evaluar el rendimiento de su modelo que generalmente se usa en diferentes fases.
La pérdida se usa a menudo en el proceso de entrenamiento para encontrar los "mejores" valores de parámetros para su modelo (por ejemplo, pesos en la red neuronal). Es lo que intenta optimizar en la capacitación actualizando los pesos.
La precisión es más desde una perspectiva aplicada. Una vez que encuentre los parámetros optimizados anteriores, utilice estas métricas para evaluar la precisión de la predicción de su modelo en comparación con los datos reales.
Usemos un ejemplo de clasificación de juguetes. Desea predecir el género a partir del peso y la estatura. Tiene 3 datos, son los siguientes: (0 significa hombre, 1 representa mujer)
y1 = 0, x1_w = 50kg, x2_h = 160cm;
y2 = 0, x2_w = 60kg, x2_h = 170cm;
y3 = 1, x3_w = 55kg, x3_h = 175cm;
Utiliza un modelo de regresión logística simple que es y = 1 / (1 + exp- (b1 * x_w + b2 * x_h))
¿Cómo encuentras b1 y b2? Primero define una pérdida y utiliza el método de optimización para minimizar la pérdida de forma iterativa actualizando b1 y b2.
En nuestro ejemplo, una pérdida típica para este problema de clasificación binaria puede ser: (se debe agregar un signo menos delante del signo de suma)

No sabemos qué deberían ser b1 y b2. Hagamos una suposición aleatoria digamos b1 = 0.1 y b2 = -0.03. Entonces, ¿cuál es nuestra pérdida ahora?



entonces la pérdida es

Luego, su algoritmo de aprendizaje (p. Ej., Descenso de gradiente) encontrará una manera de actualizar b1 y b2 para disminuir la pérdida.
¿Qué pasa si b1 = 0.1 y b2 = -0.03 es el b1 y b2 final (salida del descenso del gradiente), cuál es la precisión ahora?
Supongamos que y_hat> = 0.5, decidimos que nuestra predicción es femenina (1). de lo contrario sería 0. Por lo tanto, nuestro algoritmo predice y1 = 1, y2 = 1 e y3 = 1. ¿Cuál es nuestra precisión? Hacemos predicciones incorrectas en y1 e y2 y hacemos la correcta en y3. Entonces ahora nuestra precisión es 1/3 = 33.33%
PD: En la respuesta de Amir , se dice que la retropropagación es un método de optimización en NN. Creo que se trataría como una forma de encontrar gradiente para pesos en NN. Los métodos comunes de optimización en NN son GradientDescent y Adam.