La entropía cruzada es idéntica a la divergencia KL más la entropía de la distribución objetivo. KL es igual a cero cuando las dos distribuciones son iguales, lo que me parece más intuitivo que la entropía de la distribución objetivo, que es lo que es la entropía cruzada en una coincidencia.
No digo que haya más información en una de las otras, excepto que una visión humana puede encontrar un cero más intuitivo que positivo. Por supuesto, uno generalmente usa un método evaluativo para ver realmente qué tan bien ocurre la clasificación. ¿Pero es la elección de la entropía cruzada sobre KL histórica?
fuente