¿Por qué la entropía cruzada se ha convertido en la función de pérdida estándar de clasificación y no en la divergencia de Kullbeck Leibler?

15

La entropía cruzada es idéntica a la divergencia KL más la entropía de la distribución objetivo. KL es igual a cero cuando las dos distribuciones son iguales, lo que me parece más intuitivo que la entropía de la distribución objetivo, que es lo que es la entropía cruzada en una coincidencia.

No digo que haya más información en una de las otras, excepto que una visión humana puede encontrar un cero más intuitivo que positivo. Por supuesto, uno generalmente usa un método evaluativo para ver realmente qué tan bien ocurre la clasificación. ¿Pero es la elección de la entropía cruzada sobre KL histórica?

Josh Albert
fuente

Respuestas:

12

Cuando se trata de problemas de clasificación en el aprendizaje automático, la entropía cruzada y la divergencia KL son iguales . Como ya se dijo en la pregunta, la fórmula general es esta:

H(p,q)=H(p)+DKL(p||q)

pqH(p,q)H(p)D

p

p=[0,...,1,...,0]

que es básicamente una distribución de función delta . Pero la entropía de la función delta es cero, por lo tanto, la divergencia KL simplemente es igual a la entropía cruzada.

H(p)0

Máxima
fuente
0

La entropía cruzada es una entropía, no una diferencia de entropía.

Una forma más natural y quizás intuitiva de conceptualizar los criterios de categorización es a través de una relación en lugar de una definición.

H(PAG,Q)-H(PAG)=reKL(PAGQ)=-yoPAG(yo)Iniciar sesiónQ(yo)PAG(yo)

Esto sigue paralelos, identificados por Claude Shannon con John von Neumann, entre la termodinámica mecánica cuántica y la teoría de la información. La entropía no es una cantidad absoluta. Es relativo, por lo que ni la entropía ni la entropía cruzada pueden calcularse, pero su diferencia puede ser para el caso discreto de arriba o su hermano continuo a continuación.

H(PAG,Q)-H(PAG)=reKL(PAGQ)=--pag(X)Iniciar sesiónq(X)pag(X)reX

Aunque podamos ver H(...)=... in the literature, with no H'(...) on the right hand side of the equation, it is not technically accurate. In such cases there is always some implied entropy to which the entropy on the left hand side is relative.

FauChristian
fuente