Tratando de entender la relación entre la entropía cruzada y la perplejidad. En general, para un modelo M , Perplejidad (M) = 2 ^ entropía (M) . ¿Esta relación es válida para todos los n-gramos diferentes, es decir, unigram, bigram, etc.?
natural-language
entropy
perplexity
Margalit
fuente
fuente
Respuestas:
Sí, la perplejidad siempre es igual a dos al poder de la entropía. No importa qué tipo de modelo tenga, n-gram, unigram o red neuronal.
Hay algunas razones por las cuales las personas que modelan el lenguaje prefieren la perplejidad en lugar de simplemente usar la entropía. Una es que, debido al exponente, las mejoras en la perplejidad "se sienten" como si fueran más sustanciales que la mejora equivalente en la entropía. Otra es que antes de que comenzaran a usar la perplejidad, se informó de la complejidad de un modelo de lenguaje utilizando una medición simplificada del factor de ramificación que es más similar a la perplejidad que a la entropía.
fuente
De acuerdo con la respuesta de @Aaron con una ligera modificación:
No siempre es igual a dos al poder de la entropía. En realidad, será (base para el registro) al poder de la entropía. Si ha usado e como su base, entonces sería e ^ entropía.
fuente