Para dos distribuciones discretas y , la entropía cruzada se define como
Me pregunto por qué esto sería una medida intuitiva de la distancia entre dos distribuciones de probabilidad.
Veo que es la entropía de , que mide la "sorpresa" de . es la medida que reemplaza en parte por . Todavía no entiendo el significado intuitivo detrás de la definición.
probability
distributions
cross-entropy
Kadistar
fuente
fuente
Respuestas:
La minimización de la entropía cruzada se usa a menudo como un objetivo de aprendizaje en modelos generativos donde p es la distribución verdadera yq es la distribución aprendida.
La entropía cruzada de p y q es igual a la entropía de p más la divergencia KL entre p y q.
Puede pensar en como una constante porque proviene directamente de los datos de entrenamiento y el modelo no lo aprende. Entonces, solo el término de divergencia KL es importante. La motivación para la divergencia de KL como una distancia entre las distribuciones de probabilidad es que le dice cuántos bits de información se obtienen al usar la distribución p en lugar de la aproximación q.H(p) p
Tenga en cuenta que la divergencia KL no es una medida de distancia adecuada. Por un lado, no es simétrico en p y q. Si necesita una métrica de distancia para distribuciones de probabilidad, tendrá que usar otra cosa. Pero, si está usando la palabra "distancia" de manera informal, puede usar la divergencia KL.
fuente