Sin citar fuentes, Wikipedia define la entropía cruzada de distribuciones discretas y como
¿Quién fue el primero en comenzar a usar esta cantidad? ¿Y quién inventó este término? Miré en:
JE Shore y RW Johnson, "Derivación axiomática del principio de máxima entropía y el principio de mínima entropía cruzada", Teoría de la información, Transacciones IEEE, vol. 26, no. 1, pp. 26-37, enero de 1980.
Seguí su introducción a
A. Wehrl, "Propiedades generales de la entropía", Reviews of Modern Physics, vol. 50, no. 2, págs. 221-260, abril de 1978.
quien nunca usa el término.
Tampoco lo hace
S. Kullback y R. Leibler, "Sobre información y suficiencia", The Annals of Mathematical Statistics, vol. 22, no. 1, págs. 79-86, 1951.
Miré en
TM Cover y JA Thomas, Elementos de la teoría de la información (Serie Wiley en telecomunicaciones y procesamiento de señales). Wiley-Interscience, 2006.
y
I. Bueno, "Entropía máxima para la formulación de hipótesis, especialmente para tablas de contingencia multidimensionales", The Annals of Mathematical Statistics, vol. 34, no. 3, págs. 911-934, 1963.
pero ambos artículos definen la entropía cruzada como sinónimo de divergencia KL.
El papel original
CE Shannon, "Una teoría matemática de la comunicación", revista técnica del sistema Bell, vol. 27 de 1948.
No menciona la entropía cruzada (y tiene una definición extraña de "entropía relativa": "La relación entre la entropía de una fuente y el valor máximo que podría tener mientras se limita a los mismos símbolos").
Finalmente, busqué en algunos libros y papeles viejos de Tribus.
¿Alguien sabe cómo se llama la ecuación anterior y quién la inventó o tiene una buena presentación?
fuente
Gracias a la sugerencia de @ Itamar, encontré una mención en:
IJ Good, "Some Terminology and Notation in Information Theory," Proceedings of the IEE - Part C: Monographs, vol. 103, no. 3, págs. 200-204, marzo de 1956.
Todavía sería realmente útil para mí encontrar una buena presentación de la entropía cruzada.
fuente
Gracias por esto - buen resumen de la literatura de fondo. El artículo de 1980 de Shore and Johnson en IEEE es un buen comienzo, pero el puntero de @ itamar a la monografía Good de 1956 es aún mejor. El concepto parece provenir del trabajo de Shannon, con la nota AMS de 1951 de Kullback & Leibler como el origen del uso actual del término. En cuanto al origen del término "entropía cruzada" se relaciona con las redes neuronales artificiales, existe un término utilizado en un artículo en Science, presentado en 1994, publicado en 1995, por GE Hinton, P. Dayan, BJ Frey y RM Neal, en que hay un uso temprano del término "Máquina de Hemholtz", posiblemente el primero. Url para copia: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf En ese documento, "El algoritmo Wake-sleep para redes neuronales no supervisadas", la nota antes de la ecuación # 5 dice: "Cuando hay muchas formas alternativas de describir un vector de entrada, es posible diseñar un esquema de codificación estocástico que aproveche el entropía a través de descripciones alternativas [1]. El costo es entonces: "(ver el artículo para la ecuación # 5)" El segundo término es entonces la entropía de la distribución que los pesos de reconocimiento asignan a las diversas representaciones alternativas ". Más adelante en el documento, la ecuación # 5 se reescribe como la ecuación # 8, con el último término descrito como la divergencia Kullback-Leibler entre la distribución de probabilidad inicial y la distribución de probabilidad posterior. El documento establece: "Entonces, para dos modelos generativos que asignan igual probabilidad a d, ) Este documento todavía describe el proceso de minimización para este algoritmo específico como minimizar la divergencia Kullback-Leibler, pero parece que podría ser donde el término "entropía a través de descripciones alternativas" se acortó a solo "entropía cruzada". Para un ejemplo numérico de entropía cruzada, usando TensorFlow, vea la publicación aquí, es útil: ) Este documento todavía describe el proceso de minimización para este algoritmo específico como minimizar la divergencia Kullback-Leibler, pero parece que podría ser donde el término "entropía a través de descripciones alternativas" se acortó a solo "entropía cruzada". Para un ejemplo numérico de entropía cruzada, usando TensorFlow, vea la publicación aquí, es útil: /programming/41990250/what-is-cross-entropy Tenga en cuenta que la solución de CE = 0.47965 se deriva simplemente tomando el registro natural de la probabilidad de .619. En el ejemplo anterior, el uso de la codificación "one hot" significa que las otras dos probabilidades iniciales y posteriores se ignoran debido a la multiplicación por la probabilidad inicial de valor cero, en la suma de la entropía cruzada.
fuente