Sé que la entropía es la medida de aleatoriedad de un proceso / variable y se puede definir de la siguiente manera. para una variable aleatoria conjunto : - . En el libro sobre entropía y teoría de la información de MacKay, él proporciona esta declaración en Ch2
La entropía se maximiza si p es uniforme.
Intuitivamente, puedo entenderlo, como si todos los puntos de datos en el conjunto se seleccionen con igual probabilidad ( es la cardinalidad del conjunto ), entonces la aleatoriedad o la entropía aumentan. Pero si sabemos que algunos puntos en el conjunto ocurrirán con más probabilidad que otros (por ejemplo, en el caso de la distribución normal, donde la concentración máxima de puntos de datos es alrededor del área de desviación estándar media y pequeña alrededor de él, entonces la aleatoriedad o la entropía debería disminuir.
¿Pero hay alguna prueba matemática para esto? Al igual que la ecuación para , la diferencio con respecto a y la configuro en 0 o algo así.
En una nota al margen, ¿hay alguna conexión entre la entropía que ocurre la teoría de la información y los cálculos de entropía en química (termodinámica)?
fuente
Respuestas:
Heurísticamente, la función de densidad de probabilidad en con máxima entropía resulta ser la que corresponde a la menor cantidad de conocimiento de , en otras palabras, la distribución uniforme.{ x 1 , x 2 , . . , . x n }{x1,x2,..,.xn} {x1,x2,..,.xn}
Ahora, para una prueba más formal, considere lo siguiente:
Una función de densidad de probabilidad en es un conjunto de números reales no negativos que suman 1. La entropía es una función continua de las -tuplas , y estos puntos se encuentran en un subconjunto compacto de , por lo que hay una -tupla donde se maximiza la entropía. Queremos mostrar que esto ocurre en y en ningún otro lugar.p 1 , . . . , P n n ( p 1 , . . . , P n ) R n n ( 1 / n , . . . , 1 / n ){x1,x2,..,.xn} p1,...,pn n (p1,...,pn) Rn n (1/n,...,1/n)
Supongamos que no son todos iguales, digamos . (Claramente ) Encontraremos una nueva densidad de probabilidad con mayor entropía. Luego se sigue, ya que la entropía se maximiza en alguna -tupla, esa entropía se maximiza de manera única en la -tupla con para todo .p 1 < p 2 n ≠ 1 n n p i = 1 / n ipj p1<p2 n≠1 n n pi=1/n i
Desde , para pequeños positivos tenemos . La entropía de menos la entropía de es igual a ε p 1 + ε < p 2 - ε { p 1 + ε , p 2 - ε , p 3 , . . . , P n } { p 1 , p 2 , p 3 , . . . , p n }p1<p2 ε p1+ε<p2−ε {p1+ε,p2−ε,p3,...,pn} {p1,p2,p3,...,pn}
ε-p1log(1+ε
Recordando que para pequeña , la ecuación anterior es que es positivo cuando es lo suficientemente pequeño como .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2) x
Una prueba menos rigurosa es la siguiente:
Considere primero el siguiente Lema:
Let y ser funciones continuas de densidad de probabilidad en un intervalo en los números reales, con y en . Tenemos si ambas integrales existen. Además, existe igualdad si y solo si para todo .p(x) q(x) I p≥0 q>0 I
Ahora, supongamos que es cualquier función de densidad de probabilidad en , con . Dejando para todo , que es la entropía de . Por lo tanto, nuestro Lema dice , con igualdad si y solo si es uniforme.{ x 1 , . . . , x n } p i = p ( x i )p {x1,...,xn} pi=p(xi) qi=1/n i
Además, wikipedia también tiene una breve discusión sobre esto: wiki
fuente
La entropía en física y la teoría de la información no están relacionadas. Son más diferentes de lo que sugiere su nombre, pero claramente hay un vínculo entre ellos. El propósito de la métrica de entropía es medir la cantidad de información. Vea mi respuesta con gráficos aquí para mostrar cómo la entropía cambia de una distribución uniforme a una jorobada.
¡La razón por la cual la entropía se maximiza para una distribución uniforme es porque fue diseñada así! Sí, estamos construyendo una medida para la falta de información, por lo que queremos asignar su valor más alto a la distribución menos informativa.
Ejemplo. Te pregunté " Amigo, ¿dónde está mi auto ?" Su respuesta es "está en algún lugar de Estados Unidos entre los océanos Atlántico y Pacífico". Este es un ejemplo de la distribución uniforme. Mi auto podría estar en cualquier parte de los Estados Unidos. No obtuve mucha información de esta respuesta.
Sin embargo, si me dijiste "Vi tu auto hace una hora en la ruta 66 en dirección a Washington, DC", ya no es una distribución uniforme. Es más probable que el automóvil esté a 60 millas de distancia de DC, que en cualquier lugar cerca de Los Ángeles. Claramente hay más información aquí.
Por lo tanto, nuestra medida debe tener una entropía alta para la primera respuesta y una menor para la segunda. El uniforme debe ser la distribución menos informativa, es básicamente la respuesta "No tengo idea".
fuente
El argumento matemático se basa en la desigualdad de Jensen para funciones cóncavas. Es decir, si es una función cóncava en e son puntos en , entonces:f(x) [a,b] y1,…yn [a,b] n⋅f(y1+…ynn)≥f(y1)+…+f(yn)
Aplique esto para la función cóncava y la desigualdad de Jensen para y tendrá la prueba. Tenga en cuenta que define una distribución de probabilidad discreta, por lo que su suma es 1. Lo que obtiene es , con igualdad para la distribución uniforme.y i = p ( x i ) p ( x i ) l o g ( n ) ≥ ∑ n i = 1 - p ( x i ) l o g ( p ( x i) ) )f(x)=−xlog(x) yi=p(xi) p(xi) log(n)≥∑ni=1−p(xi)log(p(xi))
fuente
¡Sí hay! Puedes ver el trabajo de Jaynes y muchos otros siguiendo su trabajo (como aquí y aquí , por ejemplo).
Pero la idea principal es que la mecánica estadística (y otros campos de la ciencia, también) puede verse como la inferencia que hacemos sobre el mundo .
Como lectura adicional, recomendaría el libro de Ariel Caticha sobre este tema.
fuente
Una explicación intuitiva:
Si ponemos más masa de probabilidad en un evento de una variable aleatoria, tendremos que quitar algo de otros eventos. Uno tendrá menos contenido de información y más peso, los otros más contenido de información y menos peso. Por lo tanto, la entropía que es el contenido de información esperado disminuirá ya que el evento con menor contenido de información se ponderará más.
Como caso extremo, imagine que un evento tiene una probabilidad de casi uno, por lo tanto, los otros eventos tendrán una probabilidad combinada de casi cero y la entropía será muy baja.
fuente
Idea principal: tomar derivada parcial de cada , ponerlos a cero, resolver el sistema de ecuaciones lineales.pi
Tome un número finito de donde como ejemplo. Denote .pi i=1,...,n q=1−∑n−1i=0pi
fuente