¿Por qué se maximiza la entropía cuando la distribución de probabilidad es uniforme?

32

Sé que la entropía es la medida de aleatoriedad de un proceso / variable y se puede definir de la siguiente manera. para una variable aleatoria conjunto : - . En el libro sobre entropía y teoría de la información de MacKay, él proporciona esta declaración en Ch2XAH(X)=xiAp(xi)log(p(xi))

La entropía se maximiza si p es uniforme.

Intuitivamente, puedo entenderlo, como si todos los puntos de datos en el conjunto se seleccionen con igual probabilidad ( es la cardinalidad del conjunto ), entonces la aleatoriedad o la entropía aumentan. Pero si sabemos que algunos puntos en el conjunto ocurrirán con más probabilidad que otros (por ejemplo, en el caso de la distribución normal, donde la concentración máxima de puntos de datos es alrededor del área de desviación estándar media y pequeña alrededor de él, entonces la aleatoriedad o la entropía debería disminuir.A1/mmAA

¿Pero hay alguna prueba matemática para esto? Al igual que la ecuación para , la diferencio con respecto a y la configuro en 0 o algo así.H(X)p(x)

En una nota al margen, ¿hay alguna conexión entre la entropía que ocurre la teoría de la información y los cálculos de entropía en química (termodinámica)?

user76170
fuente
2
Esta pregunta se responde (de paso) en stats.stackexchange.com/a/49174/919 .
whuber
Me estoy confundiendo bastante con otra declaración dada en el libro de Christopher Bishops que dice que "para una sola variable real, la distribución que maximiza la entropía es la gaussiana". También establece que "la distribución multivariada con entropía máxima, para una covarianza dada, es gaussiana". ¿Cómo es válida esta declaración? ¿No es la entropía de la distribución uniforme el máximo siempre?
user76170
66
La maximización siempre se realiza sujeta a restricciones en la posible solución. Cuando las restricciones son que toda probabilidad debe desaparecer más allá de los límites predefinidos, la solución de entropía máxima es uniforme. Cuando, en cambio, las restricciones son que la expectativa y la varianza deben ser iguales a los valores predefinidos, la solución ME es gaussiana. Las declaraciones que usted cita deben haberse hecho dentro de contextos particulares donde estas restricciones fueron establecidas o al menos implícitamente entendidas.
whuber
2
Probablemente también debería mencionar que la palabra "entropía" significa algo diferente en el contexto gaussiano que en la pregunta original aquí, porque entonces estamos discutiendo la entropía de distribuciones continuas . Esta "entropía diferencial" es un animal diferente a la entropía de distribuciones discretas. La principal diferencia es que la entropía diferencial no es invariable bajo un cambio de variables.
whuber
Entonces, ¿qué significa que la maximización siempre es con respecto a las restricciones? ¿Qué pasa si no hay restricciones? Quiero decir, ¿no puede haber una pregunta como esta? ¿Qué distribución de probabilidad tiene la entropía máxima?
user76170

Respuestas:

25

Heurísticamente, la función de densidad de probabilidad en con máxima entropía resulta ser la que corresponde a la menor cantidad de conocimiento de , en otras palabras, la distribución uniforme.{ x 1 , x 2 , . . , . x n }{x1,x2,..,.xn}{x1,x2,..,.xn}

Ahora, para una prueba más formal, considere lo siguiente:

Una función de densidad de probabilidad en es un conjunto de números reales no negativos que suman 1. La entropía es una función continua de las -tuplas , y estos puntos se encuentran en un subconjunto compacto de , por lo que hay una -tupla donde se maximiza la entropía. Queremos mostrar que esto ocurre en y en ningún otro lugar.p 1 , . . . , P n n ( p 1 , . . . , P n ) R n n ( 1 / n , . . . , 1 / n ){x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn(1/n,...,1/n)

Supongamos que no son todos iguales, digamos . (Claramente ) Encontraremos una nueva densidad de probabilidad con mayor entropía. Luego se sigue, ya que la entropía se maximiza en alguna -tupla, esa entropía se maximiza de manera única en la -tupla con para todo .p 1 < p 2 n 1 n n p i = 1 / n ipjp1<p2n1nnpi=1/ni

Desde , para pequeños positivos tenemos . La entropía de menos la entropía de es igual a ε p 1 + ε < p 2 - ε { p 1 + ε , p 2 - ε , p 3 , . . . , P n } { p 1 , p 2 , p 3 , . . . , p n }p1<p2εp1+ε<p2ε{p1+ε,p2ε,p3,...,pn}{p1,p2,p3,...,pn}

ε-p1log(1+ε

p1log(p1+εp1)εlog(p1+ε)p2log(p2εp2)+εlog(p2ε)
Para completar la prueba, queremos mostrar que esto es positivo para suficientemente pequeño . Reescribe la ecuación anterior como ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

Recordando que para pequeña , la ecuación anterior es que es positivo cuando es lo suficientemente pequeño como .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2)x

εεlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
εp1<p2

Una prueba menos rigurosa es la siguiente:

Considere primero el siguiente Lema:

Let y ser funciones continuas de densidad de probabilidad en un intervalo en los números reales, con y en . Tenemos si ambas integrales existen. Además, existe igualdad si y solo si para todo .p(x)q(x)Ip0q>0I

IplogpdxIplogqdx
p(x)=q(x)x

Ahora, supongamos que es cualquier función de densidad de probabilidad en , con . Dejando para todo , que es la entropía de . Por lo tanto, nuestro Lema dice , con igualdad si y solo si es uniforme.{ x 1 , . . . , x n } p i = p ( x i )p{x1,...,xn}pi=p(xi)qi=1/ni

i=1npilogqi=i=1npilogn=logn
qh(p)h(q)p

Además, wikipedia también tiene una breve discusión sobre esto: wiki

mitchus
fuente
11
Admiro el esfuerzo de presentar una prueba elemental (sin cálculo). Una demostración rigurosa de una línea está disponible a través de la desigualdad ponderada AM-GM al señalar que = con igualdad sostenida si todos los son iguales, QED. exp(H)(1pi)pipi1pi=n1/pi
whuber
No entiendo cómo puede ser igual a . lognlogn
user1603472
44
@ user1603472 ¿quiere decir ? Es porquei=1npilogn=logni=1npilogn=logni=1npi=logn×1
HBeel
@Roland Saqué el fuera de la suma ya que no depende de . Entonces la suma es igual a porque son las densidades de una función de masa de probabilidad. i 1 p 1 , ... , p nlogni1p1,,pn
HBeel
La misma explicación con más detalles se puede encontrar aquí: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Roland
14

La entropía en física y la teoría de la información no están relacionadas. Son más diferentes de lo que sugiere su nombre, pero claramente hay un vínculo entre ellos. El propósito de la métrica de entropía es medir la cantidad de información. Vea mi respuesta con gráficos aquí para mostrar cómo la entropía cambia de una distribución uniforme a una jorobada.

¡La razón por la cual la entropía se maximiza para una distribución uniforme es porque fue diseñada así! Sí, estamos construyendo una medida para la falta de información, por lo que queremos asignar su valor más alto a la distribución menos informativa.

Ejemplo. Te pregunté " Amigo, ¿dónde está mi auto ?" Su respuesta es "está en algún lugar de Estados Unidos entre los océanos Atlántico y Pacífico". Este es un ejemplo de la distribución uniforme. Mi auto podría estar en cualquier parte de los Estados Unidos. No obtuve mucha información de esta respuesta.

Sin embargo, si me dijiste "Vi tu auto hace una hora en la ruta 66 en dirección a Washington, DC", ya no es una distribución uniforme. Es más probable que el automóvil esté a 60 millas de distancia de DC, que en cualquier lugar cerca de Los Ángeles. Claramente hay más información aquí.

Por lo tanto, nuestra medida debe tener una entropía alta para la primera respuesta y una menor para la segunda. El uniforme debe ser la distribución menos informativa, es básicamente la respuesta "No tengo idea".

Aksakal
fuente
7

El argumento matemático se basa en la desigualdad de Jensen para funciones cóncavas. Es decir, si es una función cóncava en e son puntos en , entonces: f(x)[a,b]y1,yn[a,b]nf(y1+ynn)f(y1)++f(yn)

Aplique esto para la función cóncava y la desigualdad de Jensen para y tendrá la prueba. Tenga en cuenta que define una distribución de probabilidad discreta, por lo que su suma es 1. Lo que obtiene es , con igualdad para la distribución uniforme.y i = p ( x i ) p ( x i ) l o g ( n ) n i = 1 - p ( x i ) l o g ( p ( x i) ) )f(x)=xlog(x)yi=p(xi)p(xi)log(n)i=1np(xi)log(p(xi))

Octavian Ganea
fuente
1
De hecho, considero que la prueba de desigualdad de Jensen es una prueba mucho más profunda conceptualmente que la prueba AM-GM.
Casebash
4

En una nota al margen, ¿hay alguna conexión entre la entropía que ocurre la teoría de la información y los cálculos de entropía en química (termodinámica)?

¡Sí hay! Puedes ver el trabajo de Jaynes y muchos otros siguiendo su trabajo (como aquí y aquí , por ejemplo).

Pero la idea principal es que la mecánica estadística (y otros campos de la ciencia, también) puede verse como la inferencia que hacemos sobre el mundo .

Como lectura adicional, recomendaría el libro de Ariel Caticha sobre este tema.

kaslusimoes
fuente
1

Una explicación intuitiva:

Si ponemos más masa de probabilidad en un evento de una variable aleatoria, tendremos que quitar algo de otros eventos. Uno tendrá menos contenido de información y más peso, los otros más contenido de información y menos peso. Por lo tanto, la entropía que es el contenido de información esperado disminuirá ya que el evento con menor contenido de información se ponderará más.

Como caso extremo, imagine que un evento tiene una probabilidad de casi uno, por lo tanto, los otros eventos tendrán una probabilidad combinada de casi cero y la entropía será muy baja.

Roland
fuente
0

Idea principal: tomar derivada parcial de cada , ponerlos a cero, resolver el sistema de ecuaciones lineales.pi

Tome un número finito de donde como ejemplo. Denote .pii=1,...,nq=1i=0n1pi

H=i=0n1pilogpi(1q)logqHln2=i=0n1pilnpi(1q)lnq
Hpi=lnqpi=0
Entonces para cada , es decir, .q=piip1=p2=...=pn

Jan Fan
fuente
Me alegra que haya señalado que esta es la "idea principal", porque es solo una parte del análisis. La otra parte, que puede no ser intuitiva y en realidad es un poco más complicada, es verificar que este sea un mínimo global estudiando el comportamiento de la entropía ya que uno o más de los reducen a cero. pi
whuber