¿Qué es la entropía empírica?

19

En la definición de conjuntos típicos conjuntos (en "Elementos de la teoría de la información", cap. 7.6, p. 195), utilizamos

como laentropía empíricade unasecuencianconp(xn)= n i = 1 p(xi). Nunca me encontré con esta terminología antes. No se define explícitamente en ninguna parte según el índice del libro.

1nlogp(xn)
np(xn)=i=1np(xi)

Mi pregunta básicamente es: ¿Por qué es la entropía empírica no , donde p ( x ) es la distribución empírica?xp^(x)log(p^(x))p^(x)

¿Cuáles son las diferencias y similitudes más interesantes entre estas dos fórmulas? (en términos de propiedades que comparten / no comparten).

blubb
fuente
¿No son las dos expresiones algebraicamente iguales?
whuber
1
@whuber: No, creo que son diferentes cantidades, con diferentes propósitos. Tenga en cuenta que el primero usa la medida verdadera supuesta conocida a priori. El segundo no. p
Cardenal
3
Al primero le preocupa la acumulación de entropía a lo largo del tiempo y cómo se compara con la verdadera entropía del sistema. El SLLN y el CLT dicen mucho sobre cómo se comporta. El segundo se refiere a la estimación de la entropía a partir de los datos y algunas de sus propiedades también se pueden obtener a través de las mismas dos herramientas que acabamos de mencionar. Pero, mientras que el primero es imparcial, el segundo no está bajo ninguna . Puedo completar algunos detalles si sería útil. p
Cardenal
1
@cardinal: Si desea proporcionar el comentario anterior como una respuesta (tal vez también explicar lo SLLN y CLT son - No sé estos?) Yo con mucho gusto upvote ...
blubb
Ok, intentaré publicar más más tarde. Mientras tanto, SLLN = "Ley fuerte de grandes números" y CLT = "Teorema del límite central". Estas son abreviaturas bastante estándar que probablemente encontrarás de nuevo. Salud. :)
cardenal

Respuestas:

16

Si los datos son , es decir, un n -secuencia de un espacio muestral X , las probabilidades puntuales empíricos son p ( x ) = 1Xnorte=X1...XnortenX paraxX. Aquíδx(xi)es uno sixi=xy cero en caso contrario. Esto es, p (x)es la frecuencia relativa dexen la secuencia observada. Laentropíade la distribución de probabilidad dada por las probabilidades puntuales empíricos es H( p )=-Σ

p^(x)=1n|{ixi=x}|=1ni=1nδx(xi)
xXδx(xi)xi=xp^(x)x
H(p^)=xXp^(x)logp^(x)=xX1ni=1nδx(xi)logp^(x)=1ni=1nlogp^(xi).
The latter identity follows by interchanging the two sums and noting that
xXδx(xi)logp^(x)=logp^(xi).
From this we see that
H(p^)=1nlogp^(xn)
with p^(xn)=i=1np^(xi) and using the terminology from the question this is the empirical entropy of the empirical probability distribution. As pointed out by @cardinal in a comment, 1nlogp(xn) is the empirical entropy of a given probability distribution with point probabilities p.
NRH
fuente
3
(+1) This provides a nice illustration of what Cover and Thomas refer to as the "strange self-referential character" of the entropy. However, I'm not sure the answer actually addresses (directly) the OP's apparent concerns. :)
cardinal
@cardinal, I know, and the answer was just a long comment to make this particular point. I did not want to repeat your points.
NRH
1
You should not feel bad or hesitate to post your own answer including expansion on my comments or those of others. I'm particularly slow and bad about posting answers, and will never take offense if you or others post answers that incorporate aspects of things I may have previously commented briefly on. Quite the contrary, in fact. Cheers.
cardinal
7

Entropy is defined for probability distributions. When you do not have one, but only data, and plug in a naive estimator of the probability distribution, you get empirical entropy. This is easiest for discrete (multinomial) distributions, as shown in another answer, but can also be done for other distributions by binning, etc.

A problem with empirical entropy is that it is biased for small samples. The naive estimate of the probability distribution shows extra variation due to sampling noise. Of course one can use a better estimator, e.g., a suitable prior for the multinomial parameters, but getting it really unbiased is not easy.

The above applies to conditional distributions as well. In addition, everything is relative to binning (or kernelization), so you actually have a kind of differential entropy.

scellus
fuente
3
Debemos tener cuidado con lo que nos referimos como la entropía empírica aquí. Tenga en cuenta que el estimador del complemento siempre tiene un sesgo bajo para todos los tamaños de muestra, aunque el sesgo disminuirá a medida que aumente el tamaño de la muestra. No solo es difícil obtener estimadores imparciales para la entropía, sino que es imposible en el caso general. Ha habido una investigación bastante intensa en esta área durante los últimos años, particularmente en la literatura de neurociencia. Existen muchos resultados negativos, de hecho.
cardenal