En la definición de conjuntos típicos conjuntos (en "Elementos de la teoría de la información", cap. 7.6, p. 195), utilizamos
como laentropía empíricade unasecuencianconp(xn)=∏ n i = 1 p(xi). Nunca me encontré con esta terminología antes. No se define explícitamente en ninguna parte según el índice del libro.
Mi pregunta básicamente es: ¿Por qué es la entropía empírica no , donde p ( x ) es la distribución empírica?
¿Cuáles son las diferencias y similitudes más interesantes entre estas dos fórmulas? (en términos de propiedades que comparten / no comparten).
information-theory
entropy
blubb
fuente
fuente
Respuestas:
Si los datos son , es decir, un n -secuencia de un espacio muestral X , las probabilidades puntuales empíricos son p ( x ) = 1Xnorte= x1... xnorte n X
parax∈X. Aquíδx(xi)es uno sixi=xy cero en caso contrario. Esto es, p (x)es la frecuencia relativa dexen la secuencia observada. Laentropíade la distribución de probabilidad dada por las probabilidades puntuales empíricos es
H( p )=-Σ
fuente
Entropy is defined for probability distributions. When you do not have one, but only data, and plug in a naive estimator of the probability distribution, you get empirical entropy. This is easiest for discrete (multinomial) distributions, as shown in another answer, but can also be done for other distributions by binning, etc.
A problem with empirical entropy is that it is biased for small samples. The naive estimate of the probability distribution shows extra variation due to sampling noise. Of course one can use a better estimator, e.g., a suitable prior for the multinomial parameters, but getting it really unbiased is not easy.
The above applies to conditional distributions as well. In addition, everything is relative to binning (or kernelization), so you actually have a kind of differential entropy.
fuente