Estoy tratando de medir ahora mucha información no redundante (real) que contiene mi archivo. Algunos llaman a esto la cantidad de entropía.
Por supuesto, existe el estándar p (x) log {p (x)}, pero creo que Shannon solo lo estaba considerando desde el punto de vista de transmitir a través de un canal. Por lo tanto, la fórmula requiere un tamaño de bloque (digamos en bits, 8 típicamente). Para un archivo grande, este cálculo es bastante inútil, ignorando correlaciones de corta a larga distancia entre símbolos.
Existen métodos de árbol binario y Ziv-Lempel, pero estos parecen de naturaleza altamente académica.
La compresibilidad también se considera una medida de entropía, pero parece que no hay un límite inferior en cuanto al grado de compresión. Para mi archivo hiss.wav,
- hiss.wav original = 5.2 MB
- entropía a través de la fórmula de Shannon = 4.6 MB
- hiss.zip = 4.6 MB
- hiss.7z = 4.2 MB
- hiss.wav.fp8 = 3.3 MB
¿Existe algún método razonablemente factible para medir cuánta entropía existe dentro de hiss.wav?
Respuestas:
gzip
Debido a este resultado de Lempel y Ziv, la entropía de una fuente se puede aproximar comprimiendo una secuencia larga de muestras usando el algoritmo Lempel-Ziv. Esto no estima la entropía de las muestras específicas, que no es un concepto bien definido (una secuencia constante tiene cero entropía), sino la entropía de la fuente que lo genera.
Un concepto relacionado es la entropía algorítmica , también conocida como complejidad de Kolmogorov . Es la longitud del programa más corto que genera su archivo. Esta cantidad tiene sentido para un archivo individual. En el caso de un archivo generado por una fuente aleatoria, el teorema de Lempel-Ziv muestra que la entropía algorítmica de un archivo está limitada, con alta probabilidad, por su entropía de Shannon. Desafortunadamente, la entropía algorítmica no es computable, por lo que es más un concepto teórico.
Para completar la imagen, sugiero leer el artículo de Shannon sobre Predicción y entropía del inglés impreso para un enfoque diferente para estimar la entropía de una fuente.
fuente