La entropía de Shannon es el negativo de la suma de las probabilidades de cada resultado multiplicado por el logaritmo de probabilidades para cada resultado. ¿Para qué sirve el logaritmo en esta ecuación?
¡Una respuesta intuitiva o visual (a diferencia de una respuesta profundamente matemática) recibirá puntos extra!
entropy
intuition
sequence-analysis
Histelheim
fuente
fuente
Respuestas:
La entropía de Shannon es una cantidad que satisface un conjunto de relaciones.
En resumen, el logaritmo es hacer que crezca linealmente con el tamaño del sistema y "comportarse como información".
El primero significa que la entropía de lanzar una monedanorte veces es norte veces la entropía de lanzar una moneda:
O simplemente para ver cómo funciona cuando se lanzan dos monedas diferentes (tal vez injusto - con caras con probabilidadp1 y colas pags2 para la primera moneda, y q1 y q2 para la segunda)
- ∑i = 12∑j = 12pagsyoqjIniciar sesión( pyoqj) = - ∑i = 12∑j = 12pagsyoqj( registro( pyo) + log( qj) )
= - ∑i = 12∑j = 12pagsyoqjIniciar sesión( pyo) - ∑i = 12∑j = 12pagsyoqjIniciar sesión( qj) = - ∑i = 12pagsyoIniciar sesión( pyo) - ∑j = 12qjIniciar sesión( qj)
por lo que las propiedades dellogaritmo(logaritmo del producto es la suma de logaritmos) son cruciales.
Pero también la entropía de Rényi tiene esta propiedad (es la entropía parametrizada por un número realα , que se convierte en entropía de Shannon para α → 1 ).
Sin embargo, aquí viene la segunda propiedad: la entropía de Shannon es especial, ya que está relacionada con la información. Para tener una sensación intuitiva, puede mirarH=∑ipilog(1pi)
como el promedio delog(1/p) .
Podemos llamar a la información delog(1/p) . ¿Por qué? Porque si todos los eventos ocurren con probabilidad p , significa que hay eventos 1/p . Para saber qué evento ha sucedido, necesitamos usar bits de log(1/p) (cada bit duplica la cantidad de eventos que podemos distinguir).
Puede sentirse ansioso "OK, si todos los eventos tienen la misma probabilidad, tiene sentido usarlog(1/p) como una medida de información. Pero si no lo son, ¿por qué promediar información tiene sentido?" - Y es una preocupación natural.
Pero resulta que tiene sentido - fuente de Shannon teorema de codificación dice que una cadena con las letras uncorrelted con probabilidades{pi}i de longitud n no puede comprimirse (en promedio) a cadena binaria más corto que nH . Y de hecho, podemos utilizar la codificación de Huffman para comprimir la cadena y llegar muy cerca de nH .
Ver también:
fuente
Esto es lo mismo que las otras respuestas, pero creo que la mejor manera de explicarlo es ver lo que dice Shannon en su artículo original.
Fuente: Shannon, A Mathematical Theory of Communication (1948) [ pdf ].
fuente
fuente
Aquí hay una explicación extravagante. Se podría decir que 2 libros del mismo tamaño tienen el doble de información que 1 libro, ¿verdad? (Considerando que un libro es una cadena de bits). Bueno, si cierto resultado tiene probabilidad P, entonces se podría decir que su contenido de información es sobre el número de bits que necesita para escribir 1 / P. (por ejemplo, si P = 1/256, son 8 bits). La entropía es solo el promedio de la longitud de ese bit de información, sobre todos los resultados.
fuente
Shannon proporcionó una prueba matemática de este resultado que ha sido cuidadosamente seleccionada y ampliamente aceptada. El propósito y la importancia del logaritmo en la ecuación de entropía son, por lo tanto, independientes de los supuestos y la prueba.
Esto no lo hace fácil de entender, pero en última instancia es la razón por la que aparece el logaritmo.
He encontrado útiles las siguientes referencias además de las enumeradas en otros lugares:
fuente
Resumen:
Ejemplo:
Hagámoslo:
Simulación:
Resultados:
Que pasa Está casi cerca, pero no tan cerca como esperaba. ¿Es el PRNG de Python tratando de decir una broma lenta? ¿O se equivoca Shannon? ¿O es, Dios no lo quiera, mi comprensión es incorrecta? De cualquier manera AYUDA. SOS ya amigo.
fuente
fuente
Esta pregunta se planteó hace dos años y ya ha habido muchas respuestas increíbles, pero me gustaría agregar la mía que me ayudó mucho.
La pregunta es
El logaritmo (generalmente basado en 2) se debe a la desigualdad de Kraft .
Una ilustración intuitiva y una respuesta visual (como lo requirió, pero más específicamente para la desigualdad de Kraft) se articula en este árbol de código de papel y la desigualdad de Kraft .
fuente
Según su no aceptación de las respuestas ya existentes, creo que lo que está buscando es la razón por la cual Shannon usó el logaritmo en su fórmula en primer lugar. En otras palabras, la filosofía de la misma.
Descargo de responsabilidad : estoy en este campo durante una semana, viniendo aquí por tener la pregunta como tú . Si tiene más conocimiento sobre esto, hágamelo saber.
Tengo esta pregunta después de leer uno de los artículos más importantes de Ulanowicz, Incremento de la entropía: ¿muerte por calor o armonías perpetuas? . Este es el párrafo que explica por qué la fórmula tiene -log (p) en lugar de (1-p):
Parece que Shannon eligió el logaritmo sin ninguna razón. Simplemente "olió" que debería usar el logaritmo. ¿Por qué Newton eligió la operación de multiplicación en su fórmula F = m * a?
Tenga en cuenta que en ese momento, no tenía idea sobre la entropía :
Entonces mi respuesta es: no hay razón para esto. Él eligió esto porque simplemente funcionó mágicamente.
fuente
La entropía se define como el logaritmo de la media geométrica del coeficiente multinomial que expresa el número de estados en los que puede estar un sistema:
Los logaritmos aparecen en la fórmula después de usar la aproximación de Stirling del factorial (vea esta explicación )
fuente
El registro proviene de la derivación de una función H que satisface ciertos requisitos naturales. Ver pág. 3 seg. 2 de esta fuente:
http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf
Dados los axiomas, si llevas a cabo la optimización, obtienes una función única (hasta constantes) con un registro en ella.
Todas las respuestas anteriores son correctas, excepto que interpretan el registro, pero no explican la fuente del mismo.
fuente
Supongo que su pregunta es más sobre el "significado" de ese logaritmo y por qué cada componente contribuye al significado general de la fórmula, en lugar del mero formalismo que muestra la coherencia de la definición a ciertos requisitos.
De ahora en adelante, discutiré cómo la GENERALIDAD afecta la fórmula de entropía final.
Ahora, siéntese, relájese y observe cuán bellamente funciona la Entropía de Shannon: se basa en la suposición (razonable) de que los mensajes que son más GENERALES son, en consecuencia, más FRECUENTES.
Por ejemplo, diré que está lloviendo si es una lluvia promedio, fuerte o muy fuerte. Por lo tanto, propuso codificar la GENERALIDAD de los mensajes en función de cuán FRECUENTES son ... y ahí está:
La ecuación se puede interpretar como: los mensajes raros tendrán una codificación más larga porque son menos generales, por lo que necesitan más bits para codificarse y son menos informativos. Por lo tanto, tener mensajes más específicos y raros contribuirá más a la entropía que tener muchos mensajes generales y frecuentes.
La mayor entropía es cuando tenemos un sistema con muchos mensajes raros y específicos. La entropía más baja con mensajes frecuentes y generales. En el medio, tenemos un espectro de sistemas equivalentes de entropía que pueden tener mensajes raros y generales o mensajes frecuentes pero específicos.
fuente
No creo que sea posible darle una respuesta universal "intuitiva". Le daré una respuesta intuitiva para algunas personas, como los físicos. El logaritmo está ahí para obtener la energía promedio del sistema. Aquí hay detalles.
Shannon usó una palabra " entropía " porque adaptó el concepto de la mecánica estadística . En mecánica estadística hay una distribución seminal que lleva el nombre de Boltzmann. Curiosamente, ¡es una distribución importante ahora en el aprendizaje automático!
¿Es esto lo suficientemente intuitivo para ti? Es para mí, pero fui un físico teórico en vidas pasadas. Además, puede llegar a un nivel más profundo de intuición al vincular conceptos de termodinámica aún más antiguos, como la temperatura y los trabajos de Boltzmann y Clausius.
fuente