Hasta hoy sabía que un bit es una variable o un espacio en la memoria que puede contener un valor de Uno (alto) o Cero (bajo). Este es el concepto que aprendí al estudiar programación de computadoras, microprocesador o bus de datos, etc.
Pero después de comenzar el curso sobre teoría de la información, descubrí que ese bit se expresa como el contenido de información de un símbolo en el mensaje. Esto se calcula tomando el logaritmo (base 2) de la inversa de la probabilidad de ocurrencia del símbolo.
¿Son estos dos conceptos iguales? Por un lado, un bit es una variable que puede almacenar cero o uno. Por otro lado, un bit es la incertidumbre asociada con uno de los dos símbolos con una probabilidad de ocurrencia de 0.5. Entonces, ¿1 bit en programación de computadora o código ASCII significa 1 bit en contenido de información de fuente o teoría de la información?
Una pequeña edición: aquí hay una cosa que encuentro problemas para entender este tema. Ver, en la transferencia de datos de alfabetos ingleses, si usamos código ASCII, básicamente representamos cada símbolo con 8 bits. Supongamos que es 00000000 para a, 00000001 para b, etc. Así que esencialmente estamos asignando 8 niveles de cuantización para cada símbolo.
Pero cuando la teoría de la información entra en juego, tomamos en cuenta la probabilidad de cada símbolo. 'E' tiene la frecuencia más alta, donde 'Z' tiene la más baja. Entonces, el contenido promedio de información se reduce a 3 o 4 bits, ¿verdad?
Mi libro dice: 'La entropía o el contenido de información promedio es el número promedio mínimo de bits requerido para representar cada muestra sin distorsión'. Entonces, en este caso, para una transferencia de datos eficiente, ¿estamos creando un máximo de cuatro niveles de cuantificación para cada símbolo? Porque, en promedio, llevan información por valor de 4 bits. Si es así, ¿no es lo mismo en teoría de la información que en programación de computadoras, transferencia de datos o código ASCII, etc.?
Probablemente entiendas que claramente soy un novato aquí: p
fuente
Respuestas:
No son lo mismo, pero están relacionados. En particular, si observa una memoria de computadora que contiene bits de "computadora", donde cada bit puede considerarse aleatorio e independiente de todos los demás bits, y hay aproximadamente el 50% de ceros, entonces la memoria también contiene aproximadamente "teoría de la información "bits"M M
Por supuesto, este no suele ser el caso: los bits de la computadora generalmente están correlacionados y no son aleatorios de manera uniforme. Por eso se pueden comprimir. Los programas de compresores como LZW ("codificadores de origen" en el lenguaje de la teoría de la información) funcionan, en cierto sentido, haciendo que cada bit de la computadora contenga un bit de información.
Editado para agregar: este ejemplo puede aclarar la distinción. Considere una fuente sin memoria con dos salidas, y , con probabilidad 0.5 para cada una. Claramente, la información en cada mensaje es un bit (información), pero su longitud es de tres bits (computadora). Un codificador de origen, como el algoritmo Huffman, codificará fácilmente los mensajes a y , comprimiendo la salida de origen. Puede extrapolar fácilmente este ejemplo a una fuente que produce texto codificado en ASCII.m1=000 m2=001 c1=0 c2=1
Tenga en cuenta que, en el caso de los idiomas escritos en general y el inglés en particular, nadie sabe cuál es la entropía de origen real, porque no hay un modelo para ello. Es por eso que hay concursos para la mejor compresión de grandes cuerpos de texto; nadie está realmente seguro de cuál es el algoritmo de compresión óptimo para el inglés.
fuente
El bit es una unidad de medida y las cantidades múltiples se miden en bits. No es que la programación y la teoría de la información signifiquen cosas diferentes. Es que la memoria y el contenido de información representan cantidades conceptualmente diferentes.
Por ejemplo, podemos tomar la contraseña '' 123456 ''. Si está codificado en UTF-8, requiere 6 * 8 = 48 bits de memoria. Para fines del mundo real, su contenido de información es de aproximadamente 10 bits. Bit significa lo mismo en ambos casos, la cantidad que se mide es lo que es diferente. Si comprime la contraseña, la cantidad de memoria que necesita disminuye, pero el contenido de la información no cambiará.
Una analogía: las cantidades físicas como la gravedad y la fuerza electromagnética se miden en Newtons pero representan diferentes tipos de interacciones. Puedes ver empíricamente que la unidad Newton representa la misma idea en ambos casos: la gravedad y la fuerza electromagnética pueden equilibrarse entre sí (levitación magnética).
Espero que eso ayude :)
fuente
En el bus de datos, en teoría podemos hacerlo mejor de lo que dice la teoría de la información. Sé cómo construir un circuito que me permita enviar 8 bits en paralelo por 6 cables. Esto implica un truco con diodos y resistencias de subida / bajada que permite usar los tres estados de no encendido de un cable digital para transmitir información. Con 3 estados de 6 líneas, obtengo 729 estados posibles, lo que me permite transportar EOF, INT, CLK y desconectado en el canal principal y todavía tengo mucho espacio (esto solo usa 518 de los 729 estados).
fuente