¿Cuándo decidimos probar el teléfono a kHz? ¿Siempre ha sido así? ¿Por qué hicimos eso? ¿Es porque las velocidades de bits más altas no se pueden transferir tan rápido? ¿Y estas razones todavía cuentan? Y si no, ¿por qué todavía no hay un nuevo estándar? ¿Es cierto que kHz es la frecuencia de muestreo más baja posible para transferir voz comprensible?
Estoy tratando de encontrar fuentes para esto, pero no parece haber mucha información al respecto.
Respuestas:
Si a alguien le importa cavar, creo que descubrirán que antes de que Bell Telephone comenzara a multiplexar las líneas de voz, investigaron mucho sobre el contenido de frecuencia de la voz humana. Originalmente utilizaron grupos de prueba para desarrollar la unidad de audio bel y la distribución de potencia de la voz, así como la sensibilidad del oído humano a varias frecuencias. Desarrollaron una característica de paso de banda que alcanzó su punto máximo alrededor de 2.1 KHz y rodó por debajo de 300 y más de 3000 HZ. Eso dio una buena voz humana cuando se hace correctamente. Todo eso fue análogo.
La radio AM amplió eso a 5 KHz para incluir música que era aceptable para la mayoría de la gente cuando éramos jóvenes y teníamos buenos oídos. Los transformadores de retorno de televisión fueron diseñados para funcionar a ~ 17.5 KHz porque había un número mágico para la reproducción de imágenesy la mayoría de la gente no podía escuchar el quejido . La radio de banda lateral única se comercializó en la década de 1960 y necesitaba frecuencias de corte muy nítidas. Usé radios con filtros a 2.1 y 3.1 KHz. 2.1 tenía algunas características del Pato Donald. 3.1 sonaba bien, nuevamente con orejas jóvenes. El paso de banda de audio se aumentó a 20 KHZ o mejor con FM porque las frecuencias de portadora más altas podrían manejar un mayor ancho de banda para una mejor reproducción de música . Apila algunos xilófonos o campanas u otros instrumentos agudos y pueden obtener suficiente energía armónica en las frecuencias más altas. OTOH, como era el estado, la mayoría de la gente no puede escucharlo.
La conclusión es que cualquiera que diga que necesita un ancho de banda de 20 KHz para la voz no está prestando atención. 3 KHz lo harán, 5 le dará un margen. Si no suena bien, entonces el problema es algo más que el ancho de banda.
Cuando se estaba desarrollando la señalización digital, las personas que saben descubrieron que no importa cuán extraña sea una forma de onda, podría descomponerse en un conjunto de ondas sinusoidales. La mezcla armónica de esas ondas produjo el típico patrón puntiagudo de voz o música. Por último, Nyquist realizó una investigación sobre la frecuencia de muestreo digital necesaria para reproducir una onda sinusoidal a una frecuencia dada. Resulta que se necesitan 2 muestras para formar una onda sinusoidal, por lo que la frecuencia más alta que se reproducirá es la mitad de la frecuencia de muestreo. Desea 5 KHz de audio y luego muestree a 10 KHz. Bien por la voz. Desea música de mayor fidelidad de la que la mayoría de la gente puede escuchar y luego probar a 40 KHz más o menos para obtener más de 20 KHz.
Un tidbit más es el muestreo vs bitrate. Si muestreas a una frecuencia dada, multiplícala por la longitud de la palabra y obtendrás la tasa de bits mínima necesaria para producir la señal deseada. Reduzca la tasa de bits y el tamaño de la palabra de muestra se cortará para cumplir con la nueva tasa de bits a una tasa de muestra dada. Esa es toda la codificación "sin pérdidas". Todo esto es de memoria e intentando encontrar datos actuales. Está ahí si alguien busca citas. No me voy a molestar porque me estoy haciendo demasiado viejo para que me importe. Me cansé de leer muchos problemas míticos obvios cuando me interesé en hacer algo de captura de audio.
fuente
Se pensó que proporcionaba un buen equilibrio entre calidad y ancho de banda. En realidad, una sola señal de voz ocupa 8 kHz, no 8 kbps, de ancho de banda. Cada muestra se cuantifica en 8 bits, produciendo una velocidad de 64 kbps que se usa universalmente.
Otras lecturas:
fuente
Otra razón es que, antes de la transmisión de la señal digital, el audio del teléfono solía ser analógico modulado en un canal de banda estrecha para que se pudieran enviar múltiples llamadas telefónicas por un solo enlace analógico (relés de torre de RF y microondas, etc.). para que primero se filtre en paso bajo para reducir el ancho de banda requerido para cada canal a fin de empacar el mayor número de canales por un conducto analógico (pero incluso entonces, en un mal día, se puede escuchar alguna llamada telefónica adyacente como fondo ruido). Dado que las personas se acostumbraron a las llamadas de larga distancia que carecían de frecuencias superiores a 3,5 kHz, este ancho de banda se volvió comercialmente aceptable incluso para llamadas locales.
Sin embargo, se utilizaron anchos de banda aún más estrechos para las comunicaciones de exploración espacial temprana, por lo que 3.5 kHz pueden no ser el mínimo para el habla comprensible.
fuente
Para aclarar muchos conceptos erróneos.
Primero, nunca ha habido un módem de 56k "baudios". La velocidad en baudios se trata de un cambio de estado, y se maximizó a 1200 baudios. Cualquier cosa más allá de eso requería una codificación más sofisticada.
En segundo lugar, la audición humana percibe no solo los tonos fundamentales, sino también muchos órdenes de contenido armónico mucho más allá de lo fundamental. Cuando se elimina ese contenido armónico, el audio suena menos natural y agradable. El audio de mayor resolución (que 8Khz) es más inteligible y más agradable para el oído.
Tercero, Nyquist trabaja dentro de un dominio de tiempo fijo. Si comienza a muestrear en el momento exacto de un pico o valle, solo necesita 2 veces la frecuencia de muestreo a la frecuencia. Sin embargo, en el mundo real, sus puntos de muestra pueden ocurrir en cualquier desplazamiento aleatorio en el tiempo hasta el pico o la depresión, por lo que se requiere una mayor frecuencia de muestreo. Por ejemplo, si muestrea una onda sinusoidal y su momento de muestreo ocurre exactamente a 90 grados de compensación desde el inicio de la onda, sus datos sugerirán una línea recta en lugar de una onda. Para tonos fundamentales esto es crítico. Para contenido armónico, es más agradable tenerlo, con rendimientos decrecientes cerca del extremo superior del rango audible. Nyquist aplicado al procesamiento de audio es uno de los teoremas más mal interpretados que existen.
fuente
Como han dicho otros 4 kHz es estándar, porque, naturalmente, donde la voz humana es Source1 source2 . Encontré este artículo que menciona que las frecuencias fundamentales son mucho más bajas en el artículo de 85Hz-300Hz . Si esto funciona o no en la práctica, no puedo decirlo con certeza. pero vale la pena intentarlo
fuente
El sistema telefónico analógico tenía un filtro de pared de ladrillo a 3.9 KHz. Esto pasó toda la información necesaria para el habla inteligible y permitió el empaquetado del ancho de banda. A muchas personas se les ha lavado el cerebro al pensar en los anchos de banda necesarios. Los anchos de banda de 20-20,000 Hz son excelentes para la música, pero son completamente innecesarios para reproducir el habla humana.
¿Alguien le preguntará a Nyquist cómo enviamos señales de fax de 56 KBaud a través de líneas analógicas con filtros de pared de ladrillo de 3.9 KHz. ¿Alguien recuerda máquinas de fax?
La nota más alta en un piano es 4186 Hz. El rango de frecuencia de las voces humanas es inferior a alrededor de 1000 Hz. Middle C en un piano es de aproximadamente 262 Hz, solo para poner algo de perspectiva sobre las cosas.
fuente