¿Por qué elegimos 44,1 kHz como frecuencia de muestreo de grabación?

21

Los oídos de las personas pueden escuchar sonidos cuyas frecuencias oscilan entre 20 Hz y 20 kHz. Basado en el teorema de Nyquist, la velocidad de grabación debe ser de al menos 40 kHz. ¿Es la razón para elegir 44.1 kHz?

new_comer_forever
fuente
44
Fue elegido por su compatibilidad con las velocidades de cuadros de video. Ver en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F
endolith
Las frecuencias superiores a alrededor de 12-15k agregan poco o ningún valor musicalmente. La mayoría de las personas mayores de 40 años tendrán poca audibilidad útil por encima de ese nivel.
Chris Heath

Respuestas:

32

Es cierto que, como cualquier convención, la elección de 44,1 kHz es una especie de accidente histórico. Hay algunas otras razones históricas.

Por supuesto, la frecuencia de muestreo debe superar los 40 kHz si desea un audio de alta calidad con un ancho de banda de 20 kHz.

Se habló de hacer 48.0 kHz (era muy congruente con las películas de 24 cuadros / segundo y los 30 cuadros / segundo aparentes en la televisión norteamericana), pero dado el tamaño físico de 120 mm, había un límite en la cantidad de datos que El CD podría retener, y dado que se necesitaba un esquema de detección y corrección de errores y que requiere cierta redundancia en los datos, la cantidad de datos lógicos que el CD podría almacenar (aproximadamente 700 MB) es aproximadamente la mitad de la cantidad de datos físicos. Dado todo eso, a una velocidad de 48 kHz, nos dijeron que no podía contener todo el noveno de Beethoven, pero que podía contener todo el noveno en un disco a una velocidad ligeramente más lenta. Entonces 48 kHz está fuera.

Aún así, ¿por qué 44.1 y no 44.0 o 45.0 kHz o algún buen número redondo?

Entonces, en el momento, existía un producto a fines de la década de 1970 llamado Sony F1 que fue diseñado para grabar audio digital en una cinta de video fácilmente disponible (Betamax, no VHS). Eso fue a 44.1 kHz (o más precisamente 44.056 kHz). Por lo tanto, esto facilitaría la transferencia de grabaciones, sin remuestreo e interpolación, de la F1 al CD o en la otra dirección.

Entiendo cómo llega allí es que la velocidad de exploración horizontal de NTSC TV fue de 15.750 kHz y 44.1 kHz es exactamente 2.8 veces mayor. No estoy completamente seguro, pero creo que lo que eso significa es que puede tener tres pares de muestras estéreo por línea horizontal, y por cada 5 líneas, donde normalmente tendría 15 muestras, hay 14 muestras más una muestra adicional para algunos comprobación de paridad o redundancia en la F1. 14 muestras para 5 líneas es lo mismo que 2.8 muestras por línea horizontal y con 15,750 líneas por segundo, eso es 44,100 muestras por segundo.

Ahora, desde que se introdujo la televisión en color, tuvieron que reducir ligeramente la velocidad de la línea horizontal a 15734 líneas por segundo. Ese ajuste lleva a las 44.056 muestras por segundo en la Sony F1.

robert bristow-johnson
fuente
8

Mire http://www1.cs.columbia.edu/~hgs/audio/44.1.html por ejemplo. Debe usar una frecuencia de muestreo de más de 40 kHz debido a los filtros antisolapamiento. Debe tener alguna reserva de frecuencia para evitar la distorsión de la señal debido a la pendiente de respuesta del filtro. Sony corp sugirió el valor real de 44,1 kHz cuando se discutió el estándar de grabación de audio en 1979. Usaron esta frecuencia ampliamente para ese momento.

Entonces es generalmente una razón histórica.

Serj
fuente
6

En la transición a los formatos digitales, el audio se almacenó en una forma de onda de pseudo-video que podría verse como blanco o negro (que representa el formato binario).

La tasa de campo y la estructura utilizadas por el estándar de televisión son las siguientes para video de 60 Hz: 245 líneas por campo (excluidas las primeras 35 líneas en blanco). Con tres muestras por línea que hacen 60 x 245 x 3 = 44100 = 44.1 KHz.

Esta convención se utilizó más tarde para el formato de CD, debido a problemas de compatibilidad de equipos (el primer equipo utilizado para producir maestros de CD utilizados para la replicación de CD se basó en video).

Fuente: El arte de la reproducción del sonido, p. 228

mhbuur
fuente
si eso es lo que hace la F1, debo decir "estoy corregido". Supuse que la F1 estaba usando las líneas en blanco.
Robert Bristow-Johnson
hola, acabo de leer aquí que "la codificación de color NTSC se usa con la señal de televisión del Sistema M, que consiste en 30 / 1.001 (aproximadamente 29.97) cuadros de video entrelazados por segundo. Cada cuadro está compuesto por dos campos, cada uno compuesto por 262.5 líneas de escaneo, para un total de 525 líneas de escaneo. 483 líneas de escaneo forman el ráster visible. El resto (el intervalo de supresión vertical) permite la sincronización vertical y el retroceso ". así que incluso 490 líneas usan algunas de las líneas en blanco (NTSC original).
robert bristow-johnson
0

Parece que el límite de audición para los humanos podría ser mucho más alto que 20 kHz si se mira desde una perspectiva de resolución de tiempo "dinámica" en lugar de las típicas ondas sinusoidales estáticas. También comentarios interesantes sobre el margen entre 20kHz y 22 kHz para el filtrado de reconstrucción. En realidad, ha habido un trabajo silencioso e interesante de Peter Craven sobre el filtrado optimizado en el dominio del tiempo que defiende al menos 96 kHz para la reproducción de alta fidelidad.

Pawel

Pawel
fuente
bueno, hay una manera de averiguarlo. se llama Prueba ciega AB . no necesita ser doble ciego (pero normalmente lo es). y las pruebas AB son mejores que las pruebas ABX en mi opinión.
Robert Bristow-Johnson
0

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F El teorema de muestreo Nyquist – Shannon dice que la frecuencia de muestreo debe ser mayor que el doble de la frecuencia máxima que uno desea reproducir. Dado que el rango de audición humana es de aproximadamente 20 Hz a 20,000 Hz, la frecuencia de muestreo tuvo que ser mayor de 40 kHz.

Además, las señales deben filtrarse en paso bajo antes del muestreo para evitar el alias. Si bien un filtro de paso bajo ideal pasaría perfectamente las frecuencias por debajo de 20 kHz (sin atenuarlas) y cortaría perfectamente las frecuencias por encima de 20 kHz, dicho filtro ideal es teóricamente imposible (no es causal), por lo que en la práctica es necesaria una banda de transición, donde las frecuencias están parcialmente atenuadas. Cuanto más ancha es esta banda de transición, más fácil y económico es hacer un filtro anti-aliasing. La frecuencia de muestreo de 44,1 kHz permite una banda de transición de 2,05 kHz.

Además, 44.100 es el producto de los cuadrados de los primeros cuatro números primos (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) y, por lo tanto, tiene muchos factores pequeños útiles.

Zhong
fuente
entonces, si cambiamos nuestra unidad de tiempo del segundo al "farg" , que es 1.001 segundos, ¿qué le hace eso al 44100 y sus muchos pequeños factores útiles?
Robert Bristow-Johnson
-2

Busque [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone para obtener una descripción. Un teorema llamado el teorema de muestreo de Nyquist establece que para muestrear una señal de X Hz sin pérdida significativa de calidad, necesita muestrear a 2X la frecuencia. El límite de la audición humana es de aproximadamente 20 kHz, lo que requiere una frecuencia de muestreo de aproximadamente 40 kHz. Es por eso que los CD se muestrean a 44Khz. es decir, cada segundo de grabación en un CD contiene 44,000 mediciones de la frecuencia más alta posible contenida en la grabación.

aash ma
fuente
Bueno, en realidad no por eso ...
jojek
Es en parte por eso. Es raro que un humano escuche por encima de 20k, por lo que un rango de audiófilos es razonablemente ligeramente superior a 40kHz, es decir, 42, 43, 44. Si disparas a alguien con enormes ondas sinusoidales a 22k, solo un niño tiene la posibilidad de escucharlo. los murciélagos son 115kHz y algunos delfines están a 150kHz, excepto que está en el agua, lo que suena más claro. Pon a
com.prehensible