¿Máximo retraso de audio antes de que el jugador se dé cuenta?
38
Dado un evento en un juego, ¿cuál es el retraso máximo para producir audio que el jugador asociará correctamente el audio con ese evento (y no percibirá retraso)?
No mucho. Supongo que tiene que ser menos de 1/10 de segundo. Aunque personalmente, podría notarlo si fueran más de unos pocos cuadros a 60 FPS.
Almo
No olvide que en la mayoría de los casos la salida renderizada también tendrá algún retraso, algunos de los cuales vendrán del monitor. Puede tomar más de 100 ms para que el resultado de la entrada del jugador se muestre en la pantalla. Ver anandtech.com/show/2803
Adam
1
Son alrededor de 20 milisegundos cuando tocas un instrumento, alrededor de 80 milisegundos cuando eres un oyente. Esta es solo mi experiencia personal, su kilometraje puede variar.
rwols
Más que cualquier momento específico necesita consistencia. Mientras todo tenga el mismo retraso, puedes estar dentro de lo razonable. Si todo está retrasado 100 ms, puede que realmente no lo notes, pero si algunos sonidos son casi instantáneos y el resto son 100 ms o algo intermedio, entonces lo notarás.
0xFADE
Si de alguna manera está interesado en algún tipo de comportamiento realista, podría considerar un retraso para los eventos alejados del oyente como algo positivo.
Darkwings
Respuestas:
48
Los siguientes resultados se calculan para la sincronización de labios, que se considera "el error de sincronización de a / v más notable" .
Para aplicaciones de televisión, el audio debe adelantar el video en no más de 15 milisegundos y el audio debe retrasar el video en no más de 45 milisegundos. Para la película, se considera que la sincronización de labios aceptable no supera los 22 milisegundos en cualquier dirección.
Los resultados del experimento determinaron que el umbral inicial de audio promedio para la detección de sincronización a / v fue de 185.19 ms, con una desviación estándar de 42.32 ms
A primera vista parece flojo: +90 ms a -185 ms como una "Ventana de Aceptabilidad"
y
Indetectable de -100 ms a +25 ms
Detectable a -125 ms y +45 ms
Se vuelve inaceptable a -185 ms y +90 ms
(- Sonido retrasado, + Sonido avanzado)
Para concluir
Los resultados no están tan lejos el uno del otro. Parece que el retraso máximo aceptable es de alrededor de 150 ms, que es de 9 cuadros a 60 cuadros por segundo.
"Si tiene un retraso, debe ser el video el que se retrasa". parece que debería revertirse, el artículo de ATSC establece claramente que las personas esperan / toleran que el sonido suceda un poco después de la vista (ya que en la vida real el sonido se retrasa aproximadamente 1 ms por pie de distancia), pero no asocian los eventos correctamente si el evento de video ocurre después del sonido.
Peteris
Tienes razón, entendí completamente mal. Gracias. (Edité)
Heckel
1
Puedo decirle por experiencia personal que esto incluso varía entre los oídos de la misma persona. Tengo una afección vestibular rara que en realidad hace que mi cerebro procese la estimulación auditiva en mi oído izquierdo con un retraso apreciable en comparación con el oído derecho. En un mal día, esto causa mareos, pero la mayoría de las veces es tolerable. Entonces sí, esto es extremadamente subjetivo.
Andon M. Coleman
¿De dónde sacas 150ms? Sus fuentes claramente promedian alrededor de 45ms.
Miles Rout
Wikipedia dice 45 ms, pero no es necesariamente la fuente más confiable. La segunda fuente dice 185.19 ms y la tercera 125ms hasta que se vuelve notable. ¿Puedes citar la fuente para ayudarme a entender dónde me equivoco?
Heckel
9
Depende del evento
Sintiendo que, por ejemplo, una explosión que ve y escucha es un evento único que tendrá las tolerancias descritas en otras respuestas, no más de ~ 50 ms; algunas personas pueden ser más sensibles (por ejemplo, músicos), por lo que sugeriría apuntar a 30 ms o no más de 2 cuadros a 60 fps.
Creo que la distancia percibida debería afectar esas tolerancias. La gente espera que los sonidos lejanos se retrasen un poco, ya que en la vida real el sonido se retrasa aproximadamente 1 ms por cada pie de distancia. Por lo tanto, una explosión en un 'mapa' del juego RTS reducido podría tener una mayor tolerancia al retraso del sonido que el jugador disparando su propia arma en un FPS.
Los casos especializados, como tener una sensación adecuada para un juego de música / ritmo, pueden requerir tolerancias mucho más estrictas, 15-20 ms o incluso más bajas, por ejemplo, si el jugador escucha tanto la "acción de entrada" como cantar en un micrófono o golpear un instrumento de plástico, y también un sonido generado por su sistema para el mismo evento, luego un retraso de 50 ms hará que los sonidos "originales" y "reproducidos" se mezclen de manera extraña.
Además, tenga en cuenta el retraso entre el inicio del archivo de audio y el "evento" dentro de ese archivo de audio: en muchos clips de audio, el "evento" no estará en el borde, es posible que tenga el sonido de un rayo huelga donde el "golpe" ocurre 200 ms después del comienzo, lo que sería obvio para todos, y casi todos los archivos de sonido, incluso un golpe de batería, tendrán algún retraso allí.
No mida promedios - mire el peor de los casos
La vista y el oído están profundamente conectados en la percepción humana, y si uno de ellos tartamudea relativamente al otro, entonces será perceptible. No está bien si la mayoría de las veces es muy rápido, pero ocasionalmente hay un retraso de 0.2 segundos mientras se carga algo; la gente notará tales situaciones. Esta es la razón por la cual el audio a menudo se ejecuta en un hilo separado, aislado de las otras actividades y solo recibe notificaciones rápidas sobre los clips precargados que se deben reproducir.
Cualquier situación en la que un jugador cause el sonido (juegos de música, pistolas en FPS) necesitará un retraso muy bajo ya que el jugador ha enviado un impulso para que suceda en ese momento, por lo que cuando un músico escucha su instrumento retrasado, será particularmente consciente de retrasos muy pequeños. Los ingenieros de sonido se preocupan por retrasos en la grabación por debajo de 5 mSeg que arruinan el "ritmo"
El Journal of the American Academy of Audiology
afirma que las personas (no solo los músicos), cuando escuchan su propia voz con retraso, son conscientes de retrasos tan cortos como 3 mSec, y un retraso de más de 10 mSec era objetable el 90% del tiempo.
Los humanos usan el tiempo de retraso entre sus oídos para obtener información direccional y, por lo tanto, deben poder procesar y extraer información de retrasos inferiores a 1 mSeg.
Los 185.19 ms citados anteriormente son irrelevantes ya que se refieren a un error de sonido principal y, de todos modos, a lo que la gente considera aceptable cuando mira pasivamente una película, no participa activamente en un juego.
La respuesta aceptada aquí analiza principalmente la percepción de sincronización de audio al mirar videos pasivamente. En estos casos, el público no puede precisar con exactitud cuándo debe reproducirse el audio, excepto si se atiende a señales reveladoras en el video. Esto significa que tienen una anticipación limitada del sonido.
Hay dos casos importantes en los juegos donde esta suposición de baja anticipación no se cumple:
Cuando el propio jugador causó el sonido (como señala SamB), desde el momento en que forman la intención de presionar el botón, saben exactamente cuándo esperan escuchar el sonido.
Cuando se supone que el sonido cae en un ritmo periódico , como en los juegos de música o cualquier cosa con un temporizador / contador de tiempo, este ritmo le permite al jugador anticipar el próximo sonido y notar si suena fuera de tiempo.
Pavageau recomienda utilizar una devolución de llamada de audio de bajo nivel para obtener este tipo de precisión de subcuadro si desea un juego rítmico de esta variedad.
Para los juegos que requieren que una persona reaccione a las señales de audio, cada milisegundo en el que se retrasa el sonido hará que la respuesta de la persona también se retrase. Alguien que simplemente está viendo una película o una escena cortada puede no notar demasiado si el audio y el video no están exactamente sincronizados, pero a menudo es importante y a veces crítico que el audio esté sincronizado con lo que se espera que haga el reproductor .
En teoría, todo lo que supera los 50 ms puede ser notable cuando se trata de su asociación con las imágenes, a los 25 ms puede comenzar a escuchar un sonido y su retraso como dos sonidos separados, por lo que diría que le recomendaría que permanezca por debajo de los 50 ms y si usted Incluso puede permanecer en algo de 5 ms a 15 ms sería realmente agradable.
Esta respuesta no agrega ningún consejo nuevo que no esté presente en las respuestas existentes, por lo que corre el riesgo de aparecer solo como un complemento o anuncio para la información de contacto de su empresa. StackExchange no está destinado a promocionar servicios, por lo que recomendaría eliminar esa parte (la gente aún puede buscarlo por su nombre de usuario) y agregar más detalles sobre por qué recomendaría tiempos particulares más allá de lo que se cubre en las respuestas existentes.
DMGregory
Ninguna de las respuestas que vimos fue correcta para nosotros, somos un equipo de ingenieros de sonido y la acústica es lo primero que aprendimos. algunas respuestas decían más de 100 ms, otras decían -100s y + 85s, ¿cómo es esa una respuesta? -50 ms o + 50 ms, sigue siendo 50 ms de diferencia entre la acción y el sonido. solo estamos tratando de ayudar si nuestro correo electrónico es tan ofensivo que lo eliminaremos.
Rayos X
Véase, por ejemplo, la respuesta de Peteris de hace 3 años, que ofrece el mismo límite superior absoluto de 50 ms y recomienda una respuesta más baja que esta respuesta, o la referencia a la charla Mathieu Pavageau que recomienda 5ms como objetivo ideal. Eso parece abarcar toda la gama de lo que contiene esta respuesta, a menos que quiera ampliar las recomendaciones. Por ejemplo, si hay detalles del enlace de Wikipedia que considere relevantes, es una buena práctica al menos resumirlos en el texto de la respuesta (en caso de que la página vinculada cambie en el futuro).
DMGregory
Ah, perdón por eso, no leímos todas las respuestas, solo omitimos algunas, luego dijimos lo que sabemos y lo aplicamos con un enlace de wikipedia, todavía somos novatos en el foro, estamos tratando de brindar ayuda sobre el sonido problemas relacionados pero no encontramos mucho jaja
Rayos X
Sin preocupaciones. Entrenar a nuevos usuarios es una de las razones por las que existen estos comentarios. :) Te acostumbrarás a las respuestas de StackExchange bastante rápido, solo significa pensar en ellas como recursos de referencia a largo plazo, en lugar de respuestas del foro.
Respuestas:
Los siguientes resultados se calculan para la sincronización de labios, que se considera "el error de sincronización de a / v más notable" .
Wikipedia dice
El Laboratorio de Percepción de Medios y Acústica dice
El ATSC dice
y
Para concluir
Los resultados no están tan lejos el uno del otro. Parece que el retraso máximo aceptable es de alrededor de 150 ms, que es de 9 cuadros a 60 cuadros por segundo.
fuente
Depende del evento
Sintiendo que, por ejemplo, una explosión que ve y escucha es un evento único que tendrá las tolerancias descritas en otras respuestas, no más de ~ 50 ms; algunas personas pueden ser más sensibles (por ejemplo, músicos), por lo que sugeriría apuntar a 30 ms o no más de 2 cuadros a 60 fps.
Creo que la distancia percibida debería afectar esas tolerancias. La gente espera que los sonidos lejanos se retrasen un poco, ya que en la vida real el sonido se retrasa aproximadamente 1 ms por cada pie de distancia. Por lo tanto, una explosión en un 'mapa' del juego RTS reducido podría tener una mayor tolerancia al retraso del sonido que el jugador disparando su propia arma en un FPS.
Los casos especializados, como tener una sensación adecuada para un juego de música / ritmo, pueden requerir tolerancias mucho más estrictas, 15-20 ms o incluso más bajas, por ejemplo, si el jugador escucha tanto la "acción de entrada" como cantar en un micrófono o golpear un instrumento de plástico, y también un sonido generado por su sistema para el mismo evento, luego un retraso de 50 ms hará que los sonidos "originales" y "reproducidos" se mezclen de manera extraña.
Además, tenga en cuenta el retraso entre el inicio del archivo de audio y el "evento" dentro de ese archivo de audio: en muchos clips de audio, el "evento" no estará en el borde, es posible que tenga el sonido de un rayo huelga donde el "golpe" ocurre 200 ms después del comienzo, lo que sería obvio para todos, y casi todos los archivos de sonido, incluso un golpe de batería, tendrán algún retraso allí.
No mida promedios - mire el peor de los casos
La vista y el oído están profundamente conectados en la percepción humana, y si uno de ellos tartamudea relativamente al otro, entonces será perceptible. No está bien si la mayoría de las veces es muy rápido, pero ocasionalmente hay un retraso de 0.2 segundos mientras se carga algo; la gente notará tales situaciones. Esta es la razón por la cual el audio a menudo se ejecuta en un hilo separado, aislado de las otras actividades y solo recibe notificaciones rápidas sobre los clips precargados que se deben reproducir.
fuente
Cualquier situación en la que un jugador cause el sonido (juegos de música, pistolas en FPS) necesitará un retraso muy bajo ya que el jugador ha enviado un impulso para que suceda en ese momento, por lo que cuando un músico escucha su instrumento retrasado, será particularmente consciente de retrasos muy pequeños. Los ingenieros de sonido se preocupan por retrasos en la grabación por debajo de 5 mSeg que arruinan el "ritmo"
El Journal of the American Academy of Audiology afirma que las personas (no solo los músicos), cuando escuchan su propia voz con retraso, son conscientes de retrasos tan cortos como 3 mSec, y un retraso de más de 10 mSec era objetable el 90% del tiempo.
Los humanos usan el tiempo de retraso entre sus oídos para obtener información direccional y, por lo tanto, deben poder procesar y extraer información de retrasos inferiores a 1 mSeg.
Los 185.19 ms citados anteriormente son irrelevantes ya que se refieren a un error de sonido principal y, de todos modos, a lo que la gente considera aceptable cuando mira pasivamente una película, no participa activamente en un juego.
fuente
La respuesta aceptada aquí analiza principalmente la percepción de sincronización de audio al mirar videos pasivamente. En estos casos, el público no puede precisar con exactitud cuándo debe reproducirse el audio, excepto si se atiende a señales reveladoras en el video. Esto significa que tienen una anticipación limitada del sonido.
Hay dos casos importantes en los juegos donde esta suposición de baja anticipación no se cumple:
Cuando el propio jugador causó el sonido (como señala SamB), desde el momento en que forman la intención de presionar el botón, saben exactamente cuándo esperan escuchar el sonido.
Cuando se supone que el sonido cae en un ritmo periódico , como en los juegos de música o cualquier cosa con un temporizador / contador de tiempo, este ritmo le permite al jugador anticipar el próximo sonido y notar si suena fuera de tiempo.
En esta charla de GDC 2013, Mathieu Pavageau argumenta que los jugadores pueden percibir diferencias en la precisión de sincronización por encima de unos 5 ms , mucho menos indulgentes de lo que sugerirían los ejemplos de sincronización de labios. Consulte las secciones "Ejemplos de percepción de tiempo" y "Ejemplo de juegos de Ubisoft" para escucharlo usted mismo. Puede escuchar que el menú de Rayman Origins no suena "lento" per se cuando se sincroniza dentro de 16 ms (fotograma de video), pero cuando se sincroniza dentro de 5 ms suena notablemente mejor y más ajustado.
Pavageau recomienda utilizar una devolución de llamada de audio de bajo nivel para obtener este tipo de precisión de subcuadro si desea un juego rítmico de esta variedad.
fuente
Para los juegos que requieren que una persona reaccione a las señales de audio, cada milisegundo en el que se retrasa el sonido hará que la respuesta de la persona también se retrase. Alguien que simplemente está viendo una película o una escena cortada puede no notar demasiado si el audio y el video no están exactamente sincronizados, pero a menudo es importante y a veces crítico que el audio esté sincronizado con lo que se espera que haga el reproductor .
fuente
En teoría, todo lo que supera los 50 ms puede ser notable cuando se trata de su asociación con las imágenes, a los 25 ms puede comenzar a escuchar un sonido y su retraso como dos sonidos separados, por lo que diría que le recomendaría que permanezca por debajo de los 50 ms y si usted Incluso puede permanecer en algo de 5 ms a 15 ms sería realmente agradable.
¡Espero que esto ayude!
https://en.wikipedia.org/wiki/Delayed_Auditory_Feedback
fuente