¿Por qué los humanos pueden seleccionar el audio en una multitud? ¿Qué se necesitaría para que un robot haga lo mismo?

8

Estuve en una conferencia de Robótica hoy y uno de los oradores mencionó que los robots no pueden funcionar tan bien en una multitud porque no pueden seleccionar el audio como lo hace una persona.

¿Por qué la gente puede destacar tan bien el audio? ¿Y qué se necesitaría para que un robot haga lo mismo?

Soy consciente de la reducción activa del ruido (ANR) como en los auriculares Bose Aviation, pero eso no es de lo que estoy hablando. Estoy pensando en la capacidad de asimilar todo pero procesar solo lo que sientes que es importante.

Bob Esponja
fuente

Respuestas:

7

Lo que dijo el orador en la conferencia no fue exacto. Quizás quisieron decir " nuestro robot no puede seleccionar el audio como una persona puede", pero la afirmación "[los robots] no pueden seleccionar el audio como una persona puede" es falsa.

Aquí hay una lista parcial de sistemas que pueden determinar la fuente de una señal de audio y rastrearla:

El término que está buscando es una "matriz en fase" de micrófonos (ver también: caja de herramientas de matriz en fase Matlab ). La NASA utiliza matrices en fases para localizar el ruido proveniente de las aspas del ventilador giratorio .

Ian
fuente
Ha pasado un tiempo desde que tomé esa clase de audio, pero también creo que cualquier voz dada debería tener características que se podría suponer razonablemente que son únicas en una multitud.
Erik Reppen
2
Para agregar a su lista, el sensor Kinect para Windows tiene una matriz de micrófonos que puede usar para determinar de qué reproductor proviene el audio.
WildCrustacean
Eso es excelente, ¿tiene un enlace sobre cómo acceder a esa información desde Kinect?
Ian
+1. Pero, ¿puede un robot tomar decisiones en tiempo real sobre lo que es importante y filtrar de acuerdo con eso? Me parece que su lista solo incluye sonidos que el robot puede aprender de antemano.
Adrian Keister
Ciertamente. La técnica se llama formación de haces . Suponiendo que tiene algunos criterios de filtro para lo que cuenta como "importante", una vez que tome esa señal, rastrearía su movimiento desde esa ubicación espacial.
Ian
2

Creo que están sucediendo al menos tres cosas:

  1. Filtrado que depende de la ubicación de donde proviene el sonido. Nuestra audición estéreo combinada con ciertos atributos de cómo están construidos nuestros oídos nos ayuda a aislar el sonido que proviene de una ubicación / dirección particular.
  2. Filtrado que depende de la frecuencia / amplitud del audio.
  3. La redundancia en el audio nos permite reconstruir la entrada. Si varias personas hablan entre sí (o generalmente en presencia de ruido) solo necesitamos captar una fracción de lo que se dice (o incluso observar visualmente) para saber lo que se dice.

Creo que un robot puede superar a los humanos en el n. ° 1 y n. ° 2. Con una matriz de micrófonos, uno podría pensar que podría enfocarse efectivamente en un solo punto en el espacio y eliminar cualquier otra interferencia. Eso puede complicarse más por las reflexiones y otras perturbaciones. # 3 es probablemente algo más difícil para las computadoras.

Guy Sirton
fuente
La palabra secreta para esta noche es stereo hearing. Pregúntale a cualquier humano que haya perdido esta habilidad por cualquier motivo. Por lo tanto, un programa o incluso un robot con 2 o más micrófonos tendrán esta capacidad, si el programador sabe cómo manejar la entrada.
ott--