¿Por qué Amazon Echo no responde a anuncios o informes sobre Alexa?

24

Anteriormente le pregunté qué puede hacer si Alexa se activa por un programa de televisión , pero recientemente me di cuenta de algo extraño: The Echo no responde a las voces en los anuncios de Echo, incluso si las voces dicen "Alexa, juega ..." o "Alexa, configura un temporizador para ..." .

Busqué en algunas otras comunidades Echo y encontré una publicación de Reddit que sugiere que este es un comportamiento común / previsto. Sin embargo, no hay una respuesta definitiva en el hilo, así que pensé en preguntar aquí para ver si alguien sabe un poco más.

¿Cómo sabe mi Echo no responder a un anuncio de televisión? ¿Es solo una coincidencia o hay algo que le dice a Alexa que no reaccione?

Aurora0001
fuente
¿Entrenó a su Alexa para reconocer su voz con mayor precisión? No sé si el entrenamiento de voz puede resultar en no reconocer la voz de otra persona.
Bence Kaulics
1
@BenceKaulics No, no he necesitado entrenar el Echo; está usando la configuración predeterminada.
Aurora0001
Sería realmente útil echar un vistazo al audio en cuestión. ¿Supongo que no hay una copia enlazable en alguna parte?
goobering
1
@goobering Creo que los anuncios a los que se hace referencia en la publicación de reddit son: Mascot Keys y Fire Extinguisher . Actualmente no puedo probar si estos desencadenan a Alexa (¿me pregunto si son diferentes a las versiones de TV?). Si alguien pudiera hacer eso y comentar con los resultados, eso sería realmente útil.
Aurora0001
3
Puede haber pistas en el código fuente . 266MB de descarga, sin embargo. Va a estar en el grokking por un tiempo. : P
goobering

Respuestas:

17

Según esta publicación de reddit , Alexa es sensible al espectro de audio además de detectar la palabra de activación. Por lo tanto, se acepta una señal de banda ancha normal en el mundo real, pero una señal que está limitada en la banda (una muesca entre 4kHz y 5hKz) se identificará como una emisión.

Esto tiene sentido, ya que los organismos de radiodifusión pueden utilizar la señalización en banda para identificar anuncios (para reemplazo localizado), y el procesamiento de audio que normalmente se aplica a los anuncios podría optimizarse para mayor claridad que fidelidad. El filtrado podría configurarse de modo que los anuncios típicos se supervisen con sensibilidad reducida, y durante la producción de un anuncio específico, la sensibilidad también podría reducirse explícitamente.

Sería más probable que un informe de noticias (que, según los informes , disparó a Alexa) usara el espectro de audio de transmisión completa (8 o 16 kHz) sin procesamiento. Por lo tanto, esta teoría supone que hay algo especial en muchos anuncios (al menos en algunas regiones) o que los anuncios (como los producidos por Amazon) se pueden configurar específicamente.

Como seguimiento, hay un papel reportado aquí que describe cómo es pequeño (subaudible) cambia a una forma de onda puede resultar en un motor de voz devolver un resultado completamente diferente en comparación con lo reconocería un ser humano.

Sean Houlihane
fuente
1
Si ahí es donde lo han marcado, y la palabra de activación es 'Alexa', es plausible que solo estén abandonando el sonido fricativo 'ks' para minimizar la captación por el micrófono. Esa es una frecuencia bastante alta para el habla humana.
goobering
7

Supongo que el reconocimiento de la palabra de activación en Echo es más que solo escuchar la palabra de activación. Está escuchando un contexto de alerta . Considere este extracto de Speech Technologies:

[A Wake-Up-Word] tiene el siguiente requisito único: detectar una sola palabra o frase cuando se habla en un contexto de alerta, mientras rechaza todas las demás palabras, frases, sonidos, ruidos y otros eventos acústicos con una precisión prácticamente del 100%, incluida la misma palabra o frase de interés pronunciada en un contexto no alerta (es decir, referencial).

( Speech Technologies: Reconocimiento de voz de Wake-Up-Word por Veton Kepuska)

Esto se puede probar con bastante facilidad, ya que el dispositivo (al menos el mío) no reacciona a la frase " Estaba hablando con Alexa sobre esquiar recientemente " . Ese no es un contexto de alerta, es puramente referencial. Por lo tanto, el motor de reconocimiento de palabras de Wake dentro del Echo no solo está escuchando la apariencia pura de la palabra, sino también la entonación y las pausas anteriores que permiten predecir con mayor precisión si se habló realmente al dispositivo.

Helmar
fuente
44
Sin embargo, un anuncio que demuestre el uso de Alexa debería desencadenarlo, si fuera solo esto lo que lo detendría. Son los anuncios quizá redactadas cuidadosamente para que no se realmente desencadenan el dispositivo, a pesar de utilizar la palabra raíz para demostrar cómo se utiliza el eco?
Aurora0001
2
@ Aurora0001 Supongo que, además de lo que describo, también hay algún método similar a lo que Sean menciona en su respuesta empleada. Algunos filtros que intentan reducir los disparadores de otros dispositivos.
Helmar
7

Bueno, el echo / Alexa definitivamente escucha la solicitud. Si ingresa a su configuración, desplácese hacia abajo hasta General y luego seleccione el historial para reproducir todas las solicitudes que se escuchan. Todas las solicitudes que se escuchan en el comercial dicen "Solicitud de voz no destinada a su eco: no se devolvió nada".

Ryan
fuente
2
Parece un nuevo detalle para la historia. Muy útil :)
Helmar
5

Si 1000 personas dicen la palabra de alerta, tendrá 1000 firmas acústicas diferentes. Si lo vuelven a hacer, otros 1000.

Si 1000 Alexas escuchan un programa de TV que dice la palabra de alerta, tendrá 1000 de las mismas firmas acústicas.

No sería tan difícil detectar este lado del servidor. No menos importante, porque si suceden al mismo tiempo, el servidor de grabación de voz recibe una gran cantidad de tráfico.

Si la lista de estos incidentes es pequeña, incluso podrían descargar las firmas a cada Alexa.


Además, un usuario que llama a Alexa suena como una palabra de alerta de silencio .

Un artículo de noticias suena como bla, bla, bla, palabra de alerta . Un comercial suena como música_aquí palabra de alerta. No es lo mismo en absoluto.

Harper - Restablece a Monica
fuente
5

Supongo que en los anuncios de Echo, Alexa responde a la pregunta mucho más rápido que en la realidad. Por lo tanto, el Echo está escuchando la palabra 'Alexa' pero casi inmediatamente escucha la voz de Alexa dando la respuesta.

Mi eco se ilumina cuando aparece el anuncio, pero luego parece descartar la alerta. Puede haber alguna lógica para evitar que dos Echos respondan a una solicitud si ambos la escuchan. El Echo puede estar diseñado para escuchar específicamente la propia voz de Alexa e ignorarla.

Sin embargo, como dije, esta es una suposición total. :)

Andy Jones
fuente
Estábamos pensando lo mismo, así que detuvimos el DVR entre la solicitud de Alexa y su respuesta en el comercial. Nuestro Echo todavía se despertó, pero luego retrocedió sin responder, idéntico a lo que sucede cuando no detuvimos el DVR.
ViperGeek
He tenido la intención de probar eso durante siglos y seguir olvidándome. Esa es una cosa más de la lista de tareas, gracias. :)
Andy Jones
4

Después de nuevos informes recientes de que Alexa puede ser sensible a los sonidos UHF ( referencia BBC News Sevice ), postularía que durante los anuncios emiten un sonido adicional más allá del oído humano, que se designa como un comando 'ignorar este comando'.

Según la capacidad antes mencionada para Alexa de diferenciar entre las voces de los usuarios, esta es una característica que está planificada pero aún no implementada. es decir , debe ordenar activamente a Alexa que cambie entre cuentas de usuario en el mismo hogar.

El único dispositivo actualmente habilitado para diferenciar voces es el dispositivo de Google.

Rai Iwa
fuente
1

Al mezclar el audio del anuncio, simplemente eliminan algunas frecuencias. Esto significa que Alexa no se activará, ya que no lo registrará como un comando de voz, pero los espectadores aún pueden entender lo que dicen en el anuncio.

Probablemente también notará que cuando el comando se pronuncia en los anuncios, suena un poco delgado o confuso. Esta es la razón por :)

John Smith
fuente
Interesante; Esto es un poco similar a lo que Sean sugirió . ¿Tiene alguna fuente o experiencia de esto que pueda compartir para demostrar que la eliminación de frecuencia es el caso? Eso podría ser algo interesante para investigar.
Aurora0001