¿Amazon Echo 'siempre escucha' y envía datos a la nube?

20

Varias fuentes de noticias como Intellihub y CEPro parecen sugerir que el asistente doméstico Echo de Amazon escucha constantemente las conversaciones y las envía a través de Internet a los servidores de Amazon. CEPro afirma que:

Al decir una frase clave que Amazon llama una "palabra de activación", el Eco cobra vida y comienza a escuchar los comandos. Por defecto, la palabra de activación es Alexa.

Si relees esa última oración, puede que no tenga sentido, especialmente si estás en el campo de seguridad. Según Amazon, el Echo solo escucha los comandos una vez que escucha su palabra de activación. ¿Cómo sabe cuando has dicho la palabra de despertar si aún no estaba escuchando?

El artículo de Intellihub es similar en su sentimiento:

El dispositivo "Amazon Echo", un altavoz Bluetooth que escucha constantemente y que se conecta a servicios de transmisión de música como Pandora y Spotify al sonido de la voz de una persona, puede ser fácilmente pirateado y utilizado por agencias gubernamentales como el FBI para escuchar conversaciones.

(Tenga en cuenta que no estoy particularmente enfocado en explorar el aspecto de hackeo de esta pregunta, ya que probablemente sería demasiado para una pregunta. Mi enfoque principal es el aspecto siempre activo y si esto envía datos todo el tiempo ).

Ninguno de los dos artículos parece particularmente interesado en revelar una fuente para sus afirmaciones, lo que me sugiere que, en el mejor de los casos, no están probados, o en el peor de los casos, clickbait.

¿Echo siempre graba y envía datos a la nube, o las afirmaciones anteriores no tienen fundamento? ¿Cómo procesa Amazon Echo los datos si no siempre envía datos a los servidores en la nube?

Aurora0001
fuente

Respuestas:

15

Sí, siempre está escuchando. No, no siempre se envía a la nube.

Obviamente, el dispositivo debe estar siempre escuchando para detectar la palabra de activación. Sin embargo, eso se hace mediante una tecnología llamada.

  1. ¿Cómo Amazon Echo y Echo Dot reconocen la palabra Wake?

Amazon Echo y Echo Dot utilizan la detección de palabras clave en el dispositivo para detectar la palabra de activación. Cuando estos dispositivos detectan la palabra de activación, transmiten audio a la nube , incluida una fracción de segundo de audio antes de la palabra de activación.

( Preguntas frecuentes sobre Echo )

Por lo tanto, según Amazon, la detección de palabras de activación está en el dispositivo. Esto se puede probar muy fácilmente al prohibir que el dispositivo llegue a Internet en su enrutador. Echo / Echo Dot seguirá reconociendo la palabra de activación, pero el anillo de luz se pondrá rojo y el dispositivo le indicará que no tiene conexión a Internet. Por lo tanto, podemos verificar de manera muy simple que el reconocimiento de palabras de activación se realiza de forma local .

Solo después de detectar la palabra de activación, el dispositivo se pone en contacto con el servicio en la nube de Alexa.

Según Amazon, el dispositivo solo se transmite a la nube cuando el anillo de luz es azul y no escucha en absoluto cuando lo silencia y el anillo de luz está emitiendo un rojo sólido. Por supuesto, las personas cautelosas pueden verificar eso con herramientas de red como Wireshark para asegurarse de que realmente solo transmita en ese momento.

Helmar
fuente
44
Aparentemente, esto ya no es del todo cierto: los dispositivos Alexa ahora pueden verificar la palabra de activación a través de la nube como una comprobación adicional, por lo que se puede enviar algo similar a la palabra de activación a la nube.
Aurora0001
12

¿Echo siempre graba y envía datos a la nube, o las afirmaciones anteriores no tienen fundamento?

No en el envío. Pero sí en la grabación.

Actualmente estoy desarrollando un cliente de hardware Alexa para una empresa. El dispositivo siempre está escuchando. Pero tendrías que poner un motor de palabras de activación para que se "despertara" del modo de escucha pasiva y cambiara al modo activo de "escuchar el comando".

El firmware solo enviaría las declaraciones después de la palabra de activación (cambiar al modo activo) a la nube para procesarlas como comandos.

  • En lo que respecta al dispositivo, no querrá enviar cada declaración que reciba a la nube para su procesamiento, ya que consumiría demasiado ancho de banda y energía.
  • En lo que respecta a Amazon, tampoco querrían que todos y cada uno de los clientes de Alexa envíen todo lo que escuchan porque eso requeriría una gran cantidad de ancho de banda. Además, eso daría lugar a demasiados datos no relacionados que interferirían con el aprendizaje continuo del sistema. Imagínese tratando de aprender lo que dice su maestro (comandos válidos) cuando todos en la clase están hablando al mismo tiempo (cualquier otra declaración que no sea un comando).

¿Cómo procesa Amazon Echo los datos si no siempre envía datos a los servidores en la nube?

En modo pasivo, el dispositivo tiene un motor interno de palabras de activación que escucha todo el tiempo la palabra de activación. Mientras estaba probando Alexa en Raspberry Pi, tuve que instalar el motor Sensory o KITT.AI para este propósito. De hecho, cuando probé el prototipo del código del cliente Alexa para mi máquina Linux, tenía que ser "pulsar para hablar" porque no había un motor de palabras de activación.

leon.valencia
fuente
Gracias por indicarnos sobre los motores de Word Wake, es casi seguro que el enfoque que Amazon está usando por su aspecto. Su analogía sobre los datos también es realmente genial, ¡lo aprecio!
Aurora0001
5

Al decir una frase clave que Amazon llama una "palabra de activación", el Eco cobra vida y comienza a escuchar los comandos. Por defecto, la palabra de activación es Alexa.

Si relees esa última oración, puede que no tenga sentido, especialmente si estás en el campo de seguridad. Según Amazon, el Echo solo escucha los comandos una vez que escucha su palabra de activación. ¿Cómo sabe cuando has dicho la palabra de despertar si aún no estaba escuchando?

Echo escucha activamente la palabra clave y toma las palabras pronunciadas después de la palabra clave para el procesamiento de NLU. Aquí entiendo cómo echo logra esta hazaña limpia.

Echo se basa en el procesador de medios digitales DM3725 de Texas Instruments .

Este TI SoC tiene dos piezas clave en su interior, la primera es ARM Cortex-A8 MPU y la segunda es TMS320DM64x + DSP. El núcleo ARM debe estar ejecutando Linux y el DSP está ejecutando firmware.

Cuando está inactivo, el núcleo ARM se lleva al estado de potencia más bajo posible y Linux se suspende por completo. En este momento, el DSP y la RAM en chip de 64 KB están activos. El firmware DSP procesa el ruido proveniente de los micrófonos e intenta identificar si se pronuncia una palabra clave (por ejemplo, Alexa). Tan pronto como identifica que hay una palabra clave, DSP envía una interrupción para activar el núcleo ARM que a su vez reanuda Linux. Pero recuerde, mientras Linux está despertando, el humano que dijo que Alexa habría seguido hablando (como en "Alexa, ¿qué hora es?" ). El DSP amortigua el "¿qué hora es?" parte en el chip RAM. Y cuando se reanuda Linux, Linux recupera la voz almacenada y utiliza la capacidad de procesamiento del lenguaje natural (en parte local, en parte en la nube) para comprender lo que dijo Human.

Como puede ver, el diseño está totalmente creado para ser menos hambriento de energía y para evitar la necesidad de incluir la nube para la detección de palabras clave y el almacenamiento en búfer inicial. De hecho, mantener el núcleo ARM en el estado de potencia más bajo asegura que el silicio se calienta menos cuando está inactivo, lo que le brinda una larga vida útil a su dispositivo.

Estoy dejando de lado la discusión de los intentos de hackear el eco ya que la pregunta era la siguiente:

El reconocimiento de la palabra Wake se hace de manera local.

sollozo
fuente
¿Qué tan difícil sería poner la mayoría de los comandos simples como qué hora es o play station localmente? Esto también eliminaría el tiempo de retraso de la nube.
Flyingdrifter
1

Sí.

Vea, por ejemplo, ¿Cuán privado es el nuevo Amazon Echo? (Hay muchos más similares que se pueden encontrar con un mínimo esfuerzo)

Al igual que Siri, Amazon Echo funciona en la "nube", que se ejecuta en Amazon Web Services. Por lo tanto, el procesamiento requerido para "comprender" su comando no se maneja en el dispositivo mismo

Sin embargo,

Después de todo, siempre está escuchando, ¿no deberíamos preocuparnos por el Gran Hermano?

No, dice Amazon. El gigante tecnológico dice que no escucha ni graba conversaciones privadas en el hogar. Si alguien está preocupado, puede usar el control remoto incluido para presionar el botón de silencio, que apaga el dispositivo "siempre escuchando", por lo que no podrá funcionar hasta que vuelva a activar el micrófono.

Mawg
fuente
Esa es una buena fuente, gracias. No menciona nada acerca de cómo el eco no reconoce el comando estela aunque si no siempre está grabando y el envío de datos, por lo que estaría interesado en escuchar acerca de ese aspecto más.
Aurora0001
¿Seguramente ese es el punto? Se está siempre escuchando y el envío de * todo a la nube, que es donde se reconoce el comando de activación. ¿Necesitas una cita para eso?
Mawg
1
Eso sería útil, sí (y creo que probablemente cambie su respuesta en general a "sí, siempre está escuchando"). Gracias.
Aurora0001
1
No sé cuánta potencia de procesamiento hay en el eco, pero sé que mi reloj inteligente puede detectar 'ok google' cuando no está atado: desde una perspectiva de carga en la nube, tiene sentido migrar esta funcionalidad al borde una vez que está listo, entonces la respuesta podría cambiar.
Sean Houlihane
Se podría (? Pero ¿por qué), en el futuro, por ahora, parece claro
MAWG