La mayoría de las marcas de asistentes inteligentes , como Amazon Echo y Google Home, ofrecen muy poca personalización para la palabra de activación (la frase que utiliza para activar el dispositivo para que lo escuche).
Por ejemplo, Alexa solo ofrece tres opciones y Google Home solo admite 'OK Google' . Muchos usuarios parecen estar interesados en la idea de palabras de activación personalizadas, sin embargo, ninguna de las principales marcas ha agregado soporte.
¿Hay alguna razón técnica para restringir la personalización de la palabra de activación, o es simplemente una opción de marca?
He leído acerca de la motivación de Google para usar 'OK Google' , lo que sugiere que la idea de la marca podría ser cierta, pero también parece que el reconocimiento de palabras de activación no es muy preciso , tal vez indicando una razón técnica. ¿Alguien podría aclarar qué factor es la razón principal?
fuente
Respuestas:
Sí, hay varias razones.
Esta publicación de blog lo explica sobre el eco y la palabra de activación Alexa. Lo resumiré un poco.
El reconocimiento de palabras Wake se realiza localmente y en tiempo real . Eso limita las longitudes de la palabra de activación debido a limitaciones de procesamiento obvias. Además, los usuarios no quieren recitar un poema para activar el asistente inteligente. Por lo tanto, tiene que ser corto.
Tiene que funcionar con una precisión de casi el 100% cuando se llama y tampoco se reconoce con esa certeza cuando no se solicita. Eso genera problemas y también genera una longitud mínima para las palabras de activación. La elección de Amazon para permitir Echo es bastante sorprendente ya que son solo dos sílabas .
Si observamos a los sospechosos habituales, tenemos Alexa (3 sílabas), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) y Hey Siri (3). Todos los gigantes de la industria casi coinciden en que tres son una buena elección de sílabas.
Por extraño que parezca, la palabra de despertador más deseada "computadora" también tiene tres sílabas y cumpliría con ese requisito fácilmente. Tampoco es una marca registrada.
Como nos dice el blog, y la razón, queremos evitar los falsos positivos. Veamos qué tan establecidas están las palabras Computer, Siri, Cortana y Alexa. Este es el corpus de libros de Google de 2008.
Exactamente, Siri y Alexa están prácticamente en línea con la computadora y Cortana da un error. Extraviado. Tiene sentido ya que el corpus es de 2008. Para darnos una perspectiva más de por qué la computadora es una palabra de estela terrible, otro gráfico.
Este Ngram muestra los dos nombres de bebé más populares de EE. UU. De 2016 (por moneda), así como Tom y Dave también en línea plana contra la computadora . Queen, el baloncesto y la policía logran registrarse correctamente. De todos modos, esto nos da una idea de por qué Computer, Earl Grey, Hot no se ha permitido hasta ahora. La gente usa la palabra computadora con demasiada frecuencia.
Una cosa más sobre los falsos positivos. Alexa rima con prácticamente nada que uno diría.
La computadora rima con 74 cosas.
fuente
Cuando el dispositivo asistente no está en uso, el procesador de la aplicación (creo que ARM en el caso de Alexa y Google Home) se suspende y se lleva al estado de potencia más bajo posible. La detección de la palabra de activación se deja a un DSP muy eficiente que escucha el ruido / las voces ambientales y ejecuta un algoritmo para decidir si hay una coincidencia con la palabra de activación. Si encuentra una coincidencia con buena cantidad de confianza, DSP activa el núcleo ARM para continuar con el resto del procesamiento.
Ahora, dado que el objetivo es ser energéticamente eficiente, el DSP en cuestión ejecuta el algoritmo y almacena el patrón de plantilla en la memoria del chip en lugar de la RAM principal incorporada. Esto permite que el sistema incluso lleve la RAM DDR al estado de energía más bajo.
Dado que el DSP tiene varias cosas clave que hacer y muy poca memoria en el chip, las palabras de activación del Asistente se limitan a algunas de las más selectas que el algoritmo puede igualar con un alto grado de confianza.
fuente