Estoy tratando de entender cómo mi iPhone puede escuchar continuamente para mí diciendo Hey Siri
, Alexa
, Hey Cortana
o Okay Google
sin agotar rápidamente la batería de mi hacia abajo.
Me imaginé dos tipos de algoritmo. Uno que registra un segmento de tiempo como segmentos de 10 ms de ancho cada 200 ms y realiza una detección sincrónica en frecuencias específicas. Sin embargo, estos parámetros dependen en gran medida de la característica de mi voz. Además, seguirá consumiendo mucha energía de la CPU para intentar continuamente hacer coincidir un Hey Siri
en medio de la nada.
¿Qué tipo de algoritmo / implementación eficiente de bajo consumo (hardware o software) puede realizar dicha tarea?
Creo que esto está relacionado de alguna manera con esta patente: https://www.google.com/patents/US20160253997
Leí algunos artículos que hablan sobre modelos ocultos de Markov, pero dudo que sea un enfoque de muy baja potencia.
fuente