Estoy leyendo este artículo: el traductor de Skype donde usan CD-DNN-HMM (Redes neuronales profundas dependientes del contexto con modelos ocultos de Markov). Puedo entender la idea del proyecto y la arquitectura que han diseñado, pero no entiendo cuáles son los senones . He estado buscando una definición pero no he encontrado nada
—Proponemos un modelo novedoso dependiente del contexto (CD) para el reconocimiento de voz de vocabulario grande (LVSR) que aprovecha los avances recientes en el uso de redes de creencias profundas para el reconocimiento telefónico. Describimos una arquitectura híbrida de modelo de Markov oculto (DNN-HMM) de red neuronal profunda previamente entrenada que entrena al DNN para producir una distribución sobre senones (estados triphone atados) como su salida
Por favor, si pudiera darme una explicación sobre esto, realmente lo agradecería.
EDITAR:
He encontrado esta definición en este artículo :
Proponemos modelar eventos subfonéticos con estados de Markov y tratar el estado en modelos fonéticos ocultos de Markov como nuestra unidad subfónica básica: senone . Un modelo de palabra es una concatenación de senones dependientes del estado y los senones se pueden compartir entre diferentes modelos de palabras.
Supongo que se usan en la parte del modelo Hidden Markov de la arquitectura en el primer artículo. ¿Son los estados del HMM? ¿Las salidas del DNN?
Respuestas:
Esto es lo que finalmente entendí:
En esta arquitectura, el DNN se utiliza para transformar el ruido en teléfonos.
La última capa del DNN está formada por todos los teléfonos posibles, con una neurona de salida por teléfono. La activación de estas neuronas es la probabilidad de que el ruido de entrada correspondiente a ese teléfono.
La combinación de estas activaciones es la entrada del modelo oculto de Markov y establece los senones del HMM, que obtiene una lista de textos candidatos mediante un diccionario.
Los senones son los estados del HMM, en la siguiente imagen, los senones serían x1 x2 y x3.
Por favor corríjame si he dicho algo mal, ¡espero que ayude!
fuente
En Reconocimiento de voz, a menudo incluimos algún contexto sobre teléfonos vecinos cuando modelamos un teléfono determinado. Esto significa que nuestro sistema no sólo conoce móviles para
A
,B
y así sucesivamente, pero en su lugar tiene un concepto paraE-then-A
,O-then-B
,X-then-A
y así sucesivamente.Estas unidades dependientes del contexto se llaman senones en la literatura , que por supuesto es una palabra inventada.
Para los sistemas de reconocimiento de voz, estos senones generalmente son iguales a los estados HMM del modelo acústico, que puede predecirse por una red neuronal, si se utiliza un enfoque híbrido DNN / HMM para el modelado acústico.
El término Senones fue acuñado por los desarrolladores del kit de herramientas de reconocimiento de voz Janus. Luego fue adoptado por Dong Yu y Li Deng para su libro ASR. Eso fue en el tiempo antes de que las NN se usaran para el modelado acústico. Por lo tanto, el término es confuso.
fuente
"Senones" fue nombrado por mí en 1992. Vea mi artículo ICASSP 1992: https://ieeexplore.ieee.org/document/225979 Es solo un nombre elegante para un grupo de estados compartidos de Markov, que representan eventos acústicos similares. Proviene del contraste con los fenones de IBM, donde la "f" significa "marco" y mi "s" significa "estado".
fuente
La idea inicial surgió de mi trabajo de 1991 en Eurospeech (ahora llamado Interspeech), donde utilicé el agrupamiento de arriba hacia abajo en los estados de Markov. Puede encontrar mi informe técnico de CMU en 1991 aquí: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d
En 1992, decidí moverlo a la agrupación de árboles para poder modelar también teléfonos CD no vistos.
fuente