¿Cuáles son los senones en una red neuronal profunda?

9

Estoy leyendo este artículo: el traductor de Skype donde usan CD-DNN-HMM (Redes neuronales profundas dependientes del contexto con modelos ocultos de Markov). Puedo entender la idea del proyecto y la arquitectura que han diseñado, pero no entiendo cuáles son los senones . He estado buscando una definición pero no he encontrado nada

—Proponemos un modelo novedoso dependiente del contexto (CD) para el reconocimiento de voz de vocabulario grande (LVSR) que aprovecha los avances recientes en el uso de redes de creencias profundas para el reconocimiento telefónico. Describimos una arquitectura híbrida de modelo de Markov oculto (DNN-HMM) de red neuronal profunda previamente entrenada que entrena al DNN para producir una distribución sobre senones (estados triphone atados) como su salida

Por favor, si pudiera darme una explicación sobre esto, realmente lo agradecería.

EDITAR:

He encontrado esta definición en este artículo :

Proponemos modelar eventos subfonéticos con estados de Markov y tratar el estado en modelos fonéticos ocultos de Markov como nuestra unidad subfónica básica: senone . Un modelo de palabra es una concatenación de senones dependientes del estado y los senones se pueden compartir entre diferentes modelos de palabras.

Supongo que se usan en la parte del modelo Hidden Markov de la arquitectura en el primer artículo. ¿Son los estados del HMM? ¿Las salidas del DNN?

davidivad
fuente
Un senone es un término de reconocimiento de voz. ¿Es esa la definición que está buscando o una aclaración de cómo se modelan en ese documento?
Sean Easter
Más como la aplicación de entonces al DNN-HMM. ¿Son los estados en el HMM pero también las salidas del DNN?
davidivad
1
Este artículo describe senones con cierto detalle ... cmusphinx.sourceforge.net/wiki/tutorialconcepts
Mike Hunter

Respuestas:

7

Esto es lo que finalmente entendí:

En esta arquitectura, el DNN se utiliza para transformar el ruido en teléfonos.

En fonética y lingüística, la palabra teléfono puede referirse a cualquier sonido o gesto del habla considerado como un evento físico, independientemente de su lugar en la fonología de un idioma.

ingrese la descripción de la imagen aquí

La última capa del DNN está formada por todos los teléfonos posibles, con una neurona de salida por teléfono. La activación de estas neuronas es la probabilidad de que el ruido de entrada correspondiente a ese teléfono.

La combinación de estas activaciones es la entrada del modelo oculto de Markov y establece los senones del HMM, que obtiene una lista de textos candidatos mediante un diccionario.

Los senones son los estados del HMM, en la siguiente imagen, los senones serían x1 x2 y x3.

ingrese la descripción de la imagen aquí

Por favor corríjame si he dicho algo mal, ¡espero que ayude!

davidivad
fuente
1
@daviddavid, agregué una respuesta que debería explicar un poco más claramente qué es un senone. Todo el tema del modelado acústico / senone es un poco desordenado en la literatura.
Emiswelt
2

En Reconocimiento de voz, a menudo incluimos algún contexto sobre teléfonos vecinos cuando modelamos un teléfono determinado. Esto significa que nuestro sistema no sólo conoce móviles para A, By así sucesivamente, pero en su lugar tiene un concepto para E-then-A, O-then-B, X-then-Ay así sucesivamente.

Estas unidades dependientes del contexto se llaman senones en la literatura , que por supuesto es una palabra inventada.

Para los sistemas de reconocimiento de voz, estos senones generalmente son iguales a los estados HMM del modelo acústico, que puede predecirse por una red neuronal, si se utiliza un enfoque híbrido DNN / HMM para el modelado acústico.

El término Senones fue acuñado por los desarrolladores del kit de herramientas de reconocimiento de voz Janus. Luego fue adoptado por Dong Yu y Li Deng para su libro ASR. Eso fue en el tiempo antes de que las NN se usaran para el modelado acústico. Por lo tanto, el término es confuso.

Emiswelt
fuente
1

"Senones" fue nombrado por mí en 1992. Vea mi artículo ICASSP 1992: https://ieeexplore.ieee.org/document/225979 Es solo un nombre elegante para un grupo de estados compartidos de Markov, que representan eventos acústicos similares. Proviene del contraste con los fenones de IBM, donde la "f" significa "marco" y mi "s" significa "estado".

Mei-Yuh Hwang
fuente
agregue una referencia completa para su enlace en caso de que muera en el futuro
Antoine
0

La idea inicial surgió de mi trabajo de 1991 en Eurospeech (ahora llamado Interspeech), donde utilicé el agrupamiento de arriba hacia abajo en los estados de Markov. Puede encontrar mi informe técnico de CMU en 1991 aquí: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d

En 1992, decidí moverlo a la agrupación de árboles para poder modelar también teléfonos CD no vistos.

Mei-Yuh Hwang
fuente
agregue una referencia completa para su enlace en caso de que muera en el futuro
Antoine