El reconocimiento de voz no es un ejemplo tan complejo como piensas.
Primero, imagine crear una Cadena de Markov (MC) que reconoce el texto. Su programa lee un montón de texto (perfecto, sin errores) y calcula estados (palabras) y cambios de estado (próximas palabras). Parece que has entendido esto. Ahora podría generar texto o, si se le proporciona algo de texto, predecir la siguiente palabra utilizando los estados y las probabilidades de transición de su MC.
Ahora imagine que quiere usar su MC con voz. Simplemente hará que la gente lea un texto similar a su MC y ya está listo, ¿verdad? Bueno ... Excepto que van a pronunciar las palabras de manera diferente: donde el texto escrito dice "papa", en realidad escuchará "po-TAY-toh" y "po-TAH-toh" y "pu-TAY -to ", etc. Y viceversa: el texto" comió "y" ocho "representan dos estados diferentes, pero (generalmente) se pronuncian igual.
Su algoritmo ya no ve los estados subyacentes (palabras), ve una distribución probabilística de pronunciaciones para cada palabra. Tu MC original está oculto detrás de las pronunciaciones, y ahora tu modelo debe tener dos capas.
Para que muchas personas lean en voz alta el texto que usó en su entrenamiento original, podría obtener una distribución de las pronunciaciones de cada palabra, y luego combinar su modelo original con el modelo de pronunciación y tendrá un Modelo de Markov Oculto ( un HMM)
La mayoría de los problemas del mundo real serán así, ya que el mundo real tiende a ser ruidoso. En realidad, no sabrá en qué estado se encuentra algo. En cambio, obtendrá una variedad de indicadores para cada estado: a veces el mismo indicador para diferentes estados ("ate" y "ocho") y, a veces, diferentes indicadores para el mismo estado ("pu-TAY-toe" y "pah-tah-TOE"). Por lo tanto, los HMM son más adecuados para problemas del mundo real.
[Dos notas al margen: 1) el reconocimiento de voz real funciona a nivel de fonema, no a nivel de palabra, y 2) Creo que los HMM fueron los reyes de la colina para el reconocimiento de voz, pero recientemente han sido destronados por redes neuronales profundas.]