Modelo de Markov oculto vs Modelo de transición de Markov vs Modelo de espacio-estado ...?

18

Para mi tesis de maestría, estoy trabajando en el desarrollo de un modelo estadístico para las transiciones entre diferentes estados, definido por el estado serológico. Por ahora, no daré demasiados detalles en este contexto, ya que mi pregunta es más general / teórica. De todos modos, mi intuición es que debería estar usando un modelo oculto de Markov (HMM); El problema con el que me encuentro al leer la literatura y otras investigaciones de fondo necesarias para formular mi modelo es la confusión sobre la terminología y las diferencias exactas entre los diferentes tipos de modelos de procesos ocultos. Soy muy vagamente consciente de lo que los distingue (ejemplos por venir). Además, me parece que, al menos por lo que he visto en la literatura, hay un vocabulario muy no estándar creado en torno a este tipo de modelado,

Entonces, esperaba que las personas me puedan ayudar a desambiguar algunos de estos términos para mí. Tengo una serie de preguntas, pero supongo que a medida que una o dos reciban una respuesta satisfactoria, el resto se desenredará como resultado. Espero que esto no sea demasiado largo; si un moderador quiere que divida esto en varias publicaciones, lo haré. En cualquier caso, puse mis preguntas en negrita, seguidas de los detalles de la pregunta que descubrí durante mi búsqueda en la literatura.

Entonces, en ningún orden en particular:

1) ¿Qué es exactamente un "modelo de proceso oculto"?

He estado operando bajo la impresión de que "modelo de proceso oculto" es una especie de término general que se puede usar para describir varios tipos diferentes de modelos estadísticos, todas descripciones esencialmente probabilísticas de datos de series temporales generadas por "un sistema de superposición, procesos potencialmente aditivos linealmente ocultos "([1]). De hecho, [2] define un "modelo de proceso oculto" como "un término general que se refiere a un modelo de espacio de estado o un modelo oculto de Markov". [1] parece inferir que un modelo oculto de Markov es un subtipo de modelos de proceso ocultos orientados específicamente a la inferencia en estados binarios; La implicación básica me parece que un modelo de proceso oculto es una generalización de un modelo oculto de Markov. A veces veo "modelo de proceso oculto" Y la frase "

¿Es correcta esta intuición de mi parte? Si no, ¿alguien tiene una referencia que delinee más claramente estos métodos?

2) ¿Cuál es la diferencia entre un modelo oculto de Markov y un modelo de espacio de estado?

Nuevamente volviendo a [2] (aunque solo sea porque el documento viene con un claro glosario de términos, no porque el documento en sí parece ser particularmente autoritario; es solo una fuente conveniente de definiciones de una oración), la diferencia parece ser que un modelo oculto de Markov es un tipo específico de modelo de espacio de estados en el que los estados son markovianos (no parece haber una restricción definitiva en el orden del proceso de Markov; es decir, primer orden, ..., orden k). Aquí, un modelo de espacio de estado se define como "Un modelo que ejecuta dos series de tiempo en paralelo, una captura la dinámica de los estados verdaderos (latentes) y la otra consiste en observaciones que se hacen a partir de estos estados subyacentes pero posiblemente desconocidos". Si esos estados también exhiben la propiedad de Markov, entonces es un Modelo de Markov Oculto.

Sin embargo, [3] define la diferencia entre los modelos de espacio de estado y los modelos ocultos de Markov como relacionados con las características del estado latente. Aquí, un modelo oculto de Markov trata con estados discretos, mientras que los modelos de espacio de estado tratan con estados continuos; de lo contrario, son conceptualmente idénticos.

Estas me parecen dos definiciones muy diferentes. Debajo de uno, un modelo oculto de Markov es un subtipo de modelo de espacio de estado, mientras que debajo del otro son dos instancias diferentes de una clase más amplia de modelos de procesos ocultos. ¿Cuál de estos es correcto? Mi intuición me indica que siga [3] en lugar de [2], pero no puedo encontrar una fuente autorizada que respalde esto.

3) ¿Qué es un "modelo de transición de Markov"?

Otro término que ha surgido en muchas fuentes es "modelo de transición de Markov". No he podido encontrar esta frase en ningún libro de texto, pero aparece mucho en artículos de revistas (simplemente conéctela a Google para confirmar). No he podido encontrar una definición rigurosa del término (cada artículo que encuentro cita otro artículo, que cita otro, etc., enviándome por un agujero de conejo de PubMed que no conduce a ninguna parte). Mi impresión del contexto es que es un término muy general referirse a cualquier modelo en el que el objeto de inferencia es las transiciones entre estados que siguen un proceso de Markov, y que un Modelo de Markov Oculto puede considerarse un tipo específico de modelo de transición de Markov . [4], sin embargo, parece utilizar el modelo de transición, el modelo oculto de Markov y varios términos similares indistintamente.

Por otro lado, [5] habla sobre los modelos de transición de Markov y los modelos de Markov ocultos de manera un poco diferente. Los autores afirman: "Los modelos de transición proporcionan un método para resumir la dinámica de los encuestados que son útiles para interpretar los resultados de modelos de Markov ocultos más complejos". No entiendo completamente lo que quieren decir con esta frase, y no puedo encontrar una justificación para ello en otra parte del documento. Sin embargo, parecen implicar que los modelos de transición de Markov usan el tiempo como una variable continua, mientras que los modelos ocultos de Markov usan el tiempo como una variable discreta (no lo dicen directamente; dicen que usan el paquete R 'msm' para adaptarse a la transición de Markov modelos, y luego describen 'msm' como tiempo de tratamiento continuo en contraste con el paquete R para HMMs).

4) ¿Dónde encajan otros conceptos, por ejemplo Dynamic Bayesian Networks?

Según Wikipedia, una Red Bayesiana Dinámica es una "generalización de modelos ocultos de Markov y filtros de Kalman". En otro lugar, he visto modelos ocultos de Markov definidos como un caso especial de una Red Bayesiana Dinámica, "en la que todo el estado del mundo está representado por una sola variable de estado oculta" (¿ Definición del sistema Bayesiano dinámico y su relación con HMM? ) . Generalmente entiendo esta relación, y está bien explicada por [6].

Sin embargo, me está costando entender cómo esta relación encaja en la imagen más amplia de las cosas. Es decir, dada esta relación entre HMM y DBN, ¿cómo se relacionan los modelos de espacio de estado y los modelos de proceso ocultos entre los dos? ¿Cómo se interrelacionan todos estos diferentes tipos de métodos, dado que parece haber múltiples "generalizaciones" de modelos ocultos de Markov?


Referencias

[1] Tom M. Mitchell, Rebecca Hutchinson, Indrayana Rustandi. "Modelos de procesos ocultos". 2006. CMU-CALD-05-116. Universidad de Carnegie mellon.

[2] Oliver Giminez, Jean-Dominique Lebreton, Jean-Michel Gaillard, Remi Choquet, Roger Pradel. "Estimación de parámetros demográficos utilizando modelos dinámicos de procesos ocultos". Biología teórica de la población. 2012. 82 (4): 307-316.

[3] Barbara Engelhardt. "Modelos ocultos de Markov y modelos de espacio de estado". STA561: aprendizaje automático probabilístico. Duke University. http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf

[4] Jeroen K. Vermunt. "Modelado de Markov latente multinivel en tiempo continuo con una aplicación para el análisis de datos de evaluación del estado de ánimo ambulatorio". Taller de estadísticas sociales. 2012. Universidad de Tilburg. http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf

[5] Ken Richardson, David Harte, Kristie Carter. "Comprender las transiciones de salud y mano de obra: aplicación de modelos de Markov a los datos longitudinales de SoFIE". Serie oficial de investigación estadística. 2012

[6] Zoubin Ghahramani. "Una introducción a los modelos ocultos de Markov y redes bayesianas". Revista de reconocimiento de patrones e inteligencia artificial. 2001. 15 (1): 9-42.

Ryan Simmons
fuente
También es posible que desee probar una red neuronal recurrente. En el reconocimiento de voz, algunos los han utilizado con éxito como reemplazo de un HMM.
Albert
Gracias por la sugerencia. Sin embargo, por el momento preferiría aclarar mis preguntas sobre estas técnicas antes de estudiar otras nuevas.
Ryan Simmons
Se refieren a lo mismo. Consulte scholarpedia.org/article/State_space_model Sangdon
2
@ Ryan Simmons Creo que sería una buena idea echar un vistazo a los videos de Mathmonmonk (también conocido como Jeffrey Miller) sobre las cadenas de Markov y los modelos ocultos de Markov en YouTube.
JimBoy
Dado que probablemente ya haya entregado su tesis, ¿le gustaría responder esta pregunta usted mismo? Por mi parte, me gustaría que los expertos respondieran aquí, lo que probablemente también se aplica a las casi 800 personas que leen esta pregunta.
Ulf Aslak

Respuestas:

4

Lo siguiente se cita del sitio web de Scholarpedia :

El modelo de espacio de estado (SSM) se refiere a una clase de modelo gráfico probabilístico (Koller y Friedman, 2009) que describe la dependencia probabilística entre la variable de estado latente y la medición observada. El estado o la medición pueden ser continuos o discretos. El término "espacio de estado" se originó en la década de 1960 en el área de ingeniería de control (Kalman, 1960). SSM proporciona un marco general para analizar sistemas dinámicos deterministas y estocásticos que se miden u observan a través de un proceso estocástico. El marco SSM se ha aplicado con éxito en ingeniería, estadística, informática y economía para resolver una amplia gama de problemas de sistemas dinámicos. Otros términos utilizados para describir los SSM son modelos ocultos de Markov (HMM) (Rabiner, 1989) y modelos de procesos latentes. El SSM más estudiado es el filtro de Kalman,

usuario93693
fuente
3

Yo y Alan Hawkes hemos escrito mucho sobre procesos agregados de Markov con estados discretos en tiempo continuo. Nuestro tema ha sido sobre el problema de interpretar observaciones de moléculas de un solo canal iónico e incluye un tratamiento exacto de eventos cortos perdidos. Una teoría similar también funciona en la teoría de la confiabilidad. Bien podría adaptarse a otros problemas. Ver http://www.onemol.org.uk/?page_id=175 para referencias.

David Colquhoun
fuente