Modelos de estado ocultos versus modelos sin estado para regresión de series de tiempo

8

Esta es una pregunta bastante genérica: suponga que quiero construir un modelo para predecir la próxima observación basada en la anterior. N observaciones (Npuede ser un parámetro para optimizar experimentalmente). Básicamente, tenemos una ventana deslizante de características de entrada para predecir la próxima observación.

Puedo usar un enfoque de Modelo oculto de Markov, es decir, Baum-Welch para estimar un modelo, luego Viterbi para predecir un estado actual basado en el último N observaciones, luego predice el siguiente estado más probable en función del estado actual, y luego predice la siguiente observación utilizando el siguiente estado más probable y los parámetros HMM (o variantes como encontrar la distribución predictiva de la próxima observación).

O puedo usar un enfoque mucho más simple, usando un modelo sin estado (que puede obtener como entrada el anteriorN observaciones), por ejemplo, SVM, regresión lineal, splines, árboles de regresión, vecinos más cercanos, etc. Tales modelos se basan en minimizar algún error de predicción sobre el conjunto de entrenamiento y, por lo tanto, conceptualmente, son mucho más simples que un modelo basado en estado oculto.

¿Alguien puede compartir su experiencia al tratar con una opción de modelado? ¿Qué hablaría a favor del HMM y qué a favor de un enfoque de regresión? Intuitivamente, uno debe tomar el modelo más simple posible para evitar un ajuste excesivo; esto habla a favor de un enfoque sin estado ... También tenemos que considerar que ambos enfoques obtienen los mismos datos de entrada para la capacitación (creo que esto implica que si no incorporamos conocimiento de dominio adicional en el modelado de un modelo de estado oculto, por ejemplo corregir ciertos estados y probabilidades de transición, no hay razón por la cual un modelo de estado oculto debería funcionar mejor). Al final, por supuesto, se puede jugar con ambos enfoques y ver qué funciona mejor en un conjunto de validación, pero algunas heurísticas basadas en la experiencia práctica también podrían ser útiles ...

Nota: para mí es importante predecir solo ciertos eventos; Prefiero un modelo que predice bien pocos eventos "interesantes / raros" , en lugar de un modelo que predice eventos "promedio / frecuentes", pero los interesantes no son tan buenos. Quizás esto tiene una implicación para la elección del modelado. Gracias.

Mannaggia
fuente
¿Puedes aclarar por qué crees que los modelos de regresión son necesariamente apátridas ? Los modelos de regresión lineal dinámica (en los que los valores previos de la predicción y se incluyen en el lado derecho de la ecuación del modelo) parecen estar muy condicionados por el estado . Pero tal vez me estoy perdiendo algo.
Alexis
Gracias por leer la pregunta. Diría que es un poco una cuestión de semántica, también doy un ejemplo de modelos de regresión que incluyen los valores de observación n-pasado en el lado derecho del modelo, tal modelo es, por supuesto, dinámico. Sin embargo, me refería más al concepto de una variable oculta / latente para la cual usualmente se usan técnicas EM para encontrar el modelo versus modelos para los cuales no tenemos tales estados ocultos (es decir, los estados son observables, son las observaciones). Desde una perspectiva práctica y pragmática, ¿es posible saber qué funciona mejor y cuándo?
Mannaggia
Me perdí el hecho de que te refieres a los valores pasados ​​de la predicción como entradas. ¿Son tales modelos el equivalente de un modelo de estado oculto (en principio solo incluirían más que N observación, reemplazando la ecuación para las predicciones pasadas)? la pregunta es más si observamos el estado y lo modelamos o si inferimos el estado dada una suposición del modelo. Sin embargo, estoy más interesado en el aspecto práctico, no en el matemático. Es decir, ¿es posible determinar en qué condiciones el enfoque de uno u otro funciona mejor? (Creo que ningún teorema puede proporcionar una respuesta a esta pregunta)
Mannaggia
1
Quizás esta pregunta anterior es la mitad de la pregunta presentada aquí.
Meadowlark Bradsher

Respuestas:

1

En resumen, creo que están trabajando en un paradigma de aprendizaje diferente.

El modelo de espacio de estado (modelo de estado oculto) y otro modelo sin estado que mencionó van a descubrir la relación subyacente de sus series de tiempo en diferentes paradigmas de aprendizaje: (1) estimación de máxima verosimilitud, (2) inferencia de Bayes, (3) empírica minimización de riesgos.

En el modelo de espacio de estado,

Dejar Xt como el estado oculto, yt como los observables, t>0 0 (asuma que no hay control)

Asume la siguiente relación para el modelo:

PAGS(X0 0) como prior

PAGS(XtEl |Xt-1) para t1 como cómo cambia su estado (en HMM, es una matriz de transición)

PAGS(ytEl |Xt) para t1 como observas (en HMM, podrían ser distribuciones normales que condicionen Xt)

y yt solo depende de Xt.

Cuando utiliza Baum-Welch para estimar los parámetros, de hecho está buscando una estimación de máxima verosimilitud del HMM. Si usa el filtro de Kalman, está resolviendo un caso especial de problema de filtro bayesiano (que de hecho es una aplicación del teorema de Bayes en el paso de actualización):

Paso de predicción:

PAGS(XtEl |y1:t-1)=PAGS(XtEl |Xt-1)PAGS(Xt-1El |y1:t-1)reXt-1

Paso de actualización:

PAGS(XtEl |y1:t)=PAGS(ytEl |Xt)PAGS(XtEl |y1:t-1)PAGS(ytEl |Xt)PAGS(XtEl |y1:t-1)reXt

En el filtro de Kalman, dado que suponemos que la estadística de ruido es gaussiana y la relación de PAGS(XtEl |Xt-1) y PAGS(ytEl |Xt)son lineales Por eso puedes escribirPAGS(XtEl |y1:t-1) y PAGS(XtEl |y1:t) simplemente como el Xt (media + varianza es suficiente para la distribución normal) y el algoritmo funciona como fórmulas matriciales.

Por otro lado, para otro modelo sin estado que mencionó, como SVM, splines, árboles de regresión, vecinos más cercanos. Están tratando de descubrir la relación subyacente de({y0 0,y1,...,yt-1},yt) por minimización empírica del riesgo.

Para la estimación de máxima verosimilitud, primero debe parametrizar la distribución de probabilidad subyacente (como HMM, tiene la matriz de transición, los valores observables son (μj,σj) para algunos j)

Para la aplicación del teorema de Bayes, debe tener "corregir" a priori PAGS(UNA) primero en el sentido de que PAGS(UNA)0 0. SiPAGS(UNA)=0 0, entonces cualquier inferencia da como resultado 0 0 ya que PAGS(UNAEl |si)=PAGS(siEl |UNA)PAGS(UNA)PAGS(si).

Para la minimización empírica del riesgo, se garantiza la coherencia universal para cualquier distribución de probabilidad subyacente si la dimensión VC de la regla de aprendizaje no crece demasiado rápido como el número de datos disponibles norte

wonghang
fuente