Esta es una pregunta bastante genérica: suponga que quiero construir un modelo para predecir la próxima observación basada en la anterior. observaciones (puede ser un parámetro para optimizar experimentalmente). Básicamente, tenemos una ventana deslizante de características de entrada para predecir la próxima observación.
Puedo usar un enfoque de Modelo oculto de Markov, es decir, Baum-Welch para estimar un modelo, luego Viterbi para predecir un estado actual basado en el último observaciones, luego predice el siguiente estado más probable en función del estado actual, y luego predice la siguiente observación utilizando el siguiente estado más probable y los parámetros HMM (o variantes como encontrar la distribución predictiva de la próxima observación).
O puedo usar un enfoque mucho más simple, usando un modelo sin estado (que puede obtener como entrada el anterior observaciones), por ejemplo, SVM, regresión lineal, splines, árboles de regresión, vecinos más cercanos, etc. Tales modelos se basan en minimizar algún error de predicción sobre el conjunto de entrenamiento y, por lo tanto, conceptualmente, son mucho más simples que un modelo basado en estado oculto.
¿Alguien puede compartir su experiencia al tratar con una opción de modelado? ¿Qué hablaría a favor del HMM y qué a favor de un enfoque de regresión? Intuitivamente, uno debe tomar el modelo más simple posible para evitar un ajuste excesivo; esto habla a favor de un enfoque sin estado ... También tenemos que considerar que ambos enfoques obtienen los mismos datos de entrada para la capacitación (creo que esto implica que si no incorporamos conocimiento de dominio adicional en el modelado de un modelo de estado oculto, por ejemplo corregir ciertos estados y probabilidades de transición, no hay razón por la cual un modelo de estado oculto debería funcionar mejor). Al final, por supuesto, se puede jugar con ambos enfoques y ver qué funciona mejor en un conjunto de validación, pero algunas heurísticas basadas en la experiencia práctica también podrían ser útiles ...
Nota: para mí es importante predecir solo ciertos eventos; Prefiero un modelo que predice bien pocos eventos "interesantes / raros" , en lugar de un modelo que predice eventos "promedio / frecuentes", pero los interesantes no son tan buenos. Quizás esto tiene una implicación para la elección del modelado. Gracias.
Respuestas:
En resumen, creo que están trabajando en un paradigma de aprendizaje diferente.
El modelo de espacio de estado (modelo de estado oculto) y otro modelo sin estado que mencionó van a descubrir la relación subyacente de sus series de tiempo en diferentes paradigmas de aprendizaje: (1) estimación de máxima verosimilitud, (2) inferencia de Bayes, (3) empírica minimización de riesgos.
En el modelo de espacio de estado,
DejarXt como el estado oculto, yt como los observables, t > 0 (asuma que no hay control)
Asume la siguiente relación para el modelo:
yyt solo depende de Xt .
Cuando utiliza Baum-Welch para estimar los parámetros, de hecho está buscando una estimación de máxima verosimilitud del HMM. Si usa el filtro de Kalman, está resolviendo un caso especial de problema de filtro bayesiano (que de hecho es una aplicación del teorema de Bayes en el paso de actualización):
Paso de predicción:
Paso de actualización:
En el filtro de Kalman, dado que suponemos que la estadística de ruido es gaussiana y la relación dePAGS(XtEl |Xt - 1) y PAGS(ytEl |Xt) son lineales Por eso puedes escribirPAGS(XtEl |y1 : t - 1) y PAGS(XtEl |y1 : t) simplemente como el Xt (media + varianza es suficiente para la distribución normal) y el algoritmo funciona como fórmulas matriciales.
Por otro lado, para otro modelo sin estado que mencionó, como SVM, splines, árboles de regresión, vecinos más cercanos. Están tratando de descubrir la relación subyacente de( {y0 0,y1, . . . ,yt - 1} ,yt) por minimización empírica del riesgo.
Para la estimación de máxima verosimilitud, primero debe parametrizar la distribución de probabilidad subyacente (como HMM, tiene la matriz de transición, los valores observables son(μj,σj) para algunos j )
Para la aplicación del teorema de Bayes, debe tener "corregir" a prioriPAGS( A ) primero en el sentido de que PAGS( A ) ≠ 0 . SiPAGS( A ) = 0 , entonces cualquier inferencia da como resultado 0 0 ya que PAGS( A | B ) =PAGS( B | A ) P( A )PAGS( B ) .
Para la minimización empírica del riesgo, se garantiza la coherencia universal para cualquier distribución de probabilidad subyacente si la dimensión VC de la regla de aprendizaje no crece demasiado rápido como el número de datos disponiblesn → ∞
fuente