Estoy usando el filtro de Kalman de una manera muy estándar. El sistema está representado por la ecuación de estado y la ecuación de observación .
Los libros de texto enseñan que después de aplicar el filtro de Kalman y conseguir las "previsiones de un solo paso-a (o "estimación filtrada"), deberíamos usarlos para calcular la función de probabilidad:
Mi pregunta es: ¿Por qué se calcula la función de probabilidad utilizando la "estimación filtrada" y no la "estimación suavizada" ? ¿No es una mejor estimación del vector de estado?
likelihood
kalman-filter
Gustavo Amarante
fuente
fuente
Respuestas:
Para responder a su pregunta: puede usar la densidad de suavizado. Pero no tienes que hacerlo. La respuesta de Jarle Tufto tiene la descomposición que estás usando. Pero hay otros.
Usando las recursiones de Kalman
Aquí está evaluando la probabilidad como
Sin embargo, las medias y las variaciones no siempre definen completamente las distribuciones de probabilidad en general. La siguiente es la descomposición que está utilizando para pasar de filtrar distribuciones a probabilidades condicionales :f(xi−1|y1,…,yi−1) f(yi|y1,…,yi−1)
Aquí es la densidad de transición de estado ... parte del modelo, y es la densidad de observación ... parte del modelo nuevamente. En su pregunta, escriba estos como y respectivamente. Es lo mismo.f(xi|xi−1) f(yi|xi) xt+1=Fxt+vt+1 yt=Hxt+Azt+wt
Cuando obtiene la distribución de predicción de estado de un paso adelante, se calcula . Cuando te integras de nuevo, obtienes (1) completamente. Escribe esa densidad completamente en su pregunta, y es lo mismo.∫f(xi|xi−1)f(xi−1|y1,…,yi−1)dxi−1
Aquí solo está usando descomposiciones de distribuciones de probabilidad y suposiciones sobre el modelo. Este cálculo de probabilidad es un cálculo exacto. No hay nada discrecional que pueda usar para hacer esto mejor o peor.
Usando el algoritmo EM
Que yo sepa, no hay otra forma de evaluar la probabilidad directamente en este tipo de modelo de espacio de estado. Sin embargo, aún puede hacer una estimación de máxima probabilidad evaluando una función diferente: puede usar el algoritmo EM. En el paso Expectativa (E-Step) calcularías Aquí
Otras cosas
He leído en algunos lugares que el EM es una forma "más estable" de maximizar la probabilidad, pero nunca he visto este punto argumentado bien, ni he visto esta palabra "estable" definida, pero tampoco he Realmente examiné esto más a fondo. Ninguno de estos algoritmos puede sortear la terrible experiencia máxima local / global. Yo personalmente tiendo a usar el Kalman más a menudo solo por costumbre.
Es cierto que las estimaciones uniformes del estado tienen una varianza menor que el filtrado, por lo que creo que tiene razón para tener alguna intuición al respecto, pero en realidad no está utilizando los estados. La probabilidad de que intentes maximizar no es una función de los estados.
fuente
En general, según la regla del producto, la probabilidad exacta se puede escribir A partir del supuesto del modelo de espacio de estados, se deduce que el vector de expectativa y la matriz de varianza de cada condicional en observaciones pasadas se pueden expresar como y
Si bien, por supuesto, podría usar las estimaciones suavizadas que, de hecho, son mejores estimaciones de los estados desconocidos, esto no le daría la función de probabilidad. En efecto, estaría utilizando el valor observado de para estimar su propio valor esperado, por lo que parece probable que esto conduzca a un sesgo en las estimaciones resultantes.yi
fuente
Creo que una mejor respuesta a "por qué" no se usa la distribución de suavizado (típicamente) es la eficiencia. En principio, es sencillo calcular la probabilidad marginal (suavizado) en un sentido de dejar uno afuera de la siguiente manera. Eliminar la observación j, ejecutar el Kalman más suave en los datos restantes. Luego evalúe la probabilidad de lo invisible y (j). Repita esto para todo j. Resuma las probabilidades de registro. Las versiones más rápidas de esto funcionan con bloques (aleatorios) de muestras retenidas (como k-fold CV). Tenga en cuenta que este esquema requiere una implementación más general del filtro / suavizador Kalman que puede omitir arbitrariamente las actualizaciones de medición donde sea necesario. La pasada hacia atrás / suavizado no accede a las mediciones (algoritmo RTS de todos modos) y permanece igual.
Si la serie temporal es "lo suficientemente larga", es probable que haya pocos beneficios útiles al hacerlo, ya que la probabilidad de filtrado "quema" su transitorio inicial. Pero si el conjunto de datos es corto, la probabilidad de suavizado más costosa puede valer la pena. Un retraso más suave podría ser una solución intermedia.
fuente