Uso de filtros Kalman para imputar valores perdidos en series temporales

12

Estoy interesado en cómo se pueden usar los filtros Kalman para imputar valores faltantes en los datos de series temporales. ¿También es aplicable si faltan algunos puntos de tiempo consecutivos? No puedo encontrar mucho sobre este tema. Cualquier explicación, comentario y enlace son bienvenidos y apreciados.

data-imputation kalman-filter GS9
fuente

Te puede interesar esta publicación . Da un ejemplo basado en la representación de espacio de estado de un modelo ARIMA para imputar valores perdidos por medio del filtro de Kalman.

javlacalle

@javlacalle gracias, ya conocía esta publicación y es un gran ejemplo para una implementación concreta. Pero estoy bastante interesado en los antecedentes teóricos.

GS9

9

Preliminares: filtrado de Kalman :

Los filtros Kalman operan en modelos de espacio de estado de la forma (hay varias formas de escribirlo; esta es fácil basada en Durbin y Koopman (2012) ; todo lo siguiente se basa en ese libro, que es excelente):

\begin{aligned} y_{t} & = Z α_{t} + ε_{t} & ε_{t} \sim N (0, H) \\ α_{t_{1}} & = T α_{t} + η_{t} & η_{t} \sim N (0, Q) \\ α_{1} & \sim N (a_{1}, P_{1}) \end{aligned}

$\begin{align} y_t & = Z \alpha_t + \varepsilon_t \qquad & \varepsilon_t \sim N(0, H) \\ \alpha_{t_1} & = T \alpha_t + \eta_t & \eta_t \sim N(0, Q) \\ \alpha_1 & \sim N(a_1, P_1) \end{align}$

donde es la serie observada (posiblemente con valores faltantes) pero se completo. La primera ecuación (la ecuación de "medición") dice que los datos observados están relacionados con los estados no observados de una manera particular. La segunda ecuación (la ecuación de "transición") dice que los estados no observados evolucionan con el tiempo de una manera particular. $y_t$ $\alpha_t$

El filtro de Kalman funciona para encontrar estimaciones óptimas de ( se supone que es Normal: , por lo que lo que realmente hace el filtro de Kalman es calcular la media condicional y la varianza de la distribución para condicional en observaciones hasta el tiempo ). $\alpha_t$ $\alpha_t$ $\alpha_t \sim N(a_t, P_t)$ $\alpha_t$ $t$

En el caso típico (cuando hay observaciones disponibles), el filtro de Kalman usa la estimación del estado actual y la observación actual para hacer lo mejor posible para estimar el siguiente estado , de la siguiente manera: $y_t$ $\alpha_{t+1}$

\begin{aligned} a_{t + 1} & = T a_{t} + K_{t} (y_{t} - Z α_{t}) \\ P_{t + 1} & = T P_{t} (T - K_{t} Z)^{'} + Q \end{aligned}

$\begin{align} a_{t+1} & = T a_t + K_t (y_t - Z \alpha_t) \\ P_{t+1} & = T P_t (T - K_t Z)' + Q \end{align}$

donde es la "ganancia de Kalman". $K_t$

Cuando no hay una observación, el filtro de Kalman todavía quiere calcular y de la mejor manera posible. Como no está disponible, no puede hacer uso de la ecuación de medición, pero aún puede usar la ecuación de transición . Por lo tanto, cuando falta , el filtro de Kalman calcula en su lugar: $a_{t+1}$ $P_{t+1}$ $y_t$ $y_t$

\begin{aligned} a_{t + 1} & = T a_{t} \\ P_{t + 1} & = T P_{t} T^{'} + Q \end{aligned}

$\begin{align} a_{t+1} & = T a_t \\ P_{t+1} & = T P_t T' + Q \end{align}$

Esencialmente, dice que dado , mi mejor suposición en cuanto a sin datos es solo la evolución especificada en la ecuación de transición. Esto se puede realizar para cualquier cantidad de períodos de tiempo con datos faltantes. $\alpha_t$ $\alpha_{t+1}$

Si no es de datos , a continuación, el primer conjunto de ecuaciones de filtrado tomar la mejor conjetura sin datos, y añadir una "corrección" en, sobre la base de lo buena que era la estimación anterior. $y_t$

Datos de imputación :

Una vez que el filtro de Kalman se ha aplicado a toda la gama de tiempo, usted tiene estimaciones óptimas de los estados para . Imputar datos es simple a través de la ecuación de medición. En particular, solo calcula: $a_t, P_t$ $t = 1, 2, \dots, T$

{\hat{y}}_{t} = Z a_{t}

$\hat y_t = Z a_t$

En cuanto a una referencia, Durbin y Koopman (2012) son excelentes; la sección 4.10 discute las observaciones faltantes.

Durbin, J. y Koopman, SJ (2012). Análisis de series de tiempo por métodos de espacio de estado (No. 38). Prensa de la Universidad de Oxford.

cfulton
fuente

Usar la solución más fluida tendría más sentido para imputar (dado que uno ya tiene todos los datos (no faltantes), ¿por qué no usar la información en los valores futuros también?)

Juho Kokkala

0

El ejemplo en la publicación que señala javlacalle en su comentario presenta puntos de tiempo perdidos consecutivos. También podría estar interesado en intervalos alrededor de los valores imputados (pronosticados en la muestra), cuyo cálculo aparece en este documento del Espacio de Estado , en la sección 2.1.

Otro artículo que podría ser interesante es este .

Wayne
fuente

Uso de filtros Kalman para imputar valores perdidos en series temporales

Respuestas: