Detección de punto de cambio bayesiano en línea (distribución predictiva marginal)

Estoy leyendo el artículo de detección de punto de cambio en línea Bayesiano de Adams y MacKay ( enlace ).

Los autores comienzan escribiendo la distribución predictiva marginal: donde

P (x_{t + 1} | x_{1 : t}) = \sum_{r_{t}} P (x_{t + 1} | r_{t}, x_{t}^{(r)}) P (r_{t} | x_{1 : t}) (1)

$P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t} P(x_{t+1} | r_t, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) \qquad \qquad (1)$

$x_t$ es la observación en el tiempo ; $t$
$\textbf{x}_{1:t}$ denota el conjunto de observación hasta el tiempo ; $t$
$r_t \in \mathbb{N}$ es la longitud de ejecución actual (tiempo desde el último punto de cambio, puede ser 0); y
$\textbf{x}_t^{(r)}$ es el conjunto de observaciones asociadas con la ejecución . $r_t$

Eq. 1 es formalmente correcto (vea la respuesta a continuación por @JuhoKokkala), pero entiendo que si realmente desea hacer una predicción sobre necesitaría expandirla de la siguiente manera: $x_{t+1}$

P (x_{t + 1} | x_{1 : t}) = \sum_{r_{t}, r_{t + 1}} P (x_{t + 1} | r_{t + 1}, x_{t}^{(r)}) P (r_{t} | x_{1 : t}) P (r_{t + 1} | r_{t}) (1 b)

$P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t, r_{t+1}} P(x_{t+1} | r_{t+1}, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) P(r_{t+1} | r_t) \qquad (1\text{b})$

Mi razonamiento es que bien podría haber un punto de cambio en el tiempo (futuro) , pero la posterior solo cubre hasta . $t+1$ $P(r_t | \textbf{x}_{1:t})$ $t$

El punto es que los autores en el artículo nos hacen de la ecuación. 1 como está (ver las ecuaciones 3 y 11 en el documento), y no 1b. Entonces, aparentemente ignoran la posibilidad de un punto de cambio en el tiempo cuando predicen partir de los datos disponibles en el tiempo . Al comienzo de la Sección 2 dicen en passant $t+1$ $x_{t+1}$ $t$

Suponemos que podemos calcular la distribución predictiva [para ] condicional en una longitud de ejecución dada . $x_{t+1}$ $r_t$

que tal vez es donde está el truco. Pero en general, esta distribución predictiva debería parecerse a la ecuación. 1b; que no es lo que hacen (Ec. 11).

Entonces, no estoy seguro de entender lo que está sucediendo. Tal vez hay algo divertido con la notación.

Referencia

Adams, RP y MacKay, DJ (2007). Detección bayesiana de puntos de cambio en línea. preimpresión de arXiv arXiv: 0710.3742.

time-series bayesian inference change-point lacerbi
fuente

Una posible explicación es que representa la longitud de la ejecución al final del paso de tiempo , que está después del punto de cambio en el tiempo . Con esto, la ecuación. 1 tiene sentido. De hecho, una inicialización del algoritmo es establecer

r_{t}

$r_t$

t

$t$

t

$t$

que supone que hay un punto de cambio justo antes del comienzo en

. Sin embargo, la figura 1 es incorrecta (o al menos engañosa) en que si hay un punto de cambio entre

, y entre

P (r_{0} = 0) = 1

$P(r_0 =0) = 1$

t = 1

$t=1$

t = 4

$t =4$

t = 5

$t=5$

como se representa en la figura 1a, a continuación,

debe ser 0 de acuerdo con esta notación, y no

según la Fig 1b.

t = 10

$t=10$

t = 11

$t=11$

r_{4}

$r_4$

r_{10}

$r_{10}$

r_{5}

$r_5$

r_{11}

$r_{11}$

lacerbi

Algo extraño está sucediendo en la ecuación. 3 como el factor medio en el sumando en la última línea es

mientras pensaba que

contiene

. Sospecho que

han cambiado de lugar como

P (x_{t} ∣ r_{t - 1}, x_{t}^{(r)})

$P(x_t \mid r_{t-1}, x^{(r)}_t)$

x_{t}^{(r)}

$x^{(r)}_t$

x_{t}

$x_t$

t

$t$

t - 1

$t-1$

P (x_{t} ∣ r_{t}, x_{t - 1}^{(r)})

$P(x_t \mid r_t, x^{(r)}_{t-1})$ Tendría sentido. En la ecuación 11, el lado derecho parece depender de

que no aparece en el lado izquierdo en absoluto, por lo que hay algo mal o no entiendo la notación en absoluto.

x_{t}^{(r)}

$x_t^{(r)}$

Juho Kokkala

@JuhoKokkala: Me alegro de no ser el único con ese sentimiento ...

lacerbi

@lacerbi, tengo otra pregunta sobre este documento, y creo que podría responderlo ya que parece familiarizado con el trabajo: stats.stackexchange.com/questions/419988 .

gwg

Respuestas:

Ambos (1) y (1b) son correctos. El OP tiene razón en que (en este modelo) puede haber un punto de cambio en , y depende de si hay un punto de cambio. Esto no implica ningún problema con (1) ya que los posibles valores de están completamente "cubiertos" por . $t+1$ $x_{t+1}$ $r_{t+1}$ $P(x_{t+1} \mid r_t, x_{1:t})$ significa la distribución condicional de condicional en. Esta distribución condicional promedia sobre "todo lo demás", incluyendo , condicional en. Al igual que uno podría escribir, digamos, $P(x_{t+1} | r_t, x_{1:t})$ $x_{t+1}$ $(r_t, x_{1:t})$ $r_{t+1}$ $(r_t, x_{1:t})$ $P(x_{t+1000} | x_t)$ , que tendría en cuenta todas las configuraciones posibles de puntos de cambio, así como los valores de s que se producen entre y . $x_i$ $t$ $t+1000$

En el resto, primero deduzco (1) y luego (1b) basado en (1).

Derivación de (1)

Para cualquier variable aleatoria , tenemos $A,B,C$ siempre que sea discreto (de lo contrario, la suma debe ser reemplazada por una integral). Aplicando esto a :

P (A ∣ B) = \sum_{c} P (A ∣ B, C = c) P (C = c ∣ B),

$\begin{equation} P(A \mid B) = \sum_c P(A \mid B, C=c)\,P(C=c \mid B), \end{equation}$

C

$C$

x_{t + 1}, x_{1 : t}, r_{t}

$x_{t+1},x_{1:t},r_t$

P (x_{t + 1} ∣ x_{1 : t}) = \sum_{r_{t}} P (x_{t + 1} ∣ r_{t}, x_{1 : t}) P (r_{t} ∣ x_{1 : t}),

$\begin{equation} P(x_{t+1} \mid x_{1:t}) = \sum_{r_t} P(x_{t+1} \mid r_t, x_{1:t})\,P(r_t \mid x_{1:t}), \end{equation}$

r_{t}

$r_t$

x_{1 : t}

$x_{1:t}$

x_{t + 1}

$x_{t+1}$

x_{t + 1}

$x_{t+1}$

r_{t}, x_{t}^{(r)}

$r_t,x^{(r)}_t$

x

$x$

x_{t}^{(r)}

$x^{(r)}_t$

P (x_{t + 1} ∣ r_{t}, x_{1 : t}) = P (x_{t + 1} ∣ r_{t}, x_{t}^{(r)})

$P(x_{t+1} \mid r_t, x_{1:t}) = P(x_{t+1} \mid r_t, x^{(r)}_t)$

P (x_{t + 1} ∣ x_{1 : t}) = \sum_{r_{t}} P (x_{t + 1} ∣ r_{t}, x_{t}^{(r)}) P (r_{t} ∣ x_{1 : t}), (1)

$\begin{equation} P(x_{t+1} \mid x_{1:t}) = \sum_{r_t} P(x_{t+1} \mid r_t, x^{(r)}_t)\,P(r_t \mid x_{1:t}), \qquad \qquad \qquad (1) \end{equation}$

Derivación de (1b)

$P(x_{t+1} \mid r_t, x^{(r)}_t)$ $r_{t+1}$

P (x_{t + 1} ∣ r_{t}, x_{t}^{(r)}) = \sum_{r_{t + 1}} P (x_{t + 1} ∣ r_{t + 1}, r_{t}, x_{t}^{(r)}) P (r_{t + 1} ∣ r_{t}, x_{t}^{(r)}) .

$\begin{equation} P(x_{t+1} \mid r_t, x^{(r)}_t) = \sum_{r_{t+1}} P(x_{t+1} \mid r_{t+1}, r_t, x^{(r)}_t)P(r_{t+1} \mid r_t, x^{(r)}_t). \end{equation}$

$t+1$ $x_t$ $x_{t+1}$ $x$ $P(r_{t+1} \mid r_t, x^{(r)}_t) = P(r_{t+1} \mid r_t)$ $r_{t+1}$ $x_{t+1}$ $x_t$ $P(x_{t+1} \mid r_{t+1}, r_t, x^{(r)}_t)=P(x_{t+1} \mid r_{t+1}, x^{(r)}_t)$

P (x_{t + 1} ∣ r_{t}, x_{t}^{(r)}) = \sum_{r_{t + 1}} P (x_{t + 1} ∣ r_{t + 1}, x_{t}^{(r)}) P (r_{t + 1} ∣ r_{t}) .

$\begin{equation} P(x_{t+1} \mid r_t, x^{(r)}_t) = \sum_{r_{t+1}} P(x_{t+1} \mid r_{t+1}, x^{(r)}_t)P(r_{t+1} \mid r_t). \end{equation}$

P (x_{t + 1} ∣ x_{1 : t}) = \sum_{r_{t}} (\sum_{r_{t + 1}} P (x_{t + 1} ∣ r_{t + 1}, x_{t}^{(r)}) P (r_{t + 1} ∣ r_{t})) P (r_{t} ∣ x_{1 : t}), (1 b)

$\begin{equation} P(x_{t+1} \mid x_{1:t}) = \sum_{r_t} \left(\sum_{r_{t+1}} P(x_{t+1} \mid r_{t+1}, x^{(r)}_t)P(r_{t+1} \mid r_t)\right)\,P(r_t \mid x_{1:t}), \qquad (1b) \end{equation}$

* Observación sobre los supuestos de independencia condicional del modelo

$r$ $x$

Juho Kokkala
fuente

r_{t + 1}

$r_{t+1}$

r_{t + 1}

$r_{t+1}$

Oh. Parece entonces que entendí mal la pregunta: ¿debería eliminar esto? Es posible que desee aclarar la pregunta, actualmente parece que (1) es de alguna manera incorrecta (en lugar de quizás no útil)

Juho Kokkala

Mantenga esta respuesta, que es valiosa. Mi error es que no estaba lo suficientemente claro en mi publicación original. Traté de aclarar mi pregunta gracias a sus comentarios, y de una manera que todavía hace que esta respuesta sea significativa.

lacerbi