Detección de punto de cambio bayesiano en línea (distribución predictiva marginal)

9

Estoy leyendo el artículo de detección de punto de cambio en línea Bayesiano de Adams y MacKay ( enlace ).

Los autores comienzan escribiendo la distribución predictiva marginal: donde

P(xt+1|x1:t)=rtP(xt+1|rt,xt(r))P(rt|x1:t)(1)
  • xt es la observación en el tiempo ;t
  • x1:t denota el conjunto de observación hasta el tiempo ;t
  • rtN es la longitud de ejecución actual (tiempo desde el último punto de cambio, puede ser 0); y
  • xt(r) es el conjunto de observaciones asociadas con la ejecución .rt

Eq. 1 es formalmente correcto (vea la respuesta a continuación por @JuhoKokkala), pero entiendo que si realmente desea hacer una predicción sobre necesitaría expandirla de la siguiente manera:xt+1

P(xt+1|x1:t)=rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b)

Mi razonamiento es que bien podría haber un punto de cambio en el tiempo (futuro) , pero la posterior solo cubre hasta .t+1P(rt|x1:t)t

El punto es que los autores en el artículo nos hacen de la ecuación. 1 como está (ver las ecuaciones 3 y 11 en el documento), y no 1b. Entonces, aparentemente ignoran la posibilidad de un punto de cambio en el tiempo cuando predicen partir de los datos disponibles en el tiempo . Al comienzo de la Sección 2 dicen en passantt+1xt+1t

Suponemos que podemos calcular la distribución predictiva [para ] condicional en una longitud de ejecución dada .xt+1rt

que tal vez es donde está el truco. Pero en general, esta distribución predictiva debería parecerse a la ecuación. 1b; que no es lo que hacen (Ec. 11).

Entonces, no estoy seguro de entender lo que está sucediendo. Tal vez hay algo divertido con la notación.


Referencia

  • Adams, RP y MacKay, DJ (2007). Detección bayesiana de puntos de cambio en línea. preimpresión de arXiv arXiv: 0710.3742.
lacerbi
fuente
Una posible explicación es que representa la longitud de la ejecución al final del paso de tiempo , que está después del punto de cambio en el tiempo . Con esto, la ecuación. 1 tiene sentido. De hecho, una inicialización del algoritmo es establecerrttt que supone que hay un punto de cambio justo antes del comienzo en t = 1 . Sin embargo, la figura 1 es incorrecta (o al menos engañosa) en que si hay un punto de cambio entre t = 4 y t = 5 , y entreP(r0=0)=1t=1t=4t=5 y t = 11 como se representa en la figura 1a, a continuación, r 4 y r 10 debe ser 0 de acuerdo con esta notación, y no r 5 y r 11 según la Fig 1b. t=10t=11r4r10r5r11
lacerbi
1
Algo extraño está sucediendo en la ecuación. 3 como el factor medio en el sumando en la última línea es mientras pensaba que x ( r ) t contiene x t . Sospecho que t y t - 1 han cambiado de lugar como P ( x tr t , x ( r ) t - 1 )P(xtrt1,xt(r))xt(r)xttt1P(xtrt,xt1(r))Tendría sentido. En la ecuación 11, el lado derecho parece depender de que no aparece en el lado izquierdo en absoluto, por lo que hay algo mal o no entiendo la notación en absoluto. xt(r)
Juho Kokkala
@JuhoKokkala: Me alegro de no ser el único con ese sentimiento ...
lacerbi
1
@lacerbi, tengo otra pregunta sobre este documento, y creo que podría responderlo ya que parece familiarizado con el trabajo: stats.stackexchange.com/questions/419988 .
gwg

Respuestas:

5

Ambos (1) y (1b) son correctos. El OP tiene razón en que (en este modelo) puede haber un punto de cambio en , y x t + 1 depende de si hay un punto de cambio. Esto no implica ningún problema con (1) ya que los posibles valores de r t + 1 están completamente "cubiertos" por P ( x t + 1r t , x 1 : t ) . P ( x t + 1 | r t , x 1 :t+1xt+1rt+1P(xt+1rt,x1:t)significa la distribución condicional de x t + 1 condicional en( r t , x 1 : t ). Esta distribución condicional promedia sobre "todo lo demás", incluyendo r t + 1 , condicional en( r t , x 1 : t ). Al igual que uno podría escribir, digamos,P( x t + 1000 | x t )P(xt+1|rt,x1:t)xt+1(rt,x1:t)rt+1(rt,x1:t)P(xt+1000|xt), que tendría en cuenta todas las configuraciones posibles de puntos de cambio, así como los valores de s que se producen entre t y t + 1000 .xitt+1000

En el resto, primero deduzco (1) y luego (1b) basado en (1).

Derivación de (1)

Para cualquier variable aleatoria , tenemos P ( A B ) = c P ( A B , C = c )A,B,C siempre que C sea ​​discreto (de lo contrario, la suma debe ser reemplazada por una integral). Aplicando esto a x t + 1 , x 1 : t , r t :

P(AB)=cP(AB,C=c)P(C=cB),
Cxt+1,x1:t,rt

P(xt+1x1:t)=rtP(xt+1rt,x1:t)P(rtx1:t),
rtx1:txt+1xt+1rt,xt(r)xxt(r)P(xt+1rt,x1:t)=P(xt+1rt,xt(r))

P(xt+1x1:t)=rtP(xt+1rt,xt(r))P(rtx1:t),(1)

Derivación de (1b)

P(xt+1rt,xt(r))rt+1

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,rt,xt(r))P(rt+1rt,xt(r)).

t+1xtxt+1xP(rt+1rt,xt(r))=P(rt+1rt)rt+1xt+1xtP(xt+1rt+1,rt,xt(r))=P(xt+1rt+1,xt(r))

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,xt(r))P(rt+1rt).
P(xt+1x1:t)=rt(rt+1P(xt+1rt+1,xt(r))P(rt+1rt))P(rtx1:t),(1b)

* Observación sobre los supuestos de independencia condicional del modelo

rx

Juho Kokkala
fuente
1
rt+1rt+1
1
Oh. Parece entonces que entendí mal la pregunta: ¿debería eliminar esto? Es posible que desee aclarar la pregunta, actualmente parece que (1) es de alguna manera incorrecta (en lugar de quizás no útil)
Juho Kokkala
Mantenga esta respuesta, que es valiosa. Mi error es que no estaba lo suficientemente claro en mi publicación original. Traté de aclarar mi pregunta gracias a sus comentarios, y de una manera que todavía hace que esta respuesta sea significativa.
lacerbi