Estoy leyendo el artículo de detección de punto de cambio en línea Bayesiano de Adams y MacKay ( enlace ).
Los autores comienzan escribiendo la distribución predictiva marginal: donde
- es la observación en el tiempo ;
- denota el conjunto de observación hasta el tiempo ;
- es la longitud de ejecución actual (tiempo desde el último punto de cambio, puede ser 0); y
- es el conjunto de observaciones asociadas con la ejecución .
Eq. 1 es formalmente correcto (vea la respuesta a continuación por @JuhoKokkala), pero entiendo que si realmente desea hacer una predicción sobre necesitaría expandirla de la siguiente manera:
Mi razonamiento es que bien podría haber un punto de cambio en el tiempo (futuro) , pero la posterior solo cubre hasta .
El punto es que los autores en el artículo nos hacen de la ecuación. 1 como está (ver las ecuaciones 3 y 11 en el documento), y no 1b. Entonces, aparentemente ignoran la posibilidad de un punto de cambio en el tiempo cuando predicen partir de los datos disponibles en el tiempo . Al comienzo de la Sección 2 dicen en passant
Suponemos que podemos calcular la distribución predictiva [para ] condicional en una longitud de ejecución dada .
que tal vez es donde está el truco. Pero en general, esta distribución predictiva debería parecerse a la ecuación. 1b; que no es lo que hacen (Ec. 11).
Entonces, no estoy seguro de entender lo que está sucediendo. Tal vez hay algo divertido con la notación.
Referencia
- Adams, RP y MacKay, DJ (2007). Detección bayesiana de puntos de cambio en línea. preimpresión de arXiv arXiv: 0710.3742.
fuente
Respuestas:
Ambos (1) y (1b) son correctos. El OP tiene razón en que (en este modelo) puede haber un punto de cambio en , y x t + 1 depende de si hay un punto de cambio. Esto no implica ningún problema con (1) ya que los posibles valores de r t + 1 están completamente "cubiertos" por P ( x t + 1 ∣ r t , x 1 : t ) . P ( x t + 1 | r t , x 1 :t+1 xt+1 rt+1 P(xt+1∣rt,x1:t) significa la distribución condicional de x t + 1 condicional en( r t , x 1 : t ). Esta distribución condicional promedia sobre "todo lo demás", incluyendo r t + 1 , condicional en( r t , x 1 : t ). Al igual que uno podría escribir, digamos,P( x t + 1000 | x t )P(xt+1|rt,x1:t) xt+1 (rt,x1:t) rt+1 (rt,x1:t) P(xt+1000|xt) , que tendría en cuenta todas las configuraciones posibles de puntos de cambio, así como los valores de s que se producen entre t y t + 1000 .xi t t+1000
En el resto, primero deduzco (1) y luego (1b) basado en (1).
Derivación de (1)
Para cualquier variable aleatoria , tenemos P ( A ∣ B ) = ∑ c P ( A ∣ B , C = c )A,B,C
siempre que C sea discreto (de lo contrario, la suma debe ser reemplazada por una integral). Aplicando esto a x t + 1 , x 1 : t , r t :
Derivación de (1b)
* Observación sobre los supuestos de independencia condicional del modelo
fuente