Actualización de un factor Bayes

9

Un factor Bayes se define en las pruebas bayesianas de hipótesis y en la selección del modelo bayesiano por la razón de dos probabilidades marginales: dada una muestra iid y las respectivas densidades de muestreo y , con los precedentes correspondientes y \ pi_2 , el factor de Bayes para comparar los dos modelos es \ mathfrak {B} _ {12} (x_1, \ ldots, x_n) \ stackrel {\ text {def}} {= } \ frac {m_1 (x_1, \ ldots, x_n)} {m_2 (x_1, \ ldots, x_n)} \ stackrel {\ text {def}} {=} \ frac {\ int \ prod_ {i = 1} ^ n f_1 (x_i | \ theta) \ pi_1 (\ text {d} \ theta)} {\ int \ prod_ {i = 1} ^ n f_2 (x_i | \ eta) \ pi_2 (\ text {d} \ eta) } Un libro que estoy revisando actualmente tiene la extraña afirmación de que el factor Bayes anterior(X1,...,Xnorte)F1(XEl |θ)F2(XEl |η)π1π2

si12(X1,...,Xnorte)=defmetro1(X1,...,Xnorte)metro2(X1,...,Xnorte)=defyo=1norteF1(XyoEl |θ)π1(reθ)yo=1norteF2(XyoEl |η)π2(reη)
si12(X1,...,Xnorte) se "forma multiplicando los individuales [factores de Bayes] juntos" (p.118). Esto es formalmente correcto si uno usa la descomposición
si12(X1,...,Xnorte)=metro1(X1,...,Xnorte)metro2(X1,...,Xnorte)=metro1(XnorteEl |X1,...,Xnorte-1)metro2(XnorteEl |X1,...,Xnorte-1)×metro1(Xnorte-1El |Xnorte-2,...,X1)metro2(Xnorte-1El |Xnorte-2,...,X1)××metro1(X1)metro2(X1)
pero no veo una ventaja computacional en esta descomposición como la actualización de
metro1(XnorteEl |X1,...,Xnorte-1)metro2(XnorteEl |X1,...,Xnorte-1)
requiere el mismo esfuerzo de cálculo que el cálculo original de
metro1(X1,...,Xnorte)metro2(X1,...,Xnorte)
ejemplos de juguetes artificiales externos.

Pregunta: ¿Existe una forma genérica y computacionalmente eficiente de actualizar el factor Bayes desde si12(X1,...,Xnorte) a si12(X1,...,Xnorte+1) que no requiere volver a calcular los márgenes completos metro1(X1,...,Xnorte) y metro2(X1,...,Xnorte) ?

Mi intuición es que, además de los filtros de partículas, que de hecho proceden a lo largo de la estimación de los factores de Bayes si12(X1,...,Xnorte) una nueva observación a la vez, no hay una forma natural de responder esta pregunta .

Xi'an
fuente
1
No me parece claro que la redacción implique necesariamente una factorización secuencial , ya que las observaciones son id. Durante la escuela de posgrado, un profesor mencionó que el producto implica que uno podría usar aproximaciones asintóticas para los análisis bayesianos, pero extrañamente esto no había prendido (sarcasmo). ¿Quizás el libro podría estar insinuando eso?
Cliff AB
@CliffAB: Sí, podría reescribir la probabilidad como un promedio de términos individuales, convergiendo a una distancia Kullback-Leibler de la distribución verdadera. Pero no creo que este sea el caso, a pesar de que el libro no es lo suficientemente claro como para mantener abiertas todas las opciones.
Xi'an
1
Creo que hay un error tipográfico en la segunda ecuación mostrada: ¿debería ser en el segundo factor en la segunda línea? metro1(Xnorte-1El |Xnorte-1,...,X1)
jochen 01 de

Respuestas:

4

Presumiblemente, el propósito de una ecuación recursiva para el factor Bayes sería cuando ya haya calculado el factor Bayes para puntos de datos, y desee poder actualizar esto con un punto de datos adicional. Parece que es posible hacer esto sin volver a calcular los márgenes del vector de datos anterior, siempre que se conozca la forma de la función posterior . Suponiendo que conocemos la forma de esta función (y suponiendo los datos IID como en su pregunta), la densidad predictiva se puede escribir como:norteπnorte

metro(Xnorte+1El |X1,...,Xnorte)=ΘF(Xnorte+1El |θ)πnorte(reθEl |X1,...,Xnorte).

Por lo tanto, tienes:

metro(X1,...,Xnorte+1)=metro(X1,...,Xnorte)ΘF(Xnorte+1El |θ)πnorte(reθEl |X1,...,Xnorte).

Al comparar dos clases de modelos a través del factor Bayes, obtenemos la ecuación recursiva:

si12(X1,...,Xnorte+1)=si12(X1,...,Xnorte)Θ1F(Xnorte+1El |θ)π1,norte(reθEl |X1,...,Xnorte)Θ2F(Xnorte+1El |θ)π2,norte(reθEl |X1,...,Xnorte).

Esto todavía implica la integración sobre el rango de parámetros, por lo que estoy de acuerdo con su opinión de que no parece haber ninguna ventaja computacional sobre simplemente volver a calcular el factor de Bayes a través de la fórmula inicial que proporciona. Sin embargo, puede ver que esto no requiere que vuelva a calcular los márgenes para el vector de datos anterior. (En cambio, calculamos las densidades predictivas del nuevo punto de datos condicional a los datos anteriores, bajo cada una de las clases de modelos). Al igual que usted, realmente no veo ninguna ventaja computacional de esto, a menos que ocurra que esta fórmula integral se simplifica fácilmente. En cualquier caso, supongo que le da otra fórmula para actualizar el factor Bayes.

Ben - Restablece a Monica
fuente
Gracias. Es cierto que los marginales no necesitan ser recalculados, estrictamente sensuales , pero la cantidad de cómputo parece ser la misma, como usted observa.
Xi'an
La única ventaja que se me ocurre es que, dado que ahora solo nos estamos integrando en una sola densidad (en lugar del producto de densidades), el integrando será menos volátil, por lo que esta última fórmula podría hacer que sea más fácil evitar problemas de flujo inferior en cálculo. Sin embargo, eso es muy grande. norte
Ben - Restablece a Mónica el