Supongamos que tenemos un conjunto de puntos . Cada punto se genera utilizando la distribución Para obtener posterior para escribimos De acuerdo con el documento de Minka en Expectativa Propagación tenemos cálculos para obtener posterior y, así, se convierte en un problema insoluble para grandes tamaños de muestra . Sin embargo, no puedo entender por qué necesitamos tal cantidad de cálculos en este caso, porque para un solo
Usando esta fórmula, obtenemos posterior por simple multiplicación de , por lo que solo necesitamos N operaciones y, por lo tanto, podemos resolver este problema exactamente para grandes tamaños de muestra.N
Hago un experimento numérico para comparar si realmente obtengo el mismo posterior en caso de que calcule cada término por separado y en caso de que use el producto de densidades para cada . Los posteriores son iguales. Ver ¿Dónde me equivoco? ¿Alguien puede aclararme por qué necesitamos operaciones para calcular posterior para dado y muestra ?2 N x y
Respuestas:
Tienes razón en que el periódico dice algo incorrecto. Ciertamente puede evaluar la distribución posterior de en una ubicación conocida utilizando operaciones . El problema es cuando quieres calcular momentos de la parte posterior. Para calcular la media posterior de exactamente, necesitaría operaciones. Este es el problema que el documento está tratando de resolver.x O(n) x 2N
fuente
Se perdió el punto de que la distribución es una mezcla de gaussianos: cada muestra se distribuye según p ( y i | x ) con probabilidad 1 - w y como p c ( y ) (distribución de desorden para y , independiente de x ) con probabilidad w .yi p(yi|x) 1−w pc(y) y x w
Deje ser la variable de indicador que indica que la muestra i era sacar de la distribución desorden; por lo tanto, si es 0 , indica que la muestra se extrajo de p ( y | x ) . Obviamente, si la muestra se extrajo de la distribución del desorden, su valor es irrelevante para la estimación de x .ci i 0 p(y|x) x
Es la presencia de los posibles estados conjuntos para estas variables indicadoras lo que causa el problema.2N
fuente