¿Por qué el problema del desorden es intratable para muestras de gran tamaño?

13

Supongamos que tenemos un conjunto de puntos . Cada punto se genera utilizando la distribución Para obtener posterior para escribimos De acuerdo con el documento de Minka en Expectativa Propagación tenemos cálculos para obtener posterior y, así, se convierte en un problema insoluble para grandes tamaños de muestra . Sin embargo, no puedo entender por qué necesitamos tal cantidad de cálculos en este caso, porque para un soloy={y1,y2,,yN}yi

p(yi|x)=12N(x,1)+12N(0,10).
x
p(x|y)p(y|x)p(x)=p(x)i=1Np(yi|x).
2Np(x|y)Nyila probabilidad tiene la forma
p(yi|x)=122π(exp{12(yix)2}+110exp{120yi2}).

Usando esta fórmula, obtenemos posterior por simple multiplicación de , por lo que solo necesitamos N operaciones y, por lo tanto, podemos resolver este problema exactamente para grandes tamaños de muestra.Np(yi|x)N

Hago un experimento numérico para comparar si realmente obtengo el mismo posterior en caso de que calcule cada término por separado y en caso de que use el producto de densidades para cada . Los posteriores son iguales. Ver ¿Dónde me equivoco? ¿Alguien puede aclararme por qué necesitamos operaciones para calcular posterior para dado y muestra ?2 N x yyiingrese la descripción de la imagen aquí2Nxy

Alexey Zaytsev
fuente
Una operación por término y términos, por lo que necesitamos operaciones . Además, miro nuevamente el artículo de Minka y el capítulo de Bishop sobre inferencia aproximada. Ambos sugieren que queremos estimar y obtener posterior para . O ( N ) xNO(N)x
Alexey Zaytsev
¿Entiendo correctamente que tus son univariantes? Si es así, puede resolver esto en que se considera manejable independientemente de O ( n log ( n ) ) nyiO(nlog(n))n
user603
1
@Alexey Después de volver a leer este párrafo, creo que el autor no menciona las operacionesSimplemente señala que "el estado de creencia para es una mezcla de gaussianos" . x 2 N2Nx2N
1
@Procrastinator de acuerdo con el documento, queremos usar la propagación de creencias, pero no podemos usarla porque necesitamos proceder con una mezcla de gaussianos. Entonces la pregunta es ¿por qué queremos usar BP? Otra pregunta surge en caso de que leamos el capítulo 10.7.1 en el PRML de Bishop o veamos la videolectura de Minka . Después de eso, la respuesta no es tan clara. 2N
Alexey Zaytsev
1
@Alexey Creo que la lógica detrás de esto es diferente. El autor describe lo que sucede si usa la propagación de creencias, para enfatizar algunas dificultades cuando es grande, y luego promueve su "propagación de expectativas". Menciona que la propagación de creencias requiere el uso de una mezcla de gaussianos para el estado de creencia para que se complica cuando es grande. No se menciona la cantidad de operaciones requeridas sino la complejidad del estado de creencia para . N2NxNx

Respuestas:

4

Tienes razón en que el periódico dice algo incorrecto. Ciertamente puede evaluar la distribución posterior de en una ubicación conocida utilizando operaciones . El problema es cuando quieres calcular momentos de la parte posterior. Para calcular la media posterior de exactamente, necesitaría operaciones. Este es el problema que el documento está tratando de resolver.xO(n)x2N

Tom Minka
fuente
2

Se perdió el punto de que la distribución es una mezcla de gaussianos: cada muestra se distribuye según p ( y i | x ) con probabilidad 1 - w y como p c ( y ) (distribución de desorden para y , independiente de x ) con probabilidad w .yip(yi|x)1wpc(y)yxw

Deje ser la variable de indicador que indica que la muestra i era sacar de la distribución desorden; por lo tanto, si es 0 , indica que la muestra se extrajo de p ( y | x ) . Obviamente, si la muestra se extrajo de la distribución del desorden, su valor es irrelevante para la estimación de x .cii0p(y|x)x

Es la presencia de los posibles estados conjuntos para estas variables indicadoras lo que causa el problema.2N

Dave
fuente
Sin embargo, podemos descartar variables adicionales de , porque necesitamos obtener una solución posterior máxima del problema. Posterior para x tiene una forma clara, por lo que no estamos obligados a tener en cuenta los 2 N estados actuales. Entonces, la pregunta es "¿Por qué necesitamos esta cantidad de cálculos en caso de que queramos encontrar una solución posterior máxima?" cix2N
Alexey Zaytsev
La maximización necesita ser tomada sobre los estados para las variables . c
Dave
cici
2N
O(n)O(2n)