Sea f [x] una mezcla de Gauss pdf con n términos de peso uniforme, significa , y las variaciones correspondientes :
Parece intuitivo que la probabilidad logarítmica muestreada en los n centros gaussianos sería mayor que (o igual a) la probabilidad logarítmica media:
Esto es obviamente cierto para pequeñas variaciones (cada está encima de un gaussiano estrecho) y para variaciones muy grandes (todos los están encima de un amplio Gaussiano juntos), y ha sido cierto para cada conjunto de 's y He generado y optimizado, pero no puedo entender cómo demostrar que siempre es cierto. ¿Ayuda?
machine-learning
gaussian-mixture
Jerry Guern
fuente
fuente
Respuestas:
Este es más un comentario extendido, así que tómalo como tal. Definir:
Quieres probar que:
Debido a la desigualdad de Jensen (véase, por ejemplo, Huber et al., On Entropy Approximation for Gaussian Mixture Random Vectors, 2008 ),
fuente
Creo que lo tengo. Solo toma pasos elementales, aunque debe combinarlos correctamente.
Vamos a denotar porFyo la densidad de yo -th Gaussian, eso es 12 πσ2yo√mi( x -μyo)22σ2yo
Comenzamos con la desigualdad de Jensen. La funciónsol( x ) = x l o g( x ) es convexo, por lo tanto tenemos:
F( x ) registro( f( x ) ) ≤1norte∑nortei = 1Fyo( x ) registro(Fyo( x ) ) . Después de integrar obtenemos:
Ahora el RHS. Para todosyo tenemos F≥Fyo , entonces:
fuente