¿Cómo probar esta desigualdad de la mezcla gaussiana? (Ajuste / sobreajuste)

8

Sea f [x] una mezcla de Gauss pdf con n términos de peso uniforme, significa {μ1,...,μn}, y las variaciones correspondientes {σ1,...,σn}:

f(x)1ni=1n12πσi2e(xμi)22σi2

Parece intuitivo que la probabilidad logarítmica muestreada en los n centros gaussianos sería mayor que (o igual a) la probabilidad logarítmica media:

1nj=1nln(f(μj))f(x)ln(f(x))dx

Esto es obviamente cierto para pequeñas variaciones (cada μi está encima de un gaussiano estrecho) y para variaciones muy grandes (todos los μiestán encima de un amplio Gaussiano juntos), y ha sido cierto para cada conjunto de μi's y σiHe generado y optimizado, pero no puedo entender cómo demostrar que siempre es cierto. ¿Ayuda?

Jerry Guern
fuente
¿Probablemente te estás perdiendo una expectativa sobre el lhs?
lacerbi
@lacerbi No, no lo soy. No falta nada. En el LHS, elf(x) se evalúa en el indexado xi's
Jerry Guern
Sí, lo siento, tenía demasiado sueño y leí mal la definición.
lacerbi

Respuestas:

2

Este es más un comentario extendido, así que tómalo como tal. Definir:

f(x)1ni=1nN(x|xi,σi2)
(Estoy usando la notación estándar para distribuciones gaussianas).

Quieres probar que:

1ni=1nlogf(xi)f(x)logf(x)dx0
cual es
{1ni=1nlogf(xi)}+H[f]0.

Debido a la desigualdad de Jensen (véase, por ejemplo, Huber et al., On Entropy Approximation for Gaussian Mixture Random Vectors, 2008 ),

H[f]1ni=1nlogf(x)N(x|xi,σi2)dx=1ni=1nloggi(xi)
con gi(x)1nj=1nN(x|xj,σi2+σj2), que proviene de la convolución de dos densidades gaussianas. Entonces obtenemos:
{1ni=1nlogf(xi)}+H[f]1ni=1nlogf(xi)gi(xi).
Curiosamente, el gi siguen siendo mezclas de gaussianos con medios componentes iguales a los de f, pero cada componente de gi tiene una varianza estrictamente mayor que su componente correspondiente en f. ¿Puedes hacer algo con esto?
lacerbi
fuente
Gracias. Parece que habría demostrado que el RHS final es> = 0, lo que también parece intuitivo pero difícil de probar, pero este es realmente un paso en la dirección correcta. He visto ese papel antes.
Jerry Guern
Es tentador pensar que el RHS final siempre es positivo, pero tampoco puedo probarlo.
Jerry Guern
0

Creo que lo tengo. Solo toma pasos elementales, aunque debe combinarlos correctamente.

Vamos a denotar por fi la densidad de i-th Gaussian, eso es 12πσi2e(xμi)22σi2

Comenzamos con la desigualdad de Jensen. La funcióng(x)=xlog(x) es convexo, por lo tanto tenemos: f(x)log(f(x))1ni=1nfi(x)log(fi(x)). Después de integrar obtenemos:

f(x)log(f(x))dx1ni=1nfi(x)log(fi(x))dx
Editar: la desigualdad a continuación es incorrecta y también lo es la solución en sí

Ahora el RHS. Para todosi tenemos ffi, entonces:

log(f(μi))log(fi(μi))
Por lo tanto:
1ni=1nlog(f(μi))1ni=1nlog(fi(μi))
Nos queda por demostrar:
1ni=1nlog(fi(μi))1ni=1nfi(x)log(fi(x))
Pero tenemos:
log(fi(μi))=fi(x)log(fi(μi))dxfi(x)log(fi(x))dx
Resumiendo i y dividiendo por n obtenemos lo que necesitábamos
sjm.majewski
fuente
Estoy confundido. Definiste ag (x) pero nunca lo usaste, y no sé qué significa tu f_i.
Jerry Guern
Agregué la definición de fi, Lo siento por eso. yo suelog solo por la desigualdad de Jensen, eso es g(1ni=1nfi(x))1ni=1ng(fi(x))
sjm.majewski 01 de
Usted declara que f>=fi solo es correcto si el 1/n el peso es parte de la definición de fipero no lo es, y agregarlo nuevamente en mal estado es la primera parte de su prueba.
Jerry Guern
1
Esta afirmación no es correcta: 1ni=1nlog(f(μi))1ni=1nlog(fi(μi))
Jerry Guern
1
Sí, me di cuenta ayer. Parece que esta desigualdad es bastante difícil, dejaré mi respuesta de todos modos con una edición.
sjm.majewski