Referencias que justifican el uso de mezclas gaussianas

14

Los modelos de mezcla gaussiana (GMM) son atractivos porque son fáciles de trabajar tanto en el análisis como en la práctica, y son capaces de modelar algunas distribuciones exóticas sin demasiada complejidad. Hay algunas propiedades analíticas que deberíamos tener que no están claras en general. En particular:

  • SnnPnP
    limninfP^SnD(P||P^)=0?
  • Supongamos que tenemos una distribución continua y hemos encontrado una mezcla gaussiana de componente N \ hat {P} que está cerca de P en variación total: \ delta (P, \ hat {P}) <\ varepsilon . ¿Podemos vincular D (P || \ hat {P}) en términos de \ epsilon ?PP P δ ( P , P ) < ε D ( P | | P ) εNP^Pδ(P,P^)<εD(P||P^)ϵ
  • Si queremos observar XPX través del ruido aditivo independiente YPY (ambos reales, continuos), y tenemos GMMs X^QX,Y^QN donde δ(P,Q)<ϵ , entonces este valor es pequeño:
    |mmse(X|X+Y)mmse(X^|X^+Y^)|,
    es decir , ¿ es cierto que estimar el ruido de X a Y es tan difícil como estimar el ruido de X^ a Y^ ?
  • ¿Puedes hacerlo para modelos de ruido no aditivos como el ruido de Poisson?

Mi (breve) revisión de literatura hasta ahora acaba de aparecer tutoriales muy aplicados. ¿Alguien tiene alguna referencia que demuestre rigurosamente bajo qué condiciones estamos justificados en el uso de modelos de mezcla?

grado
fuente
3
El conjunto de GMM es denso en el conjunto de distribuciones en la topología débil (correspondiente a la convergencia en la distribución); ver, por ejemplo, aquí . No estoy seguro de si su primera declaración se mantiene, a pesar de que ciertamente requeriría permitir que los componentes de la varianza cero en la mezcla para hacer frente a cualquier masas puntuales en . También soy escéptico sobre el segundo punto, de nuevo debido a la cuestión de las masas de puntos. P
Dougal
1
Buen punto, he especificado que todo debe ser continuo
entérese el
1
Es posible que tenga más suerte mirando la literatura sobre la estimación de la densidad del núcleo con núcleos gaussianos. Como tiene una mezcla de gaussianos con uno por muestra, a medida que aumenta el número de muestras, ¿obtiene un estimador asintóticamente imparcial y consistente de la distribución? Creo que la respuesta es sí, pero no pude encontrar una referencia de inmediato.
Greg Ver Steeg
2
@enthdegree: Muy buena pregunta. Debido a que desea utilizar topologías fuertes (divergencia KL y variación total), la respuesta general a sus primeros dos puntos es no: por ejemplo, considere una distribución de cola gruesa; El KL para cualquier mezcla finita gaussiana es infinito (estoy bastante seguro de que esto funciona, aunque no al 100%). Pero esto lleva a la pregunta mucho más interesante, ¿para qué subclase de distribuciones de probabilidad se aplicarían todos sus puntos? No sé la respuesta, pero parece extremadamente interesante. Mi conjetura es que probablemente sea casi todas las distribuciones de probabilidad.
Guillaume Dehaene
1
Tomé una clase con este libro. link Hace algunos antecedentes decentes sobre los fundamentos.
EngrStudent - Restablece a Monica

Respuestas:

0

En econometría, donde el contexto es de distribuciones mixtas de coeficientes en modelos logit, la referencia estándar es: MODELOS DE MNL MIXTO PARA RESPUESTA DISCRETA DANIEL MCFADDEN Y KENNETH TRAIN, DIARIO DE ECONOMETRÍA APLICADA, J. Appl. Econ. 15: 447-470 (2000).

Tim
fuente
0

Con respecto a sus preguntas:

  1. Para el muy similar problema bayesiano de la mezcla de gaussianos del Proceso de Dirichlet, entiendo que la respuesta es sí. Ghosal (2013) .
  2. Cuando asistí a algunas charlas sobre este tema, parecía que el progreso se había logrado principalmente utilizando la divergencia KL. Ver las diapositivas de Harry van Zanten .
  3. No estoy claro Sin embargo, esto parece un problema de separación de fuente ( desconocido). Estos son generalmente mucho más difíciles que el modelado de mezclas solo. En particular, para el caso simple de P N = P S = N ( 0 , 1 ) , no podría identificar los verdaderos X e Y debido a la simetría de las distribuciones sobre cero.PN,PSPN=PS=N(0,1)XY
  4. Vea la cuarta de las diapositivas vinculadas arriba, hay una lista de modelos bayesianos para los cuales las garantías de convergencia se mantienen.
conjeturas
fuente
0

Aquí hay una respuesta parcial.

Digamos que es la clase de todas las mezclas gaussianas con n componentes. Para cualquier distribución continua P en los reales, ¿estamos garantizados de que a medida que n crece, podemos aproximarnos a P con un GMM con pérdida insignificante en el sentido de entropía relativa? Es decir, ¿ lim n inf PS n D ( P | | P ) = 0 ?SnnPnP

limninfP^SnD(P||P^)=0?

No. Usted sólo puede esperar que una divergencia KL es pequeño si se sabe que Q 's colas son, finalmente, del mismo orden que P ' s. Esto no es cierto en general. No es difícil ver que para P Cauchy entonces para cualquier n , inf PS n D ( P | | P ) = D(PQ)QPPn

infP^SnD(P||P^)=

Se necesitan más condiciones sobre para decir eso.P

Digamos que tenemos una distribución continua y hemos encontrado un N -component Gaussian mezcla P que está cerca de P en variación total: δ ( P , P ) < ε . Puede que con destino D ( P | | P ) en función de ε ?PNP^Pδ(PAG,PAG^)<εD(P||P^)ϵ

No. Se aplica el mismo ejemplo anterior.

Si queremos observar por el ruido aditivo independiente Y ~ P Y (tanto real, continua), y tenemos MMG X ~ Q X , Y ~ Q Y donde δ ( P , Q ) < ε , entonces este valor es pequeño: | m m s e ( X | X + Y ) - m m s e ( XXPXYPYX^QX,Y^QYδ(P,Q)<ϵ Es decir, es cierto que la estimación deXa través deYruido es casi tan duro como la estimación de X a través de Y ruido?

|mmse(X|X+Y)mmse(X^|X^+Y^)|,
XYX^Y^

X,Y,X^,Y^E[X|Y]E[X^|Y^]|EP[(EP[X|Y]X)2]EQ[(EQ[X|Y]X)2]|TV(P,Q)

No he podido probar esto, ya sea en general o usando la estructura aditiva adicional que hemos asumido en P, Q, o invento ningún contraejemplo.

¿Puedes hacerlo para modelos de ruido no aditivos como el ruido de Poisson?

Esto es ambiguo. En el contexto de la pregunta anterior, si la afirmación en esa respuesta se puede probar en general, entonces la respuesta es sí.

grado
fuente