Distancia entre dos mezclas gaussianas para evaluar soluciones de clúster

11

Estoy ejecutando una simulación rápida para comparar diferentes métodos de agrupación, y actualmente me encuentro con un problema tratando de evaluar las soluciones de agrupación.

Conozco varias métricas de validación (muchas de ellas se encuentran en cluster.stats () en R), pero supongo que es mejor usarlas si el número estimado de clústeres en realidad es igual al número real de clústeres. Quiero mantener la capacidad de medir qué tan bien funciona una solución de agrupación cuando no especifica el número correcto de agrupaciones en la simulación original (es decir, qué tan bien simulan los datos de un modelo de solución de tres agrupaciones que tienen 4 agrupaciones solución). Solo para su información, los clústeres se simulan para poseer matrices de covarianza idénticas.

Pensé que la divergencia KL entre dos mezclas de gaussianos sería útil para implementar, pero no existe una solución de forma cerrada ( Hershey y Olson (2007) ) y la implementación de una simulación de Monte Carlo está comenzando a ser computacionalmente costosa.

¿Hay alguna otra solución que pueda ser fácil de implementar (aunque solo sea una aproximación)?

dmartin
fuente
La distancia L2 entre dos mezclas gaussianas está disponible en forma cerrada. Usa esto y deberías estar listo.
No sé cómo lo harías, pero no me parece una buena idea. Tome una mezcla, permute los componentes (sin cambios en p (x)) y la distancia L2 puede ser cualquier cosa. Además, la distancia L2 no es una buena idea en las matrices de covarianza.
bayerj
Probabilidad predictiva posterior de un conjunto de datos de prueba extendido. Sin embargo, sospecho que necesitarías antecedentes en k.
conjeturas
El primer enlace está roto
ttnphns

Respuestas:

6

Supongamos que tenemos dos mezclas gaussianas en : Llame a sus densidades y , respectivamente, y denote las densidades de sus componentes , por , .Rd

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

Las siguientes distancias están disponibles en forma cerrada:

  • L2Distancia , como se sugiere en un comentario del usuario39665. Esto es: Tenga en cuenta que, como se ve por ejemplo en la sección 8.1.8 del libro de recetas de matriz : para que esto pueda evaluarse fácilmente en tiempo .

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N ( x ; μ , Σ ) N ( x ; μ , Σ )
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • La máxima discrepancia media (MMD) con un núcleo gaussiano RBF. Esta es una distancia genial, aún no muy conocida entre la comunidad estadística, que requiere un poco de matemática para definirla.

    Dejando defina el espacio de Hilbert como el espacio de Hilbert del núcleo de reproducción correspondiente a : .

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    Defina el núcleo del mapa medio como

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    El MMD es entonces

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    Para nuestras mezclas y , tenga en cuenta que y de manera similar para y .PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    Resulta, usando trucos similares a los de , que es L2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    Como , claramente esto converge a un múltiplo de la distancia . Sin embargo, normalmente querrá usar un diferente , uno en la escala de la variación de datos.σ0L2σ

    Los formularios cerrados también están disponibles para los núcleos polinomiales en el MMD; verk

    Muandet, Fukumizu, Dinuzzo y Schölkopf (2012). Aprendizaje de distribuciones a través de máquinas de medición de soporte. En Avances en sistemas de procesamiento de información neuronal ( versión oficial ). arXiv: 1202.6504 .

    Para ver muchas propiedades agradables de esta distancia, vea

    Sriperumbudur, Gretton, Fukumizu, Schölkopf y Lanckriet (2010). Integraciones espaciales de Hilbert y métricas sobre medidas de probabilidad. Journal of Machine Learning Research, 11, 1517-1561 . arXiv: 0907.5309 .

  • Divergencia cuadrática Jensen-Rényi. La entropía Rényi- se define como Su límite como es la entropía de Shannon. La divergencia Jensen-Rényi es donde denota una mezcla a partes iguales entre y . Resulta que, cuando y cuando y son mezclas gaussianas (como aquí), puede calcular una forma cerrada para . Esto fue hecho porα

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    Wang, Syeda-Mahmood, Vemuri, Beymer y Rangarajan (2009). Divergencia Jensen-Renyi de forma cerrada para la mezcla de gaussianos y aplicaciones para el registro de formas grupales. Med Image Comput Comput Assist Interv., 12 (1), 648–655. ( versión gratuita de pubmed )

Dougal
fuente
0

Si los grupos son en realidad no mezclas de gaussianas, pero de forma arbitraria, sus resultados pueden ser en realidad mucho mejor cuando se producen mucho más racimos, y luego fusionar algunos de nuevo después.

En muchos casos, uno elige que k sea arbitrariamente alto, por ejemplo, 1000 para un conjunto de datos grande; en particular cuando no estás realmente interesado en los modelos, pero solo quieres reducir la complejidad del conjunto de datos a través de la cuantificación vectorial.

HA SALIDO - Anony-Mousse
fuente
Simulé que los grupos se extrajeron de una mezcla gaussiana, por lo que creo que mi suposición es válida. El objetivo aquí no es reducir la complejidad o idear un criterio de decisión para elegir k, sino comparar qué tan bien los clústeres de k modelan los datos cuando k es realmente incorrecto. Algunas opciones incorrectas podrían modelar los datos mejor que otras, y estoy tratando de cuantificar este grado de desajuste con algún cálculo (como la divergencia KL, pero más fácil de implementar para mezclas gaussianas).
dmartin