Estoy ejecutando una simulación rápida para comparar diferentes métodos de agrupación, y actualmente me encuentro con un problema tratando de evaluar las soluciones de agrupación.
Conozco varias métricas de validación (muchas de ellas se encuentran en cluster.stats () en R), pero supongo que es mejor usarlas si el número estimado de clústeres en realidad es igual al número real de clústeres. Quiero mantener la capacidad de medir qué tan bien funciona una solución de agrupación cuando no especifica el número correcto de agrupaciones en la simulación original (es decir, qué tan bien simulan los datos de un modelo de solución de tres agrupaciones que tienen 4 agrupaciones solución). Solo para su información, los clústeres se simulan para poseer matrices de covarianza idénticas.
Pensé que la divergencia KL entre dos mezclas de gaussianos sería útil para implementar, pero no existe una solución de forma cerrada ( Hershey y Olson (2007) ) y la implementación de una simulación de Monte Carlo está comenzando a ser computacionalmente costosa.
¿Hay alguna otra solución que pueda ser fácil de implementar (aunque solo sea una aproximación)?
Respuestas:
Supongamos que tenemos dos mezclas gaussianas en : Llame a sus densidades y , respectivamente, y denote las densidades de sus componentes , por , .Rd
P=∑i=1nαiPi=∑i=1nαiN(μi,Σi)Q=∑j=1mβjQj=∑j=1mN(mj,Sj). p(⋅) q(⋅) Pi Qj pi(x)=N(x;μi,Σi) qj(x)=N(x;mj,Sj)
Las siguientes distancias están disponibles en forma cerrada:
La máxima discrepancia media (MMD) con un núcleo gaussiano RBF. Esta es una distancia genial, aún no muy conocida entre la comunidad estadística, que requiere un poco de matemática para definirla.
Dejando defina el espacio de Hilbert como el espacio de Hilbert del núcleo de reproducción correspondiente a : .k(x,y):=exp(−12σ2∥x−y∥2), H k k(x,y)=⟨φ(x),φ(y)⟩H
Defina el núcleo del mapa medio comoK(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
El MMD es entoncesMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Para nuestras mezclas y , tenga en cuenta que y de manera similar para y .P Q K(P,Q)=∑i,jαiβjK(Pi,Qj) K(P,P) K(Q,Q)
Resulta, usando trucos similares a los de , que esL2 K(N(μ,Σ),N(μ′,Σ′)) (2πσ2)d/2N(μ;μ′,Σ+Σ′+σ2I).
Como , claramente esto converge a un múltiplo de la distancia . Sin embargo, normalmente querrá usar un diferente , uno en la escala de la variación de datos.σ→0 L2 σ
Los formularios cerrados también están disponibles para los núcleos polinomiales en el MMD; verk
Para ver muchas propiedades agradables de esta distancia, vea
Divergencia cuadrática Jensen-Rényi. La entropía Rényi- se define como Su límite como es la entropía de Shannon. La divergencia Jensen-Rényi es donde denota una mezcla a partes iguales entre y . Resulta que, cuando y cuando y son mezclas gaussianas (como aquí), puede calcular una forma cerrada para . Esto fue hecho porα Hα(p)=11−αlog(∫p(x)αdx). α→1 JRα(p,q)=Hα(p+q2)−Hα(p)+Hα(q)2 p+q2 p q α=2 P Q JR2
fuente
Si los grupos son en realidad no mezclas de gaussianas, pero de forma arbitraria, sus resultados pueden ser en realidad mucho mejor cuando se producen mucho más racimos, y luego fusionar algunos de nuevo después.
En muchos casos, uno elige que k sea arbitrariamente alto, por ejemplo, 1000 para un conjunto de datos grande; en particular cuando no estás realmente interesado en los modelos, pero solo quieres reducir la complejidad del conjunto de datos a través de la cuantificación vectorial.
fuente
Aquí hay una generalización de Mahalanobis D a GMMs usando el método Fisher Kernel y otras técnicas:
Propinas, Michael E. "Derivando funciones de distancia analítica de clúster a partir de modelos de mezcla gaussianos". (1999): 815-820. https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf
Ver también: ¿Existe una versión multi-gaussiana de la distancia de Mahalanobis?
fuente