¿Cómo calcular la pureza?

15

En el análisis de conglomerados, ¿cómo calculamos la pureza? ¿Cuál es la ecuación?

No estoy buscando un código para hacerlo por mí.

ingrese la descripción de la imagen aquí

Deje ωk ser clúster k, y cj sea ​​clase j.

Entonces, ¿la pureza es prácticamente precisión? parece que estaban sumando la cantidad de clase verdaderamente clasificada por grupo sobre el tamaño de la muestra.

fuente de ecuaciones

La pregunta es ¿cuál es la relación entre la salida y la entrada?

Si hay Verdaderamente positivo (TP), Verdaderamente negativo (TN), Falsamente positivo (FP), Falsamente negativo (FN). ¿Es ?Purity=TPK(TP+TN+FP+FN)

Iancovici
fuente
3
Si solo necesita una definición rápida: la búsqueda superior de Google sobre pureza de agrupación ** enlaza aquí, lo que proporciona una definición matemática. (** para mí, al menos, sus resultados individuales pueden diferir)
Glen_b -Reinstalar Monica
No tengo idea de lo que quiere decir con 'pureza', pero David Colquhoun usa "el ensayo mágico negro de la pureza de corazón" como un ejemplo de muestreo binomial en las páginas 111-114 de su excelente libro de texto Lectures on Biostatistics (1971) que es disponible como pdf gratuito en el sitio web del autor: dcscience.net Incluso si es irrelevante para su pregunta, es una gran historia.
Michael Lew
En los árboles de clasificación, algunas de las funciones para medir la impureza son: error de restitución, índice de Gini y entropía. (Los árboles de clasificación realizan una forma específica de agrupamiento, por lo que creo que esto debería ser relevante). ¡Espero que esto ayude!
Angelorf

Respuestas:

25

Dentro del contexto del análisis de conglomerados, la pureza es un criterio de evaluación externo de la calidad del conglomerado. Es el porcentaje del número total de objetos (puntos de datos) que se clasificaron correctamente, en el rango de unidades [0..1].

Purity=1Ni=1kmaxj|citj|

donde N = número de objetos (puntos de datos), k = número de grupos, ci es un grupo en C , y tj es la clasificación que tiene el recuento máximo para el grupo ci

citiciticiticiciticitimax

citi

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

Luego, para cada grupo ci , seleccione el valor máximo de su fila, suméelos y finalmente divídalos por el número total de puntos de datos.

Purity = (53 + 60 + 16) / 140 = 0.92142
Snives
fuente
¿también puedes responder por entropía?
MonsterMMORPG
Aquí mi pregunta: stackoverflow.com/questions/35709562/…
MonsterMMORPG
I think you "overflow the logic" when say "tj is the classification ... max counts". There is no need for maxj then. By the way, high purity does not shows the correctness of classification, does it?
LRDPRDX