En el análisis de conglomerados, ¿cómo calculamos la pureza? ¿Cuál es la ecuación?
No estoy buscando un código para hacerlo por mí.
Deje ser clúster k, y sea clase j.
Entonces, ¿la pureza es prácticamente precisión? parece que estaban sumando la cantidad de clase verdaderamente clasificada por grupo sobre el tamaño de la muestra.
La pregunta es ¿cuál es la relación entre la salida y la entrada?
Si hay Verdaderamente positivo (TP), Verdaderamente negativo (TN), Falsamente positivo (FP), Falsamente negativo (FN). ¿Es ?
clustering
Iancovici
fuente
fuente
Respuestas:
Dentro del contexto del análisis de conglomerados, la pureza es un criterio de evaluación externo de la calidad del conglomerado. Es el porcentaje del número total de objetos (puntos de datos) que se clasificaron correctamente, en el rango de unidades [0..1].
dondeN = número de objetos (puntos de datos), k = número de grupos, ci es un grupo en C , y tj es la clasificación que tiene el recuento máximo para el grupo ci
Luego, para cada grupoci , seleccione el valor máximo de su fila, suméelos y finalmente divídalos por el número total de puntos de datos.
fuente