Este es un seguimiento de esta pregunta. Actualmente estoy tratando de implementar el Índice C para encontrar un número casi óptimo de grupos de una jerarquía de grupos. Hago esto calculando el Índice C para cada paso del agrupamiento jerárquico (aglomerativo). El problema es que el índice C es mínimo (0 para ser exactos) para agrupaciones muy degeneradas. Considera esto:
En este caso, es la suma de todas las distancias entre pares de observaciones en el mismo grupo sobre todos los grupos. Sea n el número de estos pares. S m i n y S m a x son las sumas de n distancias más bajas / más altas en todos los pares de observaciones. En el primer paso de la agrupación jerárquica, las dos observaciones más cercanas (distancia mínima) se fusionan en un grupo. Sea d la distancia entre estas observaciones. Ahora hay un par de observaciones en el mismo grupo, entonces n = 1 (todos los otros grupos son singletons). En consecuencia S = . El problema es que S m i n también es igual a d , porque d es la distancia más pequeña (es por eso que las observaciones se fusionaron primero). Entonces, para este caso, el Índice C siempre es 0. Permanece 0 siempre que solo se fusionen los clústeres únicos. Esto significa que la agrupación óptima de acuerdo con el Índice C siempre consistiría en un grupo de agrupaciones que contienen dos observaciones, y el resto de singleton. ¿Significa esto que el índice C no es aplicable a la agrupación jerárquica? ¿Estoy haciendo algo mal? He buscado mucho, pero no pude encontrar ninguna explicación adecuada. ¿Alguien puede referirme a algún recurso que esté disponible gratuitamente en Internet? O, si no, ¿al menos un libro que pueda intentar conseguir en la biblioteca de mi universidad?
¡Gracias por adelantado!
fuente
Respuestas:
Este puede ser uno de los casos en los que hay más arte que ciencia para agrupar. Te sugiero que dejes que tu algoritmo de agrupación se ejecute por un corto tiempo antes de dejar que los cálculos del Índice C entren en acción. "Poco tiempo" puede ser después de procesar algunos pares, justo cuando comienza a exceder 0, o alguna otra heurística. (Después de todo, no espera detenerse en 1 o 2 grupos, de lo contrario, se podría haber implementado un algoritmo de separación diferente).
Para una recomendación de libro, puedo sugerir:
Puede escanear / buscar los contenidos disponibles en google books para ver si puede satisfacer sus necesidades. Me funcionó como referencia en el pasado.
fuente