Estoy buscando agrupar un pequeño conjunto de datos (64 observaciones de 4 variables de intervalo y una sola variable categórica de tres factores). Ahora, soy bastante nuevo en el análisis de conglomerados, pero soy consciente de que ha habido un progreso considerable desde los días en que el agrupamiento jerárquico o k-means eran las únicas opciones disponibles. En particular, parece que hay disponibles nuevos métodos de agrupación basada en modelos que, como lo señala chl , permiten el uso de "índices de bondad de ajuste para decidir sobre el número de agrupaciones o clases".
Sin embargo, el paquete R estándar para la agrupación basada en modelos mclust
aparentemente no se ajustará a modelos con tipos de datos mixtos. El fpc
modelo, pero tiene problemas para ajustar un modelo, sospecho que debido a la naturaleza no gaussiana de las variables continuas. ¿Debo continuar con el enfoque basado en modelos? Me gustaría continuar usando R si es posible. Tal como lo veo, tengo algunas opciones:
- Convierta la variable categórica de tres niveles en dos variables ficticias y úsela
mclust
. No estoy seguro de si esto sesgará los resultados, pero si no, esta es mi opción preferida. - Transforme las variables continuas de alguna manera y use el
fpc
paquete. - Use algún otro paquete R que aún no haya encontrado.
- Cree una matriz de disimilitud utilizando la medida de Gower y utilice técnicas tradicionales de agrupación jerárquica o de reubicación.
¿El stats.se hivemind tiene alguna sugerencia aquí?
Respuestas:
Le recomiendo que use Gower con la agrupación jerárquica posterior. La agrupación jerárquica sigue siendo el método más flexible y apropiado en el caso de un pequeño número de objetos (como 64). Si su variable categórica es nominal, Gower la recodificará internamente en variables ficticias y simulará los dados base (como parte de Gower) en ellas. Si su variable es ordinal, debe saber que la última versión del coeficiente de Gower también puede acomodarla.
En cuanto a numerosos índices para determinar el "mejor" número de grupos, la mayoría de ellos existen independientemente de este o aquel algoritmo de agrupamiento. No necesita buscar paquetes de agrupación que necesariamente incorporen dichos índices porque estos últimos pueden existir como paquetes separados. Dejas un rango de soluciones de clúster después de un paquete de clústeres y luego las comparas por un índice de otro paquete.
fuente