Con respecto al análisis del carrito de compras, creo que el objetivo principal es individualizar las combinaciones más frecuentes de productos comprados por los clientes. La association rules
representan la metodología más natural aquí (de hecho lo fueron desarrollados para este propósito). El análisis de las combinaciones de productos comprados por los clientes, y la cantidad de veces que se repiten estas combinaciones, lleva a una regla del tipo 'si la condición, entonces resulta' con una medida de interés correspondiente. También puede considerar Log-linear models
para investigar las asociaciones entre las variables consideradas.
Ahora, en cuanto a la agrupación, aquí hay información que puede ser útil:
A primera vista Variable clustering
. La agrupación de variables se utiliza para evaluar la colinealidad, la redundancia y para separar las variables en agrupaciones que se pueden puntuar como una sola variable, lo que resulta en la reducción de datos. Busque la varclus
función (paquete Hmisc en R)
Evaluación de la estabilidad en clúster: función clusterboot
{R package fpc}
Estadísticas basadas en la distancia para la validación del clúster: función cluster.stats
{R package fpc}
Como ha mencionado mbq, use los anchos de silueta para evaluar la mejor cantidad de grupos. Mira este . En cuanto a los anchos de silueta, vea también la función optsil .
Estime el número de clústeres en un conjunto de datos a través de la estadística de brecha
Para calcular los índices de disimilitud y las medidas de distancia, consulte dsvdis y vegdist
El algoritmo de agrupación EM puede decidir cuántos grupos crear mediante validación cruzada (si no puede especificar a priori cuántos grupos generar). Aunque se garantiza que el algoritmo EM converge a un máximo, este es un máximo local y puede no ser necesariamente el mismo que el máximo global. Para tener una mejor oportunidad de obtener el máximo global, todo el procedimiento debe repetirse varias veces, con diferentes conjeturas iniciales para los valores de los parámetros. La cifra de log-verosimilitud general se puede utilizar para comparar las diferentes configuraciones finales obtenidas: simplemente elija el mayor de los máximos locales . Puede encontrar una implementación del clúster EM en el proyecto de código abierto WEKA
Este también es un enlace interesante.
También buscar aquí paraFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Finalmente, puede explorar los resultados de agrupación usando clusterfly