Quiero agrupar ~ 22000 puntos. Muchos algoritmos de agrupamiento funcionan mejor con conjeturas iniciales de mayor calidad. ¿Qué herramientas existen que me pueden dar una buena idea de la forma aproximada de los datos?
Quiero poder elegir mi propia métrica de distancia, por lo que un programa al que pueda alimentar una lista de distancias por pares estaría bien. Me gustaría poder hacer algo como resaltar una región o clúster en la pantalla y obtener una lista de los puntos de datos que están en esa área.
Se prefiere el software libre, pero ya tengo SAS y MATLAB.
fuente
La exploración de resultados de agrupación en grandes dimensiones se puede hacer en R utilizando los paquetes clusterfly y gcExplorer . Busque más aquí .
fuente
(Meses más tarde), una buena manera de imaginar grupos de k y ver el efecto de varios k es construir un árbol de expansión mínima y observar los bordes más largos. Por ejemplo,
Aquí hay 10 grupos, con 9 bordes más largos 855 899 942 954 1003 1005 1069 1134 1267.
Para 9 grupos, colapsa el borde cian 855; para 8, el morado 899; y así.
- Wayne, Algoritmos codiciosos .
22000 puntos, 242 M de distancia por pares, toman ~ 1 gigabyte (float32): podría encajar.
Para ver un árbol o gráfico de alta dimensión en 2d, vea Escalamiento multidimensional (también de Kruskal), y la gran literatura sobre reducción de dimensiones. Sin embargo, en dim> 20 digamos, la mayoría de las distancias estarán cerca de la mediana, por lo que creo que la reducción de dimensiones no puede funcionar allí.
fuente
He tenido buena experiencia con KNIME durante uno de mis proyectos. Es una excelente solución para minería y gráficas exploratorias rápidas. Además de eso, proporciona una integración perfecta de los módulos R y Weka.
fuente
También eche un vistazo a ELKI , un software de minería de datos de código abierto. Wikimedia commons tiene una galería con imágenes producidas con ELKI , muchas de las cuales están relacionadas con el análisis de conglomerados.
fuente
Echa un vistazo a Cluster 3.0 . No estoy seguro de si hará todo lo que desee, pero está bastante bien documentado y le permite elegir entre algunas métricas de distancia. La pieza de visualización es a través de un programa separado llamado Java TreeView ( captura de pantalla ).
fuente
GGobi parece interesante para esto. Otro enfoque podría ser tratar sus matrices de similitud / distancia inversa como matrices de adyacencia de red y alimentarlas en una rutina de análisis de red (por ejemplo, igraph en R o quizás Pajek). Con este enfoque, experimentaría cortando las distancias de corte del nodo en un lazo binario en varios puntos de corte.
fuente
Weka es un programa de código abierto para la minería de datos (wirtten y extensible en Java), Orange es un programa de código abierto y una biblioteca para la minería de datos y el aprendizaje automático (escrito en Python). Ambos permiten una exploración visual conveniente y eficiente de datos multidimensionales
fuente
El software numérico gratuito DataMelt incluye una biblioteca Java llamada JMinHep. Consulte el manual en la sección "Agrupación de datos". Proporciona una GUI para visualizar puntos de datos multidimensionales en XY, y ejecuta una serie de algoritmos de agrupación de datos.
fuente