Buscando datos artificiales en 2D para demostrar las propiedades de los algoritmos de agrupamiento

9

Estoy buscando conjuntos de datos de puntos de datos bidimensionales (cada punto de datos es un vector de dos valores (x, y)) siguiendo diferentes distribuciones y formas. El código para generar tales datos también sería útil. Quiero usarlos para trazar / visualizar cómo funcionan algunos algoritmos de agrupación. Aquí hay unos ejemplos:

steffen
fuente
Yo voto por cw;)
steffen
Una pregunta similar en líneas específicas de los conjuntos de datos se ha cerrado aquí: stats.stackexchange.com/questions/38928/...
hearse
Para SPSS, he escrito una macro generadora de clúster (visite mi página, consulte "Generar clústeres"). Sin embargo, no produce formas pretenciosas como anillos o espirales.
ttnphns

Respuestas:

11

R viene con muchos conjuntos de datos, y parece que no sería un gran problema reproducir la mayoría de los ejemplos que citó con pocas líneas de código. También puede encontrar útil el paquete mlbench , en particular los conjuntos de datos sintéticos que comienzan con mlbench.*. Algunas ilustraciones se dan a continuación.

ingrese la descripción de la imagen aquí

Encontrará ejemplos adicionales mirando la Vista de tareas del clúster en CRAN. Por ejemplo, el paquete fpc tiene un generador incorporado para conjuntos de datos de referencia agrupados "en forma de cara" ( rFace).

ingrese la descripción de la imagen aquí

Consideraciones similares se aplican a Python, donde encontrará interesantes pruebas de referencia y conjuntos de datos para la agrupación con scikit-learn .

El depósito de aprendizaje automático de UCI también alberga muchos conjuntos de datos , pero es mejor que simule datos usted mismo con el idioma que elija.

chl
fuente
2

Este punto de referencia de agrupación de juguetes contiene varios conjuntos de datos en formato ARFF (podrían convertirse fácilmente a CSV), principalmente con etiquetas de verdad básica. El punto de referencia debe validar las propiedades básicas deseadas de los algoritmos de agrupamiento. La mayoría de los conjuntos de datos provienen de los documentos agrupados como:

  • Abedul : Zhang, Tian, ​​Raghu Ramakrishnan y Miron Livny. "BIRCH: un método eficiente de agrupación de datos para bases de datos muy grandes". Registro ACM SIGMOD. Vol. 25. No. 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi y Kyuseok Shim. "CURE: un algoritmo de agrupamiento eficiente para grandes bases de datos". Registro ACM SIGMOD. Vol. 27. No. 2. ACM, 1998.
  • Camaleón : Karypis, George, Eui-Hong Han y Vipin Kumar. "Camaleón: agrupamiento jerárquico utilizando modelado dinámico". Computadora 32.8 (1999): 68-75.
  • El conjunto de problemas de agrupación fundamental : Ultsch, A .: Agrupación con SOM: U * C, en proceso. Taller sobre mapas autoorganizados, París, Francia, (2005), pp. 75-82
  • MOCK - Handl, Julia y Joshua Knowles. "Un enfoque evolutivo para la agrupación multiobjetivo". Computación evolutiva, transacciones IEEE en 11.1 (2007): 56-76.
  • Robusto agrupamiento espectral basado en rutas : Chang, Hong y Dit-Yan Yeung. "Robusto agrupamiento espectral basado en rutas". Pattern Recognition 41.1 (2008): 191-203.

datos de karypis datos de cluto

revs Tombart
fuente
1

ELKI viene con un par de conjuntos de datos (verifique también las pruebas unitarias, contienen muchos más que los del sitio web, junto con la configuración de parámetros).

También incluye un generador de datos bastante flexible.

HA SALIDO - Anony-Mousse
fuente
1

Aquí hay un generador de clúster personalizable. Solo aborda una cierta clase de conjuntos de datos, pero seguramente puede usarse para investigaciones de algoritmos de clúster.

Aquí hay un ejemplo del tipo de clústeres que puede crear:

http://i.stack.imgur.com/vrCG5.png

La afiliación al clúster se guarda en un archivo de texto. El código es de código abierto bajo licencia MIT.

Felix Dobslaw
fuente
1

Este script de Matlab genera datos en 2D para la agrupación. Acepta varios parámetros para que los datos generados estén dentro de los requisitos del usuario.

falso
fuente
0

No puedo creer que nadie haya mencionado los datos de Iris de Fisher.

No creo haber visto una técnica de agrupación que no utilice los datos del iris como ejemplo.

En r, simplemente escriba "iris" para acceder a los datos.

Aquí hay un ejemplo de un lindo (y típico) diagrama de iris: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

geneorama
fuente