Estoy buscando conjuntos de datos de puntos de datos bidimensionales (cada punto de datos es un vector de dos valores (x, y)) siguiendo diferentes distribuciones y formas. El código para generar tales datos también sería útil. Quiero usarlos para trazar / visualizar cómo funcionan algunos algoritmos de agrupación. Aquí hay unos ejemplos:
9
Respuestas:
R viene con muchos conjuntos de datos, y parece que no sería un gran problema reproducir la mayoría de los ejemplos que citó con pocas líneas de código. También puede encontrar útil el paquete mlbench , en particular los conjuntos de datos sintéticos que comienzan con
mlbench.*
. Algunas ilustraciones se dan a continuación.Encontrará ejemplos adicionales mirando la Vista de tareas del clúster en CRAN. Por ejemplo, el paquete fpc tiene un generador incorporado para conjuntos de datos de referencia agrupados "en forma de cara" (
rFace
).Consideraciones similares se aplican a Python, donde encontrará interesantes pruebas de referencia y conjuntos de datos para la agrupación con scikit-learn .
El depósito de aprendizaje automático de UCI también alberga muchos conjuntos de datos , pero es mejor que simule datos usted mismo con el idioma que elija.
fuente
Aquí hay algunos conjuntos de datos diseñados exactamente para esta tarea:
El conjunto de problemas de agrupamiento fundamental de Ultsch
fuente
Este punto de referencia de agrupación de juguetes contiene varios conjuntos de datos en formato ARFF (podrían convertirse fácilmente a CSV), principalmente con etiquetas de verdad básica. El punto de referencia debe validar las propiedades básicas deseadas de los algoritmos de agrupamiento. La mayoría de los conjuntos de datos provienen de los documentos agrupados como:
fuente
ELKI viene con un par de conjuntos de datos (verifique también las pruebas unitarias, contienen muchos más que los del sitio web, junto con la configuración de parámetros).
También incluye un generador de datos bastante flexible.
fuente
Aquí hay un generador de clúster personalizable. Solo aborda una cierta clase de conjuntos de datos, pero seguramente puede usarse para investigaciones de algoritmos de clúster.
Aquí hay un ejemplo del tipo de clústeres que puede crear:
La afiliación al clúster se guarda en un archivo de texto. El código es de código abierto bajo licencia MIT.
fuente
Este script de Matlab genera datos en 2D para la agrupación. Acepta varios parámetros para que los datos generados estén dentro de los requisitos del usuario.
fuente
No puedo creer que nadie haya mencionado los datos de Iris de Fisher.
No creo haber visto una técnica de agrupación que no utilice los datos del iris como ejemplo.
En r, simplemente escriba "iris" para acceder a los datos.
Aquí hay un ejemplo de un lindo (y típico) diagrama de iris: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/
fuente