Existen varios conjuntos de datos clásicos para tareas de clasificación / regresión de aprendizaje automático. Los más populares son:
- Conjunto de datos de flor de iris ;
- Conjunto de datos titánicos ;
- Automóviles de tendencia de motor ;
- etc.
¿Pero alguien conoce conjuntos de datos similares para el análisis de redes / teoría de grafos? Más concreto: estoy buscando conjuntos de datos estándar de oro para comparar / evaluar / aprender:
- medidas de centralidad;
- algoritmos de agrupamiento en red.
No necesito una gran lista de redes / gráficos disponibles públicamente, sino un par de conjuntos de datos que realmente deben conocerse.
EDITAR:
Es bastante difícil proporcionar características exactas para el "conjunto de datos estándar de oro", pero aquí hay algunas ideas. Creo que el conjunto de datos clásico real debería satisfacer estos criterios:
- Múltiples referencias en artículos y libros de texto;
- Inclusión en conocidos paquetes de software de análisis de red;
- Suficiente tiempo de existencia;
- Uso en varios cursos sobre análisis gráfico.
Con respecto a mi campo de interés, también necesito clases etiquetadas para vértices y / o "puntuaciones de autoridad" precalculadas (o predefinidas) (es decir, estimaciones de centralidad). Después de hacer esta pregunta, continué buscando, y aquí hay algunos ejemplos adecuados:
- Club de Karate de Zachary : introducido en 1977, citado más de 1.5k veces (según Google Scholar), los vértices tienen el atributo Facción (que se puede usar para la agrupación).
- Erdos Collaboration Network : desafortunadamente, no he encontrado esta red en forma de archivo de datos, pero es bastante famosa, y si alguien enriquece la red con los datos de especialización de matemáticos, también podría usarse para probar algoritmos de agrupamiento.
Respuestas:
Lo que está buscando se puede encontrar en KONECT (el sitio web está caído porque estoy escribiendo esto, ¡pero debería solucionarlo pronto!). Es casi la recopilación de datos más completa para el análisis de redes. Pero la pregunta es cuál es más estándar de usar.
¡Bueno, no hay una respuesta clara, excepto el Club de Karate de Zachary!
Si hace una revisión de la literatura en algoritmos de Detección de comunidad, verá que casi todos los documentos brillantes utilizan redes diferentes. Mi sugerencia es analizar lo que Andrea Lancichinetti y Santo Fortunato hicieron para comparar gráficos. Propusieron algunos algoritmos de generación de gráficos de referencia, por ejemplo, este .
Espero eso ayude :)
fuente
Tal vez puedes consultar aquí: http://snap.stanford.edu/data/
Para cada conjunto de datos también verá referencias de las obras donde se han utilizado.
fuente
Lo único que sé son los datos de referencia para las bases de datos de gráficos, como Neo4j.
Puede encontrar enlaces similares a este: http://istc-bigdata.org/index.php/benchmarking-graph-databases/
donde puede encontrar datos para probar el análisis de red y la teoría de grafos.
Además, puedes jugar con la API de Twitter / Facebook para recopilar tus propios datos. Esto también es una sugerencia en caso de que no encuentre los datos que está buscando.
fuente