Estoy trabajando en un proyecto de ciencia de datos relacionado con la minería de relaciones sociales y necesito almacenar datos en algunas bases de datos de gráficos. Inicialmente elegí Neo4j como la base de datos. Pero parece que Neo4j no escala bien. La alternativa que descubrí son Titan y oriebtDB. He pasado por esta comparación en estas tres bases de datos, pero me gustaría obtener más detalles sobre estas bases de datos. Entonces, ¿podría alguien ayudarme a elegir el mejor? Principalmente me gustaría comparar el rendimiento, el escalado, la documentación en línea / tutoriales disponibles, el soporte de la biblioteca Python, la complejidad del lenguaje de consulta y el soporte del algoritmo gráfico de estas bases de datos. ¿También hay otras buenas opciones de base de datos?
fuente
Respuestas:
Creo que es posible que tenga que tener en cuenta las líneas generales de datos y las líneas de aprendizaje automático. Para lo cual necesita un marco robusto para mover datos entre almacenamiento tipo tabla y gráfico, aparte del potente procesamiento distribuido. Según tengo entendido, Spark GraphX promete construir estas tuberías. Vale la pena ver la charla de Joseph Gonzalez (uno de los creadores de GraphLab de CMU) en GraphX en YouTube.
fuente