Casi llego a Cassandra después de mi investigación sobre soluciones de almacenamiento de datos a gran escala. Pero generalmente se dice que Hbase es una mejor solución para el procesamiento y análisis de datos a gran escala.
Si bien ambos son el mismo almacenamiento de clave / valor y ambos son / pueden ejecutar (Cassandra recientemente) la capa de Hadoop, lo que hace que Hadoop sea un mejor candidato cuando se requiere procesamiento / análisis de datos grandes.
También encontré buenos detalles sobre ambos en http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/
pero sigo buscando ventajas concretas de Hbase.
Si bien estoy más convencido de Cassandra por su simplicidad para agregar nodos y replicación perfecta y sin características de punto de falla. Y también mantiene la función de índice secundario, por lo que es una buena ventaja.
La razón para usar clústeres de hBase de 100 nodos no es porque HBase no se escala a tamaños más grandes. Esto se debe a que es más fácil realizar actualizaciones de software hBase / HDFS de forma continua sin interrumpir todo el servicio. Otra razón es evitar que un solo NameNode sea un SPOF para todo el servicio. Además, HBase se está utilizando para varios servicios (no solo mensajes FB) y es prudente tener un enfoque de cookie cutter para configurar numerosos clústeres de HBase basados en un enfoque de pod de 100 nodos. El número 100 es ad hoc, no nos hemos centrado en si 100 es óptimo o no.
fuente