Escuché sobre muchas herramientas / marcos para ayudar a las personas a procesar sus datos (entorno de big data).
Uno se llama Hadoop y el otro es el concepto noSQL. ¿Cuál es la diferencia en el punto de procesamiento?
¿Son complementarios?
nosql
tools
processing
apache-hadoop
рüффп
fuente
fuente
Respuestas:
Hadoop no es una base de datos , hadoop es un ecosistema completo.
La mayoría de la gente se referirá a trabajos de reducción mapas mientras hablan de hadoop. Un trabajo de reducción de mapas divide grandes conjuntos de datos en algunos pequeños fragmentos de datos y los distribuye en un grupo de nodos para continuar. Al final, el resultado de cada nodo se juntará nuevamente como un conjunto de datos.
Supongamos que carga en hadoop un conjunto de
<String, Integer>
con la población de algunos barrios dentro de una ciudad y desea obtener la población promedio sobre los barrios completos de cada ciudad (figura 1).Figura 1
Ahora hadoop primero mapeará cada valor usando las teclas (figura 2)
Figura 2
Después de la asignación, reducirá los valores de cada clave a un nuevo valor (en este ejemplo, el promedio sobre el conjunto de valores de cada clave) (figura 3)
figura 3
ahora hadoop se haría con todo. Ahora puede cargar el resultado en el HDFS (sistema de archivos distribuido hadoop) o en cualquier DBMS o archivo.
Ese es solo un ejemplo muy básico y simple de lo que puede hacer hadoop. Puede ejecutar tareas mucho más complicadas en hadoop.
Como ya mencionó en su pregunta, hadoop y noSQL son complementarios. Conozco algunas configuraciones donde, por ejemplo, miles de millones de conjuntos de datos de sensores se almacenan en HBase y luego pasan a través de hadoop para finalmente almacenarse en un DBMS.
fuente
NoSQL es una forma de almacenar datos que no requieren que haya algún tipo de relación. La simplicidad de su diseño y su capacidad de escala horizontal, una forma de almacenar datos es la
key : value
diseño de pares. Esto se presta para un procesamiento similar a Hadoop. El uso de un NoSQL db realmente depende del tipo de problema que se busca.Aquí hay un buen enlace de Wikipedia NoSQL
Hadoop es un sistema destinado a almacenar y procesar grandes cantidades de datos. Es un sistema de archivos distribuido dfs. La razón por la que hace esto es que, para su diseño, es fundamental suponer que las fallas de hardware son comunes, por lo tanto, realiza múltiples copias de la misma información y la distribuye a través de múltiples máquinas y bastidores, por lo que si uno falla, no hay problema, nosotros Tener dos copias más. Aquí hay un gran enlace para Hadoop de Wikipedia también, verá que, en mi opinión, es más que solo almacenamiento, sino también procesamiento: Hadoop
fuente