¿Cuál es la diferencia entre Hadoop y noSQL?

15

Escuché sobre muchas herramientas / marcos para ayudar a las personas a procesar sus datos (entorno de big data).

Uno se llama Hadoop y el otro es el concepto noSQL. ¿Cuál es la diferencia en el punto de procesamiento?

¿Son complementarios?

nosql tools processing apache-hadoop рüффп
fuente

3

Votado por falta de esfuerzo de investigación. Hadoop y noSQL están bien definidos en otros lugares.

Spacedman

@Spacedman Estoy de acuerdo, pero ese fue un ejemplo de pregunta del Area51, entonces si no se eliminó antes, supongo que es válido, e incluso sabía la respuesta cuando publiqué la pregunta (al menos genéricamente).

рüффп

16

Hadoop no es una base de datos , hadoop es un ecosistema completo.

el ecosistema hadoop

La mayoría de la gente se referirá a trabajos de reducción mapas mientras hablan de hadoop. Un trabajo de reducción de mapas divide grandes conjuntos de datos en algunos pequeños fragmentos de datos y los distribuye en un grupo de nodos para continuar. Al final, el resultado de cada nodo se juntará nuevamente como un conjunto de datos.

Supongamos que carga en hadoop un conjunto de <String, Integer> con la población de algunos barrios dentro de una ciudad y desea obtener la población promedio sobre los barrios completos de cada ciudad (figura 1).

Figura 1

    [new york, 40394]
    [new york, 134]
    [la, 44]
    [la, 647]
    ...

Ahora hadoop primero mapeará cada valor usando las teclas (figura 2)

Figura 2

[new york, [40394,134]]
[la, [44,647]]
...

Después de la asignación, reducirá los valores de cada clave a un nuevo valor (en este ejemplo, el promedio sobre el conjunto de valores de cada clave) (figura 3)

figura 3

[new york, [20264]]
[la, [346]]
...

ahora hadoop se haría con todo. Ahora puede cargar el resultado en el HDFS (sistema de archivos distribuido hadoop) o en cualquier DBMS o archivo.

Ese es solo un ejemplo muy básico y simple de lo que puede hacer hadoop. Puede ejecutar tareas mucho más complicadas en hadoop.

Como ya mencionó en su pregunta, hadoop y noSQL son complementarios. Conozco algunas configuraciones donde, por ejemplo, miles de millones de conjuntos de datos de sensores se almacenan en HBase y luego pasan a través de hadoop para finalmente almacenarse en un DBMS.

Johnny000
fuente

5

NoSQL es una forma de almacenar datos que no requieren que haya algún tipo de relación. La simplicidad de su diseño y su capacidad de escala horizontal, una forma de almacenar datos es lakey : value diseño de pares. Esto se presta para un procesamiento similar a Hadoop. El uso de un NoSQL db realmente depende del tipo de problema que se busca.

Aquí hay un buen enlace de Wikipedia NoSQL

Hadoop es un sistema destinado a almacenar y procesar grandes cantidades de datos. Es un sistema de archivos distribuido dfs. La razón por la que hace esto es que, para su diseño, es fundamental suponer que las fallas de hardware son comunes, por lo tanto, realiza múltiples copias de la misma información y la distribuye a través de múltiples máquinas y bastidores, por lo que si uno falla, no hay problema, nosotros Tener dos copias más. Aquí hay un gran enlace para Hadoop de Wikipedia también, verá que, en mi opinión, es más que solo almacenamiento, sino también procesamiento: Hadoop

MCP_infiltrator
fuente

¿Cuál es la diferencia entre Hadoop y noSQL?

Respuestas: