He disfrutado leyendo ServerFault durante un tiempo y he encontrado bastantes temas sobre Hadoop. He tenido algunos problemas para descubrir qué hace desde un punto de vista global.
Entonces mi pregunta es bastante simple: ¿Qué es Hadoop? Qué hace ? Para qué se usa esto ? ¿Por qué patea traseros?
Editar: Si alguien tiene demostraciones / explicaciones de casos de uso en los que se usó Hadoop, sería fantástico.
Respuestas:
Directamente de la boca del caballo :
Map / Reduce es un paradigma de programación que se hizo popular en Google, donde una tarea se divide en pequeñas porciones y se distribuye a un gran número de nodos para su procesamiento (mapa), y los resultados se resumen en la respuesta final (reducir ) Google y Yahoo usan esto para su tecnología de motor de búsqueda, entre otras cosas.
Hadoop es un marco genérico para implementar este tipo de esquema de procesamiento. En cuanto a por qué patea el culo, principalmente porque proporciona características ordenadas como la tolerancia a fallas y le permite reunir casi cualquier tipo de hardware para hacer el procesamiento. También se escala extremadamente bien, siempre que su problema se ajuste al paradigma.
Puedes leer todo sobre esto en el sitio web .
En cuanto a algunos ejemplos, Paul dio algunos, pero aquí hay algunos más que podría hacer que no estén tan centrados en la web:
y luego los resultados se resumen en el paso "reducir".
Esencialmente, el modelo funciona muy bien para un problema que puede desglosarse en cálculos discretos similares que son completamente independientes y pueden recombinarse para producir un resultado final.
fuente
Cloudera tiene algunos videos geniales que explican los principios detrás de Map Reduce y Hadoop.
http://www.cloudera.com/hadoop-training-basic
Una de las ideas centrales detrás de MapReduce es que para grandes conjuntos de datos usted estará atado a sus discos, por lo que en Hadoop HDFS le brinda la capacidad de dividir las cosas entre muchos nodos permitiendo el procesamiento paralelo.
Algunos usos de Hadoop de interés para los administradores de sistemas a menudo se refieren al procesamiento de grandes conjuntos de archivos de registro: solo puedo publicar un enlace, pero estos incluyen, google debería encontrar estos:
fuente
Inicialmente, hadoop se desarrolla para una gran cantidad de conjuntos de datos en un entorno OLAP.
Con la introducción de Hbase en la parte superior de hadoop, la caña también se utilizará para el procesamiento OLAP. Hadoop es un marco con todos los subcomponentes como map reduce, hdfs, hbase, pig.
Se encuentra el artículo con el básico de hadoop en Why Hadoop se presenta .
En Hadoop, el almacenamiento de datos en forma de archivos, no en las tablas, columnas.
fuente