Preguntas etiquetadas con hadoop

96

¿La forma de comprobar el tamaño de un directorio HDFS?

Conozco du -shlos sistemas de archivos comunes de Linux. ¿Pero cómo hacer eso con

92

Avro contra Parquet

Estoy planeando usar uno de los formatos de archivo hadoop para mi proyecto relacionado con hadoop. Yo entiendo de parquet es eficaz para la consulta y Avro basada en la columna para barrido completo o cuando necesitamos todos los datos de las columnas! Antes de continuar y elegir uno de los...

hadoop avro parquet

91

¿Puede apache spark funcionar sin hadoop?

¿Existe alguna dependencia entre Spark y Hadoop ? Si no es así, ¿hay alguna función que me pierda cuando ejecuto Spark sin Hadoop ?

hadoop amazon-s3 apache-spark mapreduce mesos

88

¿Cómo saber las versiones de Hive y Hadoop desde el símbolo del sistema?

¿Cómo puedo encontrar qué versión de Hive estoy usando desde el símbolo del sistema? A continuación se muestran los detalles. Estoy usando Putty para conectarme a la tabla de colmena y acceder a los registros de las tablas. Entonces, lo que hice fue abrir Putty y en el nombre de host escribí...

hadoop hive

87

Parquet vs ORC vs ORC con Snappy

Estoy realizando algunas pruebas en los formatos de almacenamiento disponibles con Hive y usando Parquet y ORC como opciones principales. Incluí ORC una vez con compresión predeterminada y una vez con Snappy. He leído muchos documentos que afirman que Parquet es mejor en complejidad de tiempo /...

hadoop hive parquet snappy orc

86

conectarse al puerto de host localhost 22: Conexión rechazada

Mientras instalaba hadoop en mi máquina local, recibí el siguiente error ssh -vvv localhost OpenSSH_5.5p1, OpenSSL 1.0.0e-fips 6 Sep 2011 debug1: Reading configuration data /etc/ssh/ssh_config debug1: Applying options for * debug2: ssh_connect: needpriv 0 debug1: Connecting to localhost...

linux hadoop ssh

85

El contenedor se ejecuta más allá de los límites de memoria

En Hadoop v1, he asignado cada 7 ranuras de mapeador y reductor con un tamaño de 1GB, mis mapeadores y reductores funcionan bien. Mi máquina tiene memoria 8G, procesador 8. Ahora con YARN, cuando ejecuto la misma aplicación en la misma máquina, obtengo un error de contenedor. Por defecto, tengo...

hadoop mapreduce yarn mrv2

84

Procesamiento de datos a gran escala Hbase vs Cassandra [cerrado]

Tal como está actualmente, esta pregunta no se ajusta bien a nuestro formato de preguntas y respuestas. Esperamos que las respuestas estén respaldadas por hechos, referencias o experiencia, pero es probable que esta pregunta solicite debate, argumentos, encuestas o una discusión...

nosql hadoop cassandra hbase data-processing

81

¿Cómo envío los resultados de una consulta HiveQL a CSV?

nos gustaría poner los resultados de una consulta de Hive en un archivo CSV. Pensé que el comando debería verse así: insert overwrite directory '/home/output.csv' select books from table; Cuando lo ejecuto, dice que se completó correctamente, pero nunca puedo encontrar el archivo. ¿Cómo...

database hadoop hive hiveql

81

¿Cuándo comienzan las tareas de reducción en Hadoop?

En Hadoop, ¿cuándo comienzan las tareas de reducción? ¿Comienzan después de que se completa un cierto porcentaje (umbral) de mapeadores? Si es así, ¿se fija este umbral? ¿Qué tipo de umbral se utiliza normalmente?

hadoop mapreduce reduce

79

Nombre de contador truncado / inconsistente de Hadoop

Por ahora, tengo un trabajo de Hadoop que crea contadores con un nombre bastante grande. Por ejemplo, la siguiente: stats.counters.server-name.job.job-name.mapper.site.site-name.qualifier.qualifier-name.super-long-string-which-is-not-within-standard-limits. Este contador se trunca en la...

java hadoop mapreduce yarn