Preguntas etiquetadas con apache-spark

Apache Spark es un motor de procesamiento de datos distribuidos de código abierto escrito en Scala que proporciona una API unificada y conjuntos de datos distribuidos a los usuarios. Los casos de uso para Apache Spark a menudo están relacionados con el aprendizaje automático / profundo y el procesamiento de gráficos.

254
Spark - repartition () vs coalesce ()

De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition()llamadas coalesce()que permite evitar el movimiento de datos, pero solo si está disminuyendo el número de particiones RDD. Una...

179
¿Cómo leer múltiples archivos de texto en un solo RDD?

Quiero leer un montón de archivos de texto desde una ubicación hdfs y realizar un mapeo en él en una iteración usando spark. JavaRDD<String> records = ctx.textFile(args[1], 1); es capaz de leer solo un archivo a la vez. Quiero leer más de un archivo y procesarlos como un único RDD....

178
Rendimiento de chispa para Scala vs Python

Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la versión Scala de un código de preprocesamiento muy común...

143
¿Cómo se dividen las etapas en tareas en Spark?

Supongamos por lo siguiente que solo se está ejecutando un trabajo de Spark en cada momento. Lo que llego hasta ahora Esto es lo que entiendo que sucede en Spark: Cuando SparkContextse crea un, cada nodo de trabajo inicia un ejecutor. Los ejecutores son procesos separados (JVM), que se conectan...