Me pregunto cuál es la diferencia entre an RDDy DataFrame (Spark 2.0.0 DataFrame es un simple alias de tipo para Dataset[Row]) en Apache Spark. ¿Puedes convertir uno a
Apache Spark es un motor de procesamiento de datos distribuidos de código abierto escrito en Scala que proporciona una API unificada y conjuntos de datos distribuidos a los usuarios. Los casos de uso para Apache Spark a menudo están relacionados con el aprendizaje automático / profundo y el procesamiento de gráficos.
Me pregunto cuál es la diferencia entre an RDDy DataFrame (Spark 2.0.0 DataFrame es un simple alias de tipo para Dataset[Row]) en Apache Spark. ¿Puedes convertir uno a
De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition()llamadas coalesce()que permite evitar el movimiento de datos, pero solo si está disminuyendo el número de particiones RDD. Una...
¿Alguien puede explicarme la diferencia entre map y flatMap y cuál es un buen caso de uso para cada uno? ¿Qué significa "aplanar los resultados"? ¿Para que
Mi clúster: 1 maestro, 11 esclavos, cada nodo tiene 6 GB de memoria. Mi configuración: spark.executor.memory=4g, Dspark.akka.frameSize=512 Aquí está el problema: Primero , leí algunos datos (2,19 GB) de HDFS a RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) En segundo lugar , haga algo en...
Obtención de un comportamiento extraño al llamar a la función fuera de un cierre: cuando la función está en un objeto todo funciona cuando la función está en una clase obtener: Tarea no serializable: java.io.NotSerializableException: prueba El problema es que necesito mi código en una...
Leí la Descripción general del modo de clúster y todavía no puedo entender los diferentes procesos en el clúster autónomo de Spark y el paralelismo. ¿Es el trabajador un proceso JVM o no? Ejecuté el bin\start-slave.shy descubrí que engendró al trabajador, que en realidad es una JVM. Según el...
En términos de RDDpersistencia, ¿cuáles son las diferencias entre cache()y persist()en la
Vengo de antecedentes de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de columna a algo útil usando el comando simple: df.columns = new_column_name_list Sin embargo, lo mismo no funciona en los marcos de datos pyspark...
Estoy usando spark-csv para cargar datos en un DataFrame. Quiero hacer una consulta simple y mostrar el contenido: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from...
Estoy tratando de entender la relación entre la cantidad de núcleos y la cantidad de ejecutores cuando se ejecuta un trabajo de Spark en YARN. El entorno de prueba es el siguiente: Número de nodos de datos: 3 Especificaciones de la máquina del nodo de datos: CPU: Core i7-4790 (# de núcleos: 4,...
Me gustaría detener varios mensajes que llegan en spark shell. Traté de editar el log4j.propertiesarchivo para detener este mensaje. Aquí están los contenidos de log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN,
Quiero leer un montón de archivos de texto desde una ubicación hdfs y realizar un mapeo en él en una iteración usando spark. JavaRDD<String> records = ctx.textFile(args[1], 1); es capaz de leer solo un archivo a la vez. Quiero leer más de un archivo y procesarlos como un único RDD....
Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la versión Scala de un código de preprocesamiento muy común...
Cuando se crea un conjunto de datos distribuido elástico (RDD) a partir de un archivo de texto o colección (o de otro RDD), ¿necesitamos llamar "caché" o "persistir" explícitamente para almacenar los datos RDD en la memoria? ¿O los datos RDD se almacenan de forma distribuida en la memoria de forma...
Es cierto ... se ha discutido bastante. Sin embargo, hay mucha ambigüedad y algunas de las respuestas proporcionadas ... incluyendo duplicar referencias de jarras en la configuración u opciones de jarras / ejecutor / controlador. Los detalles ambiguos y / u omitidos Después de la ambigüedad, se...
Supongamos que estoy haciendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment:...
De acuerdo con la introducción de conjuntos de datos de Spark : Mientras esperamos Spark 2.0, planeamos algunas mejoras interesantes para los conjuntos de datos, específicamente: ... Codificadores personalizados: si bien actualmente generamos codificadores automáticamente para una amplia...
Instalé Spark usando la guía AWS EC2 y puedo iniciar bien el programa usando el bin/pyspark script para llegar al indicador de chispa y también puedo hacer el inicio rápido exitosamente. Sin embargo, no puedo por mi vida descubrir cómo detener todo el INFOregistro detallado después de cada...
Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0|...
Supongamos por lo siguiente que solo se está ejecutando un trabajo de Spark en cada momento. Lo que llego hasta ahora Esto es lo que entiendo que sucede en Spark: Cuando SparkContextse crea un, cada nodo de trabajo inicia un ejecutor. Los ejecutores son procesos separados (JVM), que se conectan...