Me pregunto cuál es la diferencia entre an RDDy DataFrame (Spark 2.0.0 DataFrame es un simple alias de tipo para Dataset[Row]) en Apache Spark. ¿Puedes convertir uno a
Me pregunto cuál es la diferencia entre an RDDy DataFrame (Spark 2.0.0 DataFrame es un simple alias de tipo para Dataset[Row]) en Apache Spark. ¿Puedes convertir uno a
De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition()llamadas coalesce()que permite evitar el movimiento de datos, pero solo si está disminuyendo el número de particiones RDD. Una...
En términos de RDDpersistencia, ¿cuáles son las diferencias entre cache()y persist()en la
Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la versión Scala de un código de preprocesamiento muy común...
Cuando se crea un conjunto de datos distribuido elástico (RDD) a partir de un archivo de texto o colección (o de otro RDD), ¿necesitamos llamar "caché" o "persistir" explícitamente para almacenar los datos RDD en la memoria? ¿O los datos RDD se almacenan de forma distribuida en la memoria de forma...
¿Cómo puedo convertir un RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un marco de datos org.apache.spark.sql.DataFrame? Convertí un marco de datos a rdd usando .rdd. Después de procesarlo, lo quiero de vuelta en el marco de datos. Cómo puedo hacer esto
¿Cuál es la diferencia entre un RDD map y un mapPartitionsmétodo? ¿Y se flatMapcomporta como mapo como mapPartitions? Gracias. (editar) es decir, ¿cuál es la diferencia (semánticamente o en términos de ejecución) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b:...
Leí la documentación de HashPartitioner. Desafortunadamente, no se explicó mucho excepto las llamadas a la API. Supongo que HashPartitionerparticiona el conjunto distribuido en función del hash de las claves. Por ejemplo, si mis datos son como (1,1), (1,2), (1,3), (2,1), (2,2),...