Preguntas etiquetadas con apache-spark

94

¿Cómo crear un DataFrame vacío con un esquema específico?

Quiero crear DataFramecon un esquema específico en Scala. He intentado usar JSON read (me refiero a leer un archivo vacío) pero no creo que esa sea la mejor práctica.

93

Spark: error "Se debe establecer una URL maestra en su configuración" al enviar una aplicación

Tengo una aplicación Spark que se ejecuta sin problemas en modo local, pero tengo algunos problemas al enviarme al clúster Spark. Los mensajes de error son los siguientes: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):

scala apache-spark

93

¿Cómo configurar Spark en Windows?

Estoy intentando configurar Apache Spark en Windows. Después de buscar un poco, entiendo que lo que quiero es el modo independiente. ¿Qué binarios descargo para ejecutar Apache Spark en Windows? Veo distribuciones con hadoop y cdh en la página de descarga de Spark. No tengo referencias en la...

windows apache-spark

93

Cambiar el nombre de las columnas de un DataFrame en Spark Scala

Estoy tratando de convertir todos los nombres de encabezados / columnas de un DataFrameen Spark-Scala. a partir de ahora, se me ocurre el siguiente código que solo reemplaza el nombre de una sola columna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i),...

scala apache-spark dataframe apache-spark-sql

92

¿Qué significan los números en la barra de progreso en spark-shell?

En mi chispa-shell, ¿qué significan entradas como las siguientes cuando ejecuto una función? [Stage7:===========> (14174 + 5) / 62500]

apache-spark

92

java.io.IOException: no se pudo localizar el ejecutable null \ bin \ winutils.exe en los archivos binarios de Hadoop. Spark Eclipse en Windows 7

No puedo ejecutar un sparktrabajo simple en Scala IDE(proyecto Maven Spark) instalado enWindows 7 Se ha agregado la dependencia del núcleo de Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData =

eclipse scala apache-spark

91

Apache Spark: Cómo usar pyspark con Python 3

Construí Spark 1.4 a partir del maestro de desarrollo de GH y la compilación salió bien. Pero cuando lo hago bin/pyspark, obtengo la versión Python 2.7.9. ¿Cómo puedo cambiar esto?

python python-3.x apache-spark

91

¿Puede apache spark funcionar sin hadoop?

¿Existe alguna dependencia entre Spark y Hadoop ? Si no es así, ¿hay alguna función que me pierda cuando ejecuto Spark sin Hadoop ?

hadoop amazon-s3 apache-spark mapreduce mesos

88

Spark DataFrame groupBy y ordenar en orden descendente (pyspark)

Estoy usando pyspark (Python 2.7.9 / Spark 1.3.1) y tengo un GroupObject de marco de datos que necesito filtrar y ordenar en orden descendente. Tratando de lograrlo a través de este código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Pero arroja el...

python apache-spark dataframe pyspark apache-spark-sql

86

Extraiga los valores de columna de Dataframe como lista en Apache Spark

Quiero convertir una columna de cadena de un marco de datos en una lista. Lo que puedo encontrar en la DataframeAPI es RDD, así que primero intenté convertirlo a RDD y luego apliqué la toArrayfunción al RDD. En este caso, la longitud y SQL funcionan bien. Sin embargo, el resultado que obtuve de...

scala apache-spark apache-spark-sql

85

¿Cómo guardar DataFrame directamente en Hive?

¿Es posible guardar DataFrameen Spark directamente en Hive? He tratado con la conversión DataFramede Rdda continuación, guardar como archivo de texto y luego cargar en la colmena. Pero me pregunto si puedo guardar directamente dataframeen colmena.

scala apache-spark hive apache-spark-sql

85

¿Por qué fallan los trabajos de Spark con org.apache.spark.shuffle.MetadataFetchFailedException: falta una ubicación de salida para shuffle 0 en modo de especulación?

Estoy ejecutando un trabajo de Spark en modo de especulación. Tengo alrededor de 500 tareas y alrededor de 500 archivos de 1 GB gz comprimidos. Sigo recibiendo en cada trabajo, para 1-2 tareas, el error adjunto donde se repite luego decenas de veces (evitando que el trabajo se complete)....

apache-spark

84

¿Cómo ajustar el número de ejecutor de chispa, los núcleos y la memoria de ejecutor?

¿Por dónde empezar a ajustar los parámetros mencionados anteriormente? ¿Comenzamos con la memoria del ejecutor y obtenemos el número de ejecutores, o comenzamos con núcleos y obtenemos el número de ejecutor? Seguí el enlace . Sin embargo, tengo una idea de alto nivel, pero todavía no estoy...

apache-spark

82

Spark Dataframe distingue columnas con nombre duplicado

Entonces, como sé en Spark Dataframe, que para múltiples columnas puede tener el mismo nombre que se muestra en la siguiente instantánea del marco de datos: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0,...

python apache-spark dataframe pyspark apache-spark-sql

82

¿Cómo funciona HashPartitioner?

Leí la documentación de HashPartitioner. Desafortunadamente, no se explicó mucho excepto las llamadas a la API. Supongo que HashPartitionerparticiona el conjunto distribuido en función del hash de las claves. Por ejemplo, si mis datos son como (1,1), (1,2), (1,3), (2,1), (2,2),...

scala apache-spark rdd partitioning

82

Error de Spark: versión principal del archivo de clase no compatible

Estoy intentando instalar Spark en mi Mac. He usado home-brew para instalar Spark 2.4.0 y Scala. He instalado PySpark en mi entorno anaconda y estoy usando PyCharm para el desarrollo. He exportado a mi perfil de bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail...

java python macos apache-spark pyspark

81

Cómo eliminar columnas en pyspark dataframe

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint,...

apache-spark apache-spark-sql pyspark

81

¿En qué situación puedo usar Dask en lugar de Apache Spark? [cerrado]

Cerrado . Esta pregunta se basa en opiniones . Actualmente no acepta respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que pueda responderse con hechos y citas editando esta publicación . Cerrado hace 4 años . Mejora esta...

python pandas apache-spark dask

81

¿Cuáles son los beneficios de Apache Beam sobre Spark / Flink para el procesamiento por lotes?

Apache Beam admite múltiples backends de ejecución, incluidos Apache Spark y Flink. Estoy familiarizado con Spark / Flink y estoy tratando de ver los pros / contras de Beam para el procesamiento por lotes. Mirando el ejemplo del recuento de palabras de Beam , parece que es muy similar a los...

apache-spark apache-flink apache-beam

80

¿Cómo vincular PyCharm con PySpark?

Soy nuevo con apache spark y aparentemente instalé apache-spark con homebrew en mi macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type...

python apache-spark pyspark pycharm homebrew