Quiero crear DataFramecon un esquema específico en Scala. He intentado usar JSON read (me refiero a leer un archivo vacío) pero no creo que esa sea la mejor práctica.
Quiero crear DataFramecon un esquema específico en Scala. He intentado usar JSON read (me refiero a leer un archivo vacío) pero no creo que esa sea la mejor práctica.
Tengo una aplicación Spark que se ejecuta sin problemas en modo local, pero tengo algunos problemas al enviarme al clúster Spark. Los mensajes de error son los siguientes: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):
Estoy intentando configurar Apache Spark en Windows. Después de buscar un poco, entiendo que lo que quiero es el modo independiente. ¿Qué binarios descargo para ejecutar Apache Spark en Windows? Veo distribuciones con hadoop y cdh en la página de descarga de Spark. No tengo referencias en la...
Estoy tratando de convertir todos los nombres de encabezados / columnas de un DataFrameen Spark-Scala. a partir de ahora, se me ocurre el siguiente código que solo reemplaza el nombre de una sola columna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i),...
En mi chispa-shell, ¿qué significan entradas como las siguientes cuando ejecuto una función? [Stage7:===========> (14174 + 5) / 62500]
No puedo ejecutar un sparktrabajo simple en Scala IDE(proyecto Maven Spark) instalado enWindows 7 Se ha agregado la dependencia del núcleo de Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData =
Construí Spark 1.4 a partir del maestro de desarrollo de GH y la compilación salió bien. Pero cuando lo hago bin/pyspark, obtengo la versión Python 2.7.9. ¿Cómo puedo cambiar esto?
¿Existe alguna dependencia entre Spark y Hadoop ? Si no es así, ¿hay alguna función que me pierda cuando ejecuto Spark sin Hadoop ?
Estoy usando pyspark (Python 2.7.9 / Spark 1.3.1) y tengo un GroupObject de marco de datos que necesito filtrar y ordenar en orden descendente. Tratando de lograrlo a través de este código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Pero arroja el...
Quiero convertir una columna de cadena de un marco de datos en una lista. Lo que puedo encontrar en la DataframeAPI es RDD, así que primero intenté convertirlo a RDD y luego apliqué la toArrayfunción al RDD. En este caso, la longitud y SQL funcionan bien. Sin embargo, el resultado que obtuve de...
¿Es posible guardar DataFrameen Spark directamente en Hive? He tratado con la conversión DataFramede Rdda continuación, guardar como archivo de texto y luego cargar en la colmena. Pero me pregunto si puedo guardar directamente dataframeen colmena.
Estoy ejecutando un trabajo de Spark en modo de especulación. Tengo alrededor de 500 tareas y alrededor de 500 archivos de 1 GB gz comprimidos. Sigo recibiendo en cada trabajo, para 1-2 tareas, el error adjunto donde se repite luego decenas de veces (evitando que el trabajo se complete)....
¿Por dónde empezar a ajustar los parámetros mencionados anteriormente? ¿Comenzamos con la memoria del ejecutor y obtenemos el número de ejecutores, o comenzamos con núcleos y obtenemos el número de ejecutor? Seguí el enlace . Sin embargo, tengo una idea de alto nivel, pero todavía no estoy...
Entonces, como sé en Spark Dataframe, que para múltiples columnas puede tener el mismo nombre que se muestra en la siguiente instantánea del marco de datos: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0,...
Leí la documentación de HashPartitioner. Desafortunadamente, no se explicó mucho excepto las llamadas a la API. Supongo que HashPartitionerparticiona el conjunto distribuido en función del hash de las claves. Por ejemplo, si mis datos son como (1,1), (1,2), (1,3), (2,1), (2,2),...
Estoy intentando instalar Spark en mi Mac. He usado home-brew para instalar Spark 2.4.0 y Scala. He instalado PySpark en mi entorno anaconda y estoy usando PyCharm para el desarrollo. He exportado a mi perfil de bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail...
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint,...
Cerrado . Esta pregunta se basa en opiniones . Actualmente no acepta respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que pueda responderse con hechos y citas editando esta publicación . Cerrado hace 4 años . Mejora esta...
Apache Beam admite múltiples backends de ejecución, incluidos Apache Spark y Flink. Estoy familiarizado con Spark / Flink y estoy tratando de ver los pros / contras de Beam para el procesamiento por lotes. Mirando el ejemplo del recuento de palabras de Beam , parece que es muy similar a los...
Soy nuevo con apache spark y aparentemente instalé apache-spark con homebrew en mi macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type...