Preguntas etiquetadas con apache-spark

133
Apache Spark: mapa vs mapa ¿Particiones?

¿Cuál es la diferencia entre un RDD map y un mapPartitionsmétodo? ¿Y se flatMapcomporta como mapo como mapPartitions? Gracias. (editar) es decir, ¿cuál es la diferencia (semánticamente o en términos de ejecución) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b:...

127
Cómo configurar la memoria de Apache Spark Executor

¿Cómo puedo aumentar la memoria disponible para los nodos del ejecutor de chispa Apache? Tengo un archivo de 2 GB que es adecuado para cargar en Apache Spark. Estoy ejecutando apache spark por el momento en 1 máquina, por lo que el controlador y el ejecutor están en la misma máquina. La máquina...

124
¿Cómo imprimir el contenido de RDD?

Estoy intentando imprimir el contenido de una colección en la consola Spark. Tengo un tipo: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Y uso el comando: scala> linesWithSessionId.map(line => println(line)) Pero esto está impreso: res1:

111
importando pyspark en python shell

Esta es una copia de la pregunta de otra persona en otro foro que nunca fue respondida, así que pensé en volver a hacerla aquí, ya que tengo el mismo problema. (Ver http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Tengo Spark instalado correctamente en mi máquina y puedo ejecutar...

110
Cargar archivo CSV con Spark

Soy nuevo en Spark y estoy tratando de leer datos CSV de un archivo con Spark. Esto es lo que estoy haciendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Esperaría que esta llamada me diera una lista de las dos primeras columnas de mi archivo,...

107
Cómo sobrescribir el directorio de salida en Spark

Tengo una aplicación de transmisión de chispas que produce un conjunto de datos por cada minuto. Necesito guardar / sobrescribir los resultados de los datos procesados. Cuando intenté sobrescribir el conjunto de datos org.apache.hadoop.mapred.FileAlreadyExistsException detiene la...

101
Aplicación en ejecución Spark Kill

Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para eliminar el comando. Sin embargo, estoy usando la versión CDH y / bin /...