Preguntas etiquetadas con pyspark

La API Spark Python (PySpark) expone el modelo de programación apache-spark a Python.

178
Rendimiento de chispa para Scala vs Python

Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la versión Scala de un código de preprocesamiento muy común...

111
importando pyspark en python shell

Esta es una copia de la pregunta de otra persona en otro foro que nunca fue respondida, así que pensé en volver a hacerla aquí, ya que tengo el mismo problema. (Ver http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Tengo Spark instalado correctamente en mi máquina y puedo ejecutar...

110
Cargar archivo CSV con Spark

Soy nuevo en Spark y estoy tratando de leer datos CSV de un archivo con Spark. Esto es lo que estoy haciendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Esperaría que esta llamada me diera una lista de las dos primeras columnas de mi archivo,...

101
Aplicación en ejecución Spark Kill

Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para eliminar el comando. Sin embargo, estoy usando la versión CDH y / bin /...