¿Cómo vincular PyCharm con PySpark?

80

Soy nuevo con apache spark y aparentemente instalé apache-spark con homebrew en mi macbook:

Last login: Fri Jan  8 12:52:04 on console
user@MacBook-Pro-de-User-2:~$ pyspark
Python 2.7.10 (default, Jul 13 2015, 12:05:58)
[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
16/01/08 14:46:44 INFO SparkContext: Running Spark version 1.5.1
16/01/08 14:46:46 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/01/08 14:46:47 INFO SecurityManager: Changing view acls to: user
16/01/08 14:46:47 INFO SecurityManager: Changing modify acls to: user
16/01/08 14:46:47 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(user); users with modify permissions: Set(user)
16/01/08 14:46:50 INFO Slf4jLogger: Slf4jLogger started
16/01/08 14:46:50 INFO Remoting: Starting remoting
16/01/08 14:46:51 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:50199]
16/01/08 14:46:51 INFO Utils: Successfully started service 'sparkDriver' on port 50199.
16/01/08 14:46:51 INFO SparkEnv: Registering MapOutputTracker
16/01/08 14:46:51 INFO SparkEnv: Registering BlockManagerMaster
16/01/08 14:46:51 INFO DiskBlockManager: Created local directory at /private/var/folders/5x/k7n54drn1csc7w0j7vchjnmc0000gn/T/blockmgr-769e6f91-f0e7-49f9-b45d-1b6382637c95
16/01/08 14:46:51 INFO MemoryStore: MemoryStore started with capacity 530.0 MB
16/01/08 14:46:52 INFO HttpFileServer: HTTP File server directory is /private/var/folders/5x/k7n54drn1csc7w0j7vchjnmc0000gn/T/spark-8e4749ea-9ae7-4137-a0e1-52e410a8e4c5/httpd-1adcd424-c8e9-4e54-a45a-a735ade00393
16/01/08 14:46:52 INFO HttpServer: Starting HTTP Server
16/01/08 14:46:52 INFO Utils: Successfully started service 'HTTP file server' on port 50200.
16/01/08 14:46:52 INFO SparkEnv: Registering OutputCommitCoordinator
16/01/08 14:46:52 INFO Utils: Successfully started service 'SparkUI' on port 4040.
16/01/08 14:46:52 INFO SparkUI: Started SparkUI at http://192.168.1.64:4040
16/01/08 14:46:53 WARN MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set.
16/01/08 14:46:53 INFO Executor: Starting executor ID driver on host localhost
16/01/08 14:46:53 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 50201.
16/01/08 14:46:53 INFO NettyBlockTransferService: Server created on 50201
16/01/08 14:46:53 INFO BlockManagerMaster: Trying to register BlockManager
16/01/08 14:46:53 INFO BlockManagerMasterEndpoint: Registering block manager localhost:50201 with 530.0 MB RAM, BlockManagerId(driver, localhost, 50201)
16/01/08 14:46:53 INFO BlockManagerMaster: Registered BlockManager
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.5.1
      /_/

Using Python version 2.7.10 (default, Jul 13 2015 12:05:58)
SparkContext available as sc, HiveContext available as sqlContext.
>>>

Me gustaría empezar a jugar para aprender más sobre MLlib. Sin embargo, uso Pycharm para escribir scripts en Python. El problema es: cuando voy a Pycharm e intento llamar a pyspark, Pycharm no encuentra el módulo. Intenté agregar la ruta a Pycharm de la siguiente manera:

No puedo vincular pycharm con chispa

Luego, desde un blog probé esto:

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="/Users/user/Apps/spark-1.5.2-bin-hadoop2.4"

# Append pyspark  to Python Path
sys.path.append("/Users/user/Apps/spark-1.5.2-bin-hadoop2.4/python/pyspark")

try:
    from pyspark import SparkContext
    from pyspark import SparkConf
    print ("Successfully imported Spark Modules")

except ImportError as e:
    print ("Can not import Spark Modules", e)
    sys.exit(1)

Y todavía no puedo empezar a usar PySpark con Pycharm, ¿alguna idea de cómo "enlazar" PyCharm con apache-pyspark ?.

Actualizar:

Luego busco la ruta de apache-spark y python para establecer las variables de entorno de Pycharm:

ruta de apache-chispa:

user@MacBook-Pro-User-2:~$ brew info apache-spark
apache-spark: stable 1.6.0, HEAD
Engine for large-scale data processing
https://spark.apache.org/
/usr/local/Cellar/apache-spark/1.5.1 (649 files, 302.9M) *
  Poured from bottle
From: https://github.com/Homebrew/homebrew/blob/master/Library/Formula/apache-spark.rb

ruta de Python:

user@MacBook-Pro-User-2:~$ brew info python
python: stable 2.7.11 (bottled), HEAD
Interpreted, interactive, object-oriented programming language
https://www.python.org
/usr/local/Cellar/python/2.7.10_2 (4,965 files, 66.9M) *

Luego, con la información anterior, intenté establecer las variables de entorno de la siguiente manera:

configuración 1

¿Alguna idea de cómo vincular correctamente Pycharm con pyspark?

Luego, cuando ejecuto un script de Python con la configuración anterior, tengo esta excepción:

/usr/local/Cellar/python/2.7.10_2/Frameworks/Python.framework/Versions/2.7/bin/python2.7 /Users/user/PycharmProjects/spark_examples/test_1.py
Traceback (most recent call last):
  File "/Users/user/PycharmProjects/spark_examples/test_1.py", line 1, in <module>
    from pyspark import SparkContext
ImportError: No module named pyspark

ACTUALIZACIÓN: Luego probé esta configuración propuesta por @ zero323

Configuración 1:

/usr/local/Cellar/apache-spark/1.5.1/ 

conf 1

afuera:

 user@MacBook-Pro-de-User-2:/usr/local/Cellar/apache-spark/1.5.1$ ls
CHANGES.txt           NOTICE                libexec/
INSTALL_RECEIPT.json  README.md
LICENSE               bin/

Configuración 2:

/usr/local/Cellar/apache-spark/1.5.1/libexec 

ingrese la descripción de la imagen aquí

afuera:

user@MacBook-Pro-de-User-2:/usr/local/Cellar/apache-spark/1.5.1/libexec$ ls
R/        bin/      data/     examples/ python/
RELEASE   conf/     ec2/      lib/      sbin/
tumbleweed
fuente

Respuestas:

110

Con paquete PySpark (Spark 2.2.0 y posterior)

Con la fusión de SPARK-1267 , debería poder simplificar el proceso pipinstalando Spark en el entorno que usa para el desarrollo de PyCharm.

  1. Vaya a Archivo -> Configuración -> Intérprete de proyectos
  2. Haga clic en el botón de instalación y busque PySpark

    ingrese la descripción de la imagen aquí

  3. Haga clic en el botón Instalar paquete.

Manualmente con la instalación de Spark proporcionada por el usuario

Crear configuración de ejecución :

  1. Vaya a Ejecutar -> Editar configuraciones
  2. Agregar nueva configuración de Python
  3. Establezca la ruta del script para que apunte al script que desea ejecutar
  4. Editar el campo de variables de entorno para que contenga al menos:

    • SPARK_HOME- debe apuntar al directorio con la instalación de Spark. Debe contener directorios como bin(con spark-submit, spark-shell, etc.) y conf(con spark-defaults.conf, spark-env.sh, etc.)
    • PYTHONPATH- debe contener $SPARK_HOME/pythony, opcionalmente, $SPARK_HOME/python/lib/py4j-some-version.src.zipsi no está disponible, de otro modo. some-versiondebe coincidir con la versión de Py4J utilizada por una instalación de Spark determinada (0.8.2.1 - 1.5, 0.9 - 1.6, 0.10.3 - 2.0, 0.10.4 - 2.1, 0.10.4 - 2.2, 0.10.6 - 2.3, 0.10.7 - 2.4 )

      ingrese la descripción de la imagen aquí

  5. Aplicar la configuración

Agregue la biblioteca PySpark a la ruta del intérprete (requerida para completar el código) :

  1. Vaya a Archivo -> Configuración -> Intérprete de proyectos
  2. Abra la configuración de un intérprete que desea usar con Spark
  3. Edite las rutas del intérprete para que contenga la ruta a $SPARK_HOME/python (un Py4J si es necesario)
  4. Guardar la configuración

Opcionalmente

  1. Instale o agregue a las anotaciones de tipo de ruta que coincidan con la versión de Spark instalada para obtener una mejor finalización y detección de errores estáticos (descargo de responsabilidad: soy un autor del proyecto).

Finalmente

Utilice la configuración recién creada para ejecutar su script.

zero323
fuente
9
Por cierto, así es como está editando las rutas del intérprete, al menos en PyCharm 2016: jetbrains.com/help/pycharm/2016.1/… Seleccione el botón "Mostrar rutas para el intérprete seleccionado"
AlonL
3
En la versión Mac de PyCharm (v-2017.2), el intérprete del proyecto está en Preferencias ... en lugar de Archivo / Configuración
Certeza aleatoria
1
Con la opción 1, ¿cómo agrega Spark JAR / paquetes? por ejemplo, necesito com.databricks: spark-redshift_2.10: 3.0.0-preview1
lfk
@lfk Ya sea a través de archivos de configuración ( spark-defaults.conf) o mediante argumentos de envío, lo mismo que con el cuaderno Jupyter . Los argumentos de envío se pueden definir en las variables de entorno de PyCharm, en lugar del código, si prefiere esta opción.
10465355 dice Reincorporar a Monica
38

Así es como resolví esto en mac osx.

  1. brew install apache-spark
  2. Agregue esto a ~ / .bash_profile

    export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1`
    export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec"
    export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
    export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH
    
  3. Agregue pyspark y py4j a la raíz del contenido (use la versión correcta de Spark):

    /usr/local/Cellar/apache-spark/1.6.1/libexec/python/lib/py4j-0.9-src.zip
    /usr/local/Cellar/apache-spark/1.6.1/libexec/python/lib/pyspark.zip
    

ingrese la descripción de la imagen aquí

sthomps
fuente
¿Qué versión de pycharm es esta? Estoy en la edición de la comunidad 2016.1 y no veo esta ventana.
ravindrab
2016.1 Estoy en osx pero debería ser similar. Vaya a 'Preferencias'. Haga clic en su proyecto a la izquierda.
sthomps
Gracias. Esto me ayudó con IntelliJ IDEA, que no tiene la configuración de intérprete de proyectos.
OneCricketeer
¿Podría explicar qué hace la adición a la raíz del contenido? No necesitaba hacer eso ... Solo puse el $SPARK_HOME/pythonen la ruta de clase del intérprete y agregué las variables de entorno y funciona como se esperaba.
OneCricketeer
@ cricket_007 El tercer punto: Add pyspark and py4j to content root (use the correct Spark version)me ayudó a completar el código. ¿Cómo lo consiguió cambiando de intérprete de proyectos?
Ajeet Shah
13

Aquí está la configuración que me funciona (Win7 64bit, PyCharm2017.3CE)

Configurar Intellisense:

  1. Haga clic en Archivo -> Configuración -> Proyecto: -> Intérprete del proyecto

  2. Haga clic en el icono de rueda dentada a la derecha del menú desplegable Project Interpreter

  3. Haga clic en Más ... en el menú contextual.

  4. Elija el intérprete, luego haga clic en el ícono "Mostrar rutas" (abajo a la derecha)

  5. Haga clic en el icono + dos agregue las siguientes rutas:

    \ python \ lib \ py4j-0.9-src.zip

    \ bin \ python \ lib \ pyspark.zip

  6. Haga clic en Aceptar, Aceptar, Aceptar

Continúe y pruebe sus nuevas capacidades intellisense.

Miguel
fuente
1
Respuesta muy necesaria :)
Rohit Nimmala
5

Configurar pyspark en pycharm (windows)

File menu - settings - project interpreter - (gearshape) - more - (treebelowfunnel) - (+) - [add python folder form spark installation and then py4j-*.zip] - click ok

Asegúrese de que SPARK_HOME esté configurado en el entorno de Windows, pycharm tomará desde allí. Para confirmar :

Run menu - edit configurations - environment variables - [...] - show

Opcionalmente, configure SPARK_CONF_DIR en variables de entorno.

Gaurav Khare
fuente
4

Usé la siguiente página como referencia y pude obtener pyspark / Spark 1.6.1 (instalado a través de homebrew) importado en PyCharm 5.

http://renien.com/blog/accessing-pyspark-pycharm/

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="/usr/local/Cellar/apache-spark/1.6.1"

# Append pyspark  to Python Path
sys.path.append("/usr/local/Cellar/apache-spark/1.6.1/libexec/python")

try:
    from pyspark import SparkContext
    from pyspark import SparkConf
    print ("Successfully imported Spark Modules")
except ImportError as e:
    print ("Can not import Spark Modules", e)
sys.exit(1)

Con lo anterior, pyspark se carga, pero obtengo un error de puerta de enlace cuando intento crear un SparkContext. Hay algún problema con Spark de homebrew, así que acabo de tomar Spark del sitio web de Spark (descargue el Pre-construido para Hadoop 2.6 y posterior) y apunte a los directorios spark y py4j debajo de eso. ¡Aquí está el código en pycharm que funciona!

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="/Users/myUser/Downloads/spark-1.6.1-bin-hadoop2.6"

# Need to Explicitly point to python3 if you are using Python 3.x
os.environ['PYSPARK_PYTHON']="/usr/local/Cellar/python3/3.5.1/bin/python3"

#You might need to enter your local IP
#os.environ['SPARK_LOCAL_IP']="192.168.2.138"

#Path for pyspark and py4j
sys.path.append("/Users/myUser/Downloads/spark-1.6.1-bin-hadoop2.6/python")
sys.path.append("/Users/myUser/Downloads/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip")

try:
    from pyspark import SparkContext
    from pyspark import SparkConf
    print ("Successfully imported Spark Modules")
except ImportError as e:
    print ("Can not import Spark Modules", e)
    sys.exit(1)

sc = SparkContext('local')
words = sc.parallelize(["scala","java","hadoop","spark","akka"])
print(words.count())

Recibí mucha ayuda de estas instrucciones, que me ayudaron a solucionar problemas en PyDev y luego hacerlo funcionar PyCharm - https://enahwe.wordpress.com/2015/11/25/how-to-configure-eclipse-for-developing -con-python-y-chispa-en-hadoop /

Estoy seguro de que alguien ha pasado algunas horas golpeando su cabeza contra su monitor tratando de que esto funcione, ¡así que espero que esto ayude a salvar su cordura!

obug
fuente
2

Utilizo condapara administrar mis paquetes de Python. Entonces, todo lo que hice en una terminal fuera de PyCharm fue:

conda install pyspark

o, si desea una versión anterior, diga 2.2.0, luego haga lo siguiente:

conda install pyspark=2.2.0

Esto también tira automáticamente de py4j. PyCharm ya no se quejó import pyspark...y la finalización del código también funcionó. Tenga en cuenta que mi proyecto PyCharm ya estaba configurado para usar el intérprete de Python que viene con Anaconda.

sarcasmo
fuente
1

Mira este video.

Suponga que su directorio Spark Python es: /home/user/spark/python

Suponga que su fuente de Py4j es: /home/user/spark/python/lib/py4j-0.9-src.zip

Básicamente, agrega el directorio spark python y el directorio py4j dentro de eso a las rutas del intérprete. No tengo suficiente reputación para publicar una captura de pantalla o la tendría.

En el video, el usuario crea un entorno virtual dentro de pycharm, sin embargo, puede crear el entorno virtual fuera de pycharm o activar un entorno virtual preexistente, luego iniciar pycharm con él y agregar esas rutas a las rutas del intérprete del entorno virtual desde dentro de pycharm.

Utilicé otros métodos para agregar chispa a través de las variables de entorno bash, que funcionan muy bien fuera de pycharm, pero por alguna razón no fueron reconocidos dentro de pycharm, pero este método funcionó perfectamente.

Jason Wolosonovich
fuente
@ml_student También mencionaré que si sigues el método de video (que sería mi recomendación por su velocidad y facilidad), también necesitarás crear una instancia de un SparkContextobjeto al comienzo de tu script. Observo esto porque el uso de la consola interactiva pyspark a través de la línea de comandos crea automáticamente el contexto para usted, mientras que en PyCharm, debe ocuparse de eso usted mismo; la sintaxis sería:sc = SparkContext()
Jason Wolosonovich
1

Debe configurar PYTHONPATH, SPARK_HOME antes de iniciar IDE o Python.

Windows, editar variables de entorno, agregar Spark Python y Py4j en

PYTHONPATH=%PYTHONPATH%;{py4j};{spark python}

Unix,

export PYTHONPATH=${PYTHONPATH};{py4j};{spark/python}
tczhaodachuan
fuente
1

La forma más sencilla es instalar PySpark a través del intérprete de proyectos.

  1. Vaya a Archivo - Configuración - Proyecto - Intérprete de proyectos
  2. Haga clic en el icono + en la parte superior derecha.
  3. Busque PySpark y otros paquetes que desee instalar
  4. Finalmente haga clic en instalar paquete
  5. ¡¡Está hecho!!
yogesh
fuente
0

De la documentación :

Para ejecutar aplicaciones Spark en Python, use el script bin / spark-submit que se encuentra en el directorio Spark. Este script cargará las bibliotecas Java / Scala de Spark y le permitirá enviar aplicaciones a un clúster. También puede usar bin / pyspark para iniciar un shell de Python interactivo.

Está invocando su script directamente con el intérprete CPython, lo que creo que está causando problemas.

Intente ejecutar su script con:

"${SPARK_HOME}"/bin/spark-submit test_1.py

Si eso funciona, debería poder hacerlo funcionar en PyCharm configurando el intérprete del proyecto en spark-submit.

grc
fuente
debería poder hacerlo funcionar en PyCharm configurando el intérprete del proyecto para enviar por chispa - Lo intenté. "El archivo seleccionado no es un hogar válido para Python SDK". Lo mismo parabin/pyspark
OneCricketeer
0

Seguí los tutoriales en línea y agregué las variables env a .bashrc:

# add pyspark to python
export SPARK_HOME=/home/lolo/spark-1.6.1
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH

Luego obtuve el valor en SPARK_HOME y PYTHONPATH para pycharm:

(srz-reco)lolo@K:~$ echo $SPARK_HOME 
/home/lolo/spark-1.6.1
(srz-reco)lolo@K:~$ echo $PYTHONPATH
/home/lolo/spark-1.6.1/python/lib/py4j-0.9-src.zip:/home/lolo/spark-1.6.1/python/:/home/lolo/spark-1.6.1/python/lib/py4j-0.9-src.zip:/home/lolo/spark-1.6.1/python/:/python/lib/py4j-0.8.2.1-src.zip:/python/:

Luego lo copié en Run / Debug Configurations -> Variables de entorno del script.

thecheech
fuente
0

Usé Pycharm para vincular Python y Spark. Tenía Java y Spark preinstalados en mi PC.

Estos son los pasos que seguí

  1. Crear nuevo proyecto

  2. En Configuración para nuevo proyecto -> Seleccioné Python3.7 (venv) como mi python. Este es el archivo python.exe presente en la carpeta venv dentro de mi nuevo proyecto. Puedes dar cualquier python disponible en tu pc.

  3. En la configuración -> Estructura del proyecto -> Agregar Content_Root

    Agregué dos carpetas zip como directorios de Spark

    1. C: \ Users \ USER \ spark-3.0.0-preview2-bin-hadoop2.7 \ python \ lib \ py4j-0.10.8.1-src.zip
    2. C: \ Users \ USER \ spark-3.0.0-preview2-bin-hadoop2.7 \ python \ lib \ pyspark.zip
  4. Crea un archivo de Python dentro del nuevo proyecto. Luego vaya a Editar configuraciones (en el menú desplegable del lado superior derecho) y seleccione Variables de entorno

  5. Usé las siguientes variables de entorno y funcionó bien para mí

    1. PYTHONUNBUFFERED 1
    2. JAVA_HOME C: \ Archivos de programa \ Java \ jre1.8.0_251
    3. PYSPARK_PYTHON C: \ Usuarios \ USUARIO \ PycharmProjects \ pyspark \ venv \ Scripts \ python.exe
    4. SPARK_HOME C: \ Users \ USER \ spark-3.0.0-preview2-bin-hadoop2.7
    5. HADOOP_HOME C: \ Users \ USER \ winutils

    es posible que desee descargar adicionalmente winutils.exe y colocarlo en la ruta C: \ Users \ USER \ winutils \ bin

  6. Proporcione las mismas variables de entorno dentro de Editar configuraciones -> Plantillas

  7. Vaya a Configuración -> Intérprete de proyectos -> importar pyspark

  8. ¡Ejecute su primer programa pyspark!

Trabajo Thomas
fuente
0

Este tutorial de pyspark_xray , una herramienta que permite depurar el código pyspark en PyCharm, puede responder a su pregunta. Cubre tanto Windows como Mac.

Preparación

  • Abra la línea de comando, inicie el javacomando, si obtiene un error, luego descargue e instale java (versión 1.8.0_221 a partir de abril de 2020)
  • Si no lo tiene, descargue e instale PyCharm Community Edition (versión 2020.1 a partir de abril de 2020)
  • Si no lo tiene, descargue e instale Anaconda Python 3.7 runtime
  • Descargar e instalar chispa última pre-construido para Apache Hadoop (chispa-2.4.5-bin-hadoop2.7 a partir de abril de 2020, 200 MB de tamaño +) a nivel local
    • Ventanas :
      • si no tiene la herramienta para descomprimir, descargue e instale 7zip, una herramienta gratuita para comprimir / descomprimir archivos
      • extraer el contenido del archivo spark tgz a la carpeta c: \ spark-xxx-bin-hadoopx.x
      • sigue los pasos de este tutorial
        • instalar winutils.exeen la c:\spark-x.x.x-bin-hadoopx.x\bincarpeta, sin este ejecutable, se producirá un error al escribir la salida del motor
    • Mac :
      • extraer el contenido del archivo spark tgz en la carpeta \ Users [NOMBRE DE USUARIO] \ spark-xxx-bin-hadoopx.x
  • instalar pyspark por pip install pysparkoconda install pyspark

Ejecutar configuración

Ejecuta la aplicación Spark en un clúster desde la línea de spark-submitcomandos emitiendo un comando que envía un trabajo Spark al clúster. Pero desde PyCharm u otro IDE en una computadora portátil o PC local, spark-submitno se puede usar para iniciar un trabajo de Spark. En su lugar, siga estos pasos para configurar una configuración de ejecución de demo_app de pyspark_xray en PyCharm

  • Establecer variables de entorno:
    • establecer HADOOP_HOMEvalor enC:\spark-2.4.5-bin-hadoop2.7
    • establecer SPARK_HOMEvalor enC:\spark-2.4.5-bin-hadoop2.7
  • use Github Desktop u otras herramientas de git para clonar pyspark_xraydesde Github
  • PyCharm> Abrir pyspark_xray como proyecto
  • Abra PyCharm> Ejecutar> Editar configuraciones> Valores predeterminados> Python e ingrese los siguientes valores:
    • Variables de entorno (Windows):PYTHONUNBUFFERED=1;PYSPARK_PYTHON=python;PYTHONPATH=$SPARK_HOME/python;PYSPARK_SUBMIT_ARGS=pyspark-shell;
  • Abra PyCharm> Ejecutar> Editar configuraciones, cree una nueva configuración de Python, apunte el script a la ruta driver.pyde pyspark_xray> demo_app

controlador-ejecutar-config

Bradyjiang
fuente
-1

La forma mas facil es

Vaya a la carpeta site-packages de su instalación de anaconda / python, copie y pegue las carpetas pyspark y pyspark.egg-info allí.

Reinicie Pycharm para actualizar el índice. Las dos carpetas mencionadas anteriormente están presentes en la carpeta Spark / Python de su instalación Spark. De esta manera, también obtendrá sugerencias de finalización de código de pycharm.

Los paquetes del sitio se pueden encontrar fácilmente en su instalación de Python. En anaconda está bajo anaconda / lib / pythonx.x / site-packages

HS Rathore
fuente
De esta manera, pycharm pensará que es otra lib.
HS Rathore
-1

Intenté agregar el módulo pyspark a través del menú Project Interpreter, pero no fue suficiente ... hay una serie de variables de entorno del sistema que deben configurarse como SPARK_HOMEy una ruta /hadoop/bin/winutils.exepara leer archivos de datos locales. También debe utilizar las versiones correctas de Python, JRE, JDK, todas disponibles en las variables de entorno del sistema y PATH. Después de buscar mucho en Google, las instrucciones de estos videos funcionaron

Zac Roberts
fuente