【发布时间】:2022-02-24 18:18:17
【问题描述】:
我已按照本指南在我的本地计算机 (Windows 10) 上安装了 spark:https://changhsinlee.com/install-pyspark-windows-jupyter/。
从 Anaconda 启动笔记本并运行时:
spark_session = SparkSession\
.builder\
.master("local[*]")\
.appName("Z_PA")\
.getOrCreate()
它需要很长时间并且不会完成(至少在 60 分钟内)。
在此之前,我收到错误“java-gateway-process-exited-before...”。阅读此步骤后:“ https://stackoverflow.com/questions/31841509/pyspark-exception-java-gateway-process-exited-before-sending-the-driver-its-po ”我安装了以下版本并更改了目录空格。
我下载并安装了:
- java版本“1.8.0_202”
- Anaconda:conda 4.11.0
- Python:Python 3.8.5
- 火花:火花3.0.3-bin-hadoop2.7
- winutils.exe(添加到 bin 文件夹)
Spark 存储在:C:\spark。 Java 存储在:C:\Java 我已经在我的“环境变量:用户变量...”中添加了两者。
- SPARK_HOME=C:\spark\spark-3.0.3-bin-hadoop2.7
- HADOOP_HOME= C:\spark\spark-3.0.3-bin-hadoop2.7
- JAVA_HOME=C:\Java\jdk1.8.0_202
- PYSPARK_DRIVER_PYTHON=jupyter
- PYSPARK_DRIVER_PYTHON_OPTS=笔记本
- 并将 spark 和 java 的 \bin 文件路径与我的路径系统变量相对应。
我也安装了 pyspark 和 findspark。 这些代码行执行没有任何问题:
import findspark
findspark.init('C:\spark\spark-3.0.3-bin-hadoop2.7')
findspark.find()
import pyspark # only run after findspark.init()
from pyspark import SparkContext
from pyspark.sql import SparkSession
有谁知道为什么需要这么长时间才能获得 sparksession 吗?我的安装中有什么似乎不正确的地方吗?
【问题讨论】:
标签: python java apache-spark pyspark anaconda