【发布时间】:2019-01-25 07:45:47
【问题描述】:
我正在尝试在 PySpark 和 Notebook 中创建和分析数据框。
以下是我在 Jupyter Notebook 中的代码。
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.master("local") \
.appName("Neural Network Model") \
.config("spark.executor.memory", "6gb") \
.getOrCreate()
我能够启动 Spark 会话。
df1 = spark.createDataFrame([('John', 56, 80)])
print(df1.dtypes)
print(df1)
print(df1.show())
我能够创建 df1,dataframe,但不知何故,当我尝试在 df1.show() 中使用数据帧函数时收到错误消息
Py4JJavaError Traceback(最近调用 最后)在 2 打印(df1.dtypes) 3 打印(df1) ----> 4 打印(df1.show())
Py4JJavaError:调用 o501.showString 时出错。 : org.apache.spark.SparkException:作业因阶段失败而中止: 阶段 9.0 中的任务 0 失败 1 次,最近一次失败:丢失任务 0.0 在 9.0 阶段(TID 22、本地主机、执行程序驱动程序): org.apache.spark.SparkException:Python 工作者无法重新连接。 在 org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:170) 在 org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:97) 在 org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:117) 在 org.apache.spark.api.python.BasePythonRunner.compute(PythonRunner.scala:108) 在 org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:65) 在 org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
您能帮我解决这个问题吗?我不确定是系统问题还是我的代码。
谢谢!!!
【问题讨论】:
标签: dataframe pyspark jupyter-notebook