【发布时间】:2019-03-18 03:56:39
【问题描述】:
我有一个运行 pyspark 的 EC2 实例,我能够连接到它 (ssh) 并在 Jupyter Notebook 中运行交互式代码。
我有一个 S3 存储桶,其中包含我想要读取的 csv 文件,当我尝试使用以下方式读取它时:
spark = SparkSession.builder.appName('Basics').getOrCreate()
df = spark.read.csv('https://s3.us-east-2.amazonaws.com/bucketname/filename.csv')
这会引发一条长长的 Python 错误消息,然后是与以下内容相关的内容:
Py4JJavaError:调用 o131.csv 时出错。
【问题讨论】:
标签: apache-spark pyspark