【发布时间】:2018-06-14 00:40:57
【问题描述】:
我正在使用 pyspark,但在写入 S3 时遇到问题,但从 S3 读取没有问题。
这是我的代码:
dic = {'a': {'c1(%)': 0.0, 'c2': 0, 'c3($)': 260, 'c4(%)': 4.79, 'c5': 78, 'c6': 352}, 'b': {'c1(%)': 0.0, 'c2': 0, 'c3($)': 5, 'c4(%)': 0.09, 'c5': 2, 'c6': 280}, 'c': {'c1(%)': 0.0, 'c2': 0, 'c3($)': 0, 'c4(%)': 0.0, 'c5': 0, 'c6': 267}}
df = pd.DataFrame(dic)
df.to_csv("s3://work/.../filename_2018-01-04_08:50:45.csv")
这是错误:
IOError: [Errno 2] No such file or directory: 's3://work/.../filename_2018-01-04_08:50:45.csv'
有什么问题?
【问题讨论】:
-
我猜 DF 的
to_csv方法将寻找写入本地文件系统中的某个位置并失败,因为本地没有这样的位置。您需要创建一个 Spark DF 而不是 Pandas DF,然后写入 s3 -
@ags29 如果我使用 spark dataFrame 它正在写入镶木地板,我希望在 S3 中有一个 CSV 文件。
-
见下文,可以使用格式参数将其保存为 csv