【发布时间】:2021-10-11 11:35:26
【问题描述】:
我正在尝试将大量 parquet 文件从一个目录加载到 pyspark,然后将它们保存到另一个目录。
我的代码如下:
df = spark.read.parquet('input_folder') \
.write \
.parquet('output_folder')
我收到大量错误列表,从:
发生异常:Py4JJavaError 调用时发生错误 o30.parquet.
当我尝试使用一个文件时 - 一切都很好:
df = spark.read.parquet('input_folder/file1.parquet') \
.write \
.parquet('output_folder')
计数记录工作正常:
df = spark.read.parquet('input_folder') \
.count()
可能是什么原因?
【问题讨论】: