【问题标题】:pyspark not saving when reading parquet files from directory从目录读取镶木地板文件时,pyspark不保存
【发布时间】:2021-10-11 11:35:26
【问题描述】:

我正在尝试将大量 parquet 文件从一个目录加载到 pyspark,然后将它们保存到另一个目录。

我的代码如下:

df = spark.read.parquet('input_folder') \
  .write \
  .parquet('output_folder')

我收到大量错误列表,从:

发生异常:Py4JJavaError 调用时发生错误 o30.parquet.

当我尝试使用一个文件时 - 一切都很好:

df = spark.read.parquet('input_folder/file1.parquet') \
  .write \
  .parquet('output_folder')

计数记录工作正常:

df = spark.read.parquet('input_folder') \
  .count()

可能是什么原因?

【问题讨论】:

    标签: python pyspark parquet


    【解决方案1】:

    原因是第一个 parquet 文件是空的。希望它可以帮助某人。

    【讨论】:

      猜你喜欢
      • 2022-06-16
      • 2018-05-14
      • 2016-09-12
      • 2021-03-19
      • 2018-08-13
      • 2021-11-10
      • 2020-03-14
      • 1970-01-01
      相关资源
      最近更新 更多