【问题标题】:Removing data from parquet causes it to *grow* in size- why?从镶木地板中删除数据会导致它的大小*增长* - 为什么?
【发布时间】:2018-10-20 09:18:48
【问题描述】:

最近我们发现,由于 ETL 中的问题,我们的镶木地板中有重复的行。

我们启动了一个项目来删除重复的行(读取拼花、去重和回写)。令人惊讶的是,我们注意到实木复合地板实际上变大了!

如何解释?是否有可能由于数据量较小,某些压缩根本无法启动?

或者,我们是否应该寻找重复数据删除逻辑中的错误(尽管不太可能)?

【问题讨论】:

标签: apache-spark pyspark parquet


【解决方案1】:

您实际上无法从 parquet 文件中删除记录。如果您删除了一条记录,它仍然会存在。但是有关“删除”的记录的附加信息会添加到 parquet 文件中。

【讨论】:

    【解决方案2】:

    可能与 parquet 文件结构的变化有关。每个行组都有自己的元数据,如果您更改行组的数量,文件的大小可能会增加,这可能是您问题的答案。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-03-18
      • 2020-08-28
      • 1970-01-01
      • 2021-11-25
      • 2020-12-14
      • 2020-11-07
      • 1970-01-01
      • 2021-02-28
      相关资源
      最近更新 更多