【发布时间】:2018-10-20 09:18:48
【问题描述】:
最近我们发现,由于 ETL 中的问题,我们的镶木地板中有重复的行。
我们启动了一个项目来删除重复的行(读取拼花、去重和回写)。令人惊讶的是,我们注意到实木复合地板实际上变大了!
如何解释?是否有可能由于数据量较小,某些压缩根本无法启动?
或者,我们是否应该寻找重复数据删除逻辑中的错误(尽管不太可能)?
【问题讨论】:
-
@user9613318 谢谢。如果您将此作为答案发布,我会接受。
标签: apache-spark pyspark parquet