【发布时间】:2019-02-17 09:16:19
【问题描述】:
我的工作是读取 csv 文件,将其转换为数据帧并在 Parquet 中写入。我在 Parquet 中写入数据时使用附加模式。使用这种方法,每次写入都会生成一个单独的 Parquet 文件。我的问题是:
- 1) 如果每次我将数据写入 Parquet 模式时,都会获得一个新文件 附加,它会影响读取性能(因为数据现在 分布在不同长度的分区 Parquet 文件中)
- 2) 有没有办法纯粹基于生成 Parquet 分区 数据的大小?
- 3) 我们是否需要考虑自定义分区策略来实施 第 2 点? 我正在使用 Spark 2.3
【问题讨论】:
标签: apache-spark parquet