Parquet 和 Spark 中的分区策略答案

【问题标题】：Partitioning strategy in Parquet and SparkParquet 和 Spark 中的分区策略
【发布时间】：2019-02-17 09:16:19
【问题描述】：

我的工作是读取 csv 文件，将其转换为数据帧并在 Parquet 中写入。我在 Parquet 中写入数据时使用附加模式。使用这种方法，每次写入都会生成一个单独的 Parquet 文件。我的问题是：

【问题讨论】：

【解决方案1】：

会影响读取性能，如果 spark.sql.parquet.mergeSchema=true.

在这种情况下，Spark 需要访问每个文件并从中获取架构它。

在其他情况下，我相信它不会对读取性能产生太大影响。
没有办法纯粹根据数据大小生成。您可以使用 repartition 或 coalesce。后者会造成产出不均文件，但性能非常好。

另外，您有配置 spark.sql.files.maxRecordsPerFile 或选项 maxRecordsPerFile 防止文件过大，但通常是不是问题。
是的，我认为 Spark 没有内置 API 来按数据均匀分布尺寸。有Column Statistics Size Estimator 可能会对此有所帮助。

【讨论】：

我可能会遇到添加记录很少的情况，在这种情况下，如果我使用追加写入模式，它将创建一个数据很少的新分区。如果我使用 repartition 或 coalesce ，我必须读取整个 Parquet 数据，然后使用 coalesce 合并分区，删除所有旧分区，然后存储这个新的重新分区数据帧。这是正确的方法吗？