【发布时间】:2018-11-29 19:59:36
【问题描述】:
我正在尝试查询具有大量零件文件 (avro) 的 hdfs。最近我们进行了更改以降低并行度,因此零件文件的大小增加了,每个零件文件的大小在 750MB 到 2 GB 的范围内(我们使用 spark 流以 10 分钟的间隔将日期写入 hdfs,所以这些文件的大小取决于我们从上游处理的数据量)。部分文件的数量大约为 500。我想知道这些部分文件的大小/部分文件的数量是否会对 spark SQL 性能产生任何影响?
如果需要,我可以提供更多信息。
【问题讨论】:
-
文件越大越好 - 一般来说。什么小于 2GB?
-
每个部分文件的大小在 750 MB 到 2 GB 之间,所以我提到部分文件的大小不会超过 2 GB。
-
但那是一个模糊的陈述。
-
为问题添加了更多信息。
-
可能是接受或赞成答案的想法。
标签: apache-spark apache-spark-sql query-performance spark-avro